DeepMind团队:“伊萨卡”复原希腊铭文只是开始

发表于 3年以前  | 总阅读数:584 次

记者 / 贺梨萍

他们最新瞄准的是那些有着数千年历史的残缺铭文。历史学家们依靠不同的来源重建过往文明的思想、社会和历史,他们的资料大多基于本文,或写在卷轴上,或刻在石头上。铭文就在其中。

“一切都始于与Thea Sommerschield博士讨论历史学家最具挑战性的任务时的一次谈话,我们立刻看到了人工智能和历史研究之间的合作潜力。”DeepMind的希腊人工智能研究科学家Yannis Assael博士和Sommerschield在接受澎湃新闻(www.thepaper.cn)记者采访时如是谈起他们这项最新兴趣的起点。Sommerschield系意大利威尼斯大学人文系玛丽·居里研究员。

Yannis Assael博士(左)和Thea Sommerschield博士。

Yannis Assael博士(左)和Thea Sommerschield博士。

北京时间3月10日凌晨,国际顶级学术期刊《自然》(Nature)在线发表了Assael和Sommerschield作为共同通讯作者的一项新研究,题为“使用深度神经网络复原和归因古代文本”( Restoring and attributing ancient texts using deep neural networks)。研究团队训练了一种深度神经网络,名为伊萨卡(Ithaca)。

伊萨卡是以荷马史诗《奥德赛》中的希腊岛屿伊萨卡命名,是古希腊神话英雄奥德修斯的故乡。“我们开发的伊萨卡是第一个可以复原受损铭文的缺失文本、识别铭文原始位置、确定创建日期的深度神经网络。”

评估显示,伊萨卡单独使用于复原受损希腊铭文文本时可达到62%的准确率,在历史学家使用时可达72%的准确度。而且,伊萨卡还能协助确定铭文的书写位置和时间。在实验中,它能以71%的准确度判断这些铭文的原始位置,鉴定年代与历史学家提出的范围相差少于30年。

研究团队认为,这些发现或可释放人工智能与历史学家的合作潜力,并改进我们对人类历史的理解。“我们确实看到了文化和人文领域人工智能跨学科研究的巨大潜力。”Assael强调。

复原损坏的铭文。这一铭文记录了一项关于雅典卫城的法令。

深度神经网络“伊萨卡”

这项研究由DeepMind、威尼斯大学人文系、牛津大学古典学院以及雅典经济与商业大学信息学系联合完成。

Assael在希腊马其顿大学获得应用信息学文凭后,相继在牛津大学、帝国理工学院学习,最终于2019年在牛津大学获得机器学习博士。而实际上,其从2007年起就开始成为了自由开发者,彼时尚在念高中。其间还创立了AccuInstruments、LipNet Artificial Intelligence等公司。直至2017年,其加入DeepMind。Assael还曾登上2021福布斯欧洲地区“30岁以下30位精英”榜单。

Sommerschieldze则是研究古希腊和古罗马文字的历史学家和铭文学家。其将机器学习应用于研究古地中海的书写文化,她还研究古代和古典西西里岛的社会和文化历史。其现为威尼斯大学的玛丽·居里研究员,同时借调在DeepMind,她也是哈佛大学希腊研究中心的研究人员。

DeepMind在一份新闻稿中写道,人类文字的诞生标志着历史的开端,对我们理解过去的文明和今天生活的世界至关重要。例如,2500多年前,希腊人开始在石头、陶器和金属上书写,记录从租约、法律到日历和预言的一切,让人们对地中海地区有了详细的了解。

然而,Assael等人意识到一个问题,这些记录通常都是不完整的。许多幸存下来的铭文在几个世纪的时间里遭到了破坏,或者从原来的位置被移走或者贩运。此外,现代年代测定技术,如放射性碳年代测定法,无法在这些材料上使用。而传统的铭文学方法涉及到高度复杂、耗时和专业的工作流程,这使得解读铭文既困难又费时。

Assael对澎湃新闻记者表示,在将人工智能切入到铭文复原中,他们的工作涉及三项主要的任务,“文本复原、确定原始的地理位置,以及追溯至铭文书写的时间。”

他们在论文中也指出,受生物神经网络的启发,深度神经网络可以发现和利用大量数据中复杂的统计模式。而近年来计算能力的提高,使这些模型能够应对包括古代语言研究在内的许多领域中日益复杂的挑战。

Assael将目标旨在完成上述三项任务的深度神经网络命名为伊萨卡(Ithaca),该工作始于2019年。“伊萨卡接受了近8万份由帕卡德人文学院(PHI,一个非营利性基金会)提供的希腊铭文数字数据集的培训,它的架构旨在捕捉上下文并有效地处理受损的单词,同时它还可以并行地“注意”输入的不同部分。”他表示。

这些希腊铭文的时间跨度在公元前7世纪至公元5世纪,并横跨古地中海世界。论文中对这些铭文的选择做出2点解释,“首先,希腊铭文记录的内容和语境的多样性,对语言处理构成了极大的挑战;其次,古希腊数字化语料库的可用性,这是训练机器学习模型的重要资源。”

Assael提到,伊萨卡是一种基于Transformer的人工神经网络,它使用注意力机制来衡量输入的不同部分对模型决策过程的影响。相比于循环神经网(RNN)、卷积神经网络(CNN)等,Transformer是一种新的神经网络结构,其仅基于注意力机制,抛弃了传统的循环或卷积神经网络结构。

研究团队提到,自然语言处理模型通常使用单词进行训练,因为它们在句子中出现的顺序和它们之间的关系提供了额外的上下文和含义。例如,“once upon a time”比单独看到的每个字符或单词有更多的含义。然而在这项研究中的挑战是,这些铭文都已损坏,而且经常丢失文本块。

“为了确保模型在使用部分字符时仍能正常工作,我们既使用单词也使用单个字符输入来训练它。”他们提到,模型核心的注意力机制并行地评估这两种输入,允许伊萨卡根据需要评估铭文。

此外,为了最大化伊萨卡作为研究工具的价值,研究团队还开发了一些视觉辅助工具,以确保历史学家能够轻松地解释伊萨卡的结果。

伊萨卡处理δήμο το αθηναίων’ (the people of Athens)的过程。该短语的前三个字符被隐藏,最终提出了修复建议。同时,伊萨卡还预测了铭文的地区和日期。

希腊铭文复原仅有助于理解全球文明图景的一部分

Assael对澎湃新闻记者表示,伊萨卡的目标是提高我们对古代史的理解,并为历史学家提供一个方便的工具来帮助他们的研究。

“出于这个原因,为了让历史学家能够解释伊萨卡,我们创造了大量的可视化图像来呈现所有的伊萨卡推测。这些可视化技术允许专家们使用他们的背景知识来选择最合适的输出,并可能对未探索的历史见解有所启发。”他进一步提到。

论文中详细提到,对于复原任务,伊萨卡并不是提供单一的假设,而是提供了一组根据概率排序的前20个解码预测。在确定地理任务方面,伊萨卡在84个区域中对输入文本进行分类,并通过地图和条形图可视化地实现可能区域预测的排名列表。

在年代方面,为增加可解释性,伊萨卡也不是输出一个单一的时间,而是预测时间的分类分布。更准确地说,伊萨卡将公元前800年至公元800年之间的所有时间处理为,取每10年为一个跨度,也就是说有160个10年。例如,如果日期范围在公元前300至公元前250年间,也就是5个10年,每一个概率分别为20%;而日期如果在公元前305年,则将以100%的概率指定为出自公元前300至公元前310年。

评估显示,在复原文本方面,伊萨卡始终优于其他竞争方法,字符错误率(CER)为26.3%,top 1准确率为61.8%。对复原铭文文本和确定原始的地理位置方面,研究团队还引用top-k准确率来衡量,即正确的复原或地理位置是否在前k项预测中。

具体来说,与人类历史学家相比,伊萨卡实现了更低的字符错误率(CER),人类历史学家该项分数为59.6%。另外,与研究团队此前开发的专注于文本复原的皮提亚(Pythia)相比,表现也更为优秀。皮提亚名字取自希腊神殿德尔斐中为阿波罗神传达神谕的女祭司。在文本复原方面,皮提亚皮的字符错误率(CER)为47.0%,虽然高于伊萨卡,但也高于人类历史学家。

值得注意的是,当人类历史学家与伊萨卡合作时,历史学家的字符错误率(CER)大幅降低到18.3%,top 1准确率则从25.3%大幅提升至71.7%。

在地理定位方面,伊萨卡top 1预测准确率为70.8%,top 3预测准确率为82.1%。对于年代追溯,伊萨卡与历史学家提出的范围相差少于30年。

“值得注意的是,在我们的评估过程中,我们看到了多个伊萨卡与历史学家共识一致的例子。”Assael举例谈到,他们看到了伊萨卡如何将雅典的一篇提到尼基亚斯(Nikias)将军的铭文追溯到公元前413年,“这与历史学家提出的范围完全吻合。”

他补充到,“在进一步研究中,我们将伊萨卡的关注重点可视化,看看哪些部分的输入对这一预测贡献最大。我们看到的是个人姓名(Νικίας,“Nikias”)和希腊指挥官的军衔(στρατεγοῖς,“generals”)。尼基亚斯在雅典远征西西里岛的过程中扮演了关键的角色,而这篇铭文也与这一历史事件有关。

论文中也提到了另一案例来展示伊萨卡的潜力。研究团队注意到,目前历史学家对雅典颁布的一系列重要法令的日期存在分歧,这些法令是在苏格拉底和伯里克利等著名人物在世的时期颁布的。长期以来,这些法令被认为是在公元前446/445年之前写的。然而,也有新的证据表明,更有可能是公元前420年。

他们认为,虽然看起来差别不大,但这些法令对我们理解古代雅典的政治史是至关重要的。值得关注的是,伊萨卡对这些法令的平均预测日期是公元前421年,这与最新的推测日期几乎一致。

“雅典帝国主义是希腊历史上最重要的时刻之一。在任何情形下,伊萨卡对这组铭文的预测都不会超过公元前433年,平均预测日期是公元前421年。”研究团队认为,历史学家现在可以使用伊萨卡的可解释性工具来进一步研究这些预测,并使雅典的历史更加清晰。

Assael同时强调,模型改进的空间总是存在的。“特别是随着新铭文的发现,将会为这类文本进一步增加数字文本存储库。”

值得一提的是,Assael认为,伊萨卡很容易适用于任何古代语言,而尽管古希腊在我们理解地中海世界的过程中发挥了重要作用,但它仍只是全球文明图景的一部分。“从拉丁语到玛雅语,以及任何书写媒介,从莎草纸到手稿,我们真的很高兴看到伊萨卡将用于更多新的方向。”

此外,研究团队在论文最后还指出,他们创建了一个开源和公开可用的接口(https://ithaca.deepmind.com),便于历史学家能够使用伊萨进行个人研究,同时促进进一步应用的开发。

“我们确实看到了文化和人文领域人工智能跨学科研究的巨大潜力。”Assael表示,目前仅仅是伊萨卡这样的工具的开始,机器学习和人文学科之间合作的潜力也刚刚展示出来。

 相关推荐

刘强东夫妇:“移民美国”传言被驳斥

京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。

发布于:1年以前  |  808次阅读  |  详细内容 »

博主曝三大运营商,将集体采购百万台华为Mate60系列

日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。

发布于:1年以前  |  770次阅读  |  详细内容 »

ASML CEO警告:出口管制不是可行做法,不要“逼迫中国大陆创新”

据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。

发布于:1年以前  |  756次阅读  |  详细内容 »

抖音中长视频App青桃更名抖音精选,字节再发力对抗B站

今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。

发布于:1年以前  |  648次阅读  |  详细内容 »

威马CDO:中国每百户家庭仅17户有车

日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。

发布于:1年以前  |  589次阅读  |  详细内容 »

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。

发布于:1年以前  |  449次阅读  |  详细内容 »

苹果据称正引入3D打印技术,用以生产智能手表的钢质底盘

据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。

发布于:1年以前  |  446次阅读  |  详细内容 »

千万级抖音网红秀才账号被封禁

9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...

发布于:1年以前  |  445次阅读  |  详细内容 »

亚马逊股东起诉公司和贝索斯,称其在购买卫星发射服务时忽视了 SpaceX

9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。

发布于:1年以前  |  444次阅读  |  详细内容 »

苹果上线AppsbyApple网站,以推广自家应用程序

据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。

发布于:1年以前  |  442次阅读  |  详细内容 »

特斯拉美国降价引发投资者不满:“这是短期麻醉剂”

特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。

发布于:1年以前  |  441次阅读  |  详细内容 »

光刻机巨头阿斯麦:拿到许可,继续对华出口

据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。

发布于:1年以前  |  437次阅读  |  详细内容 »

马斯克与库克首次隔空合作:为苹果提供卫星服务

近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。

发布于:1年以前  |  430次阅读  |  详细内容 »

𝕏(推特)调整隐私政策,可拿用户发布的信息训练 AI 模型

据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。

发布于:1年以前  |  428次阅读  |  详细内容 »

荣耀CEO谈华为手机回归:替老同事们高兴,对行业也是好事

9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI操控无人机能力超越人类冠军

《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。

发布于:1年以前  |  423次阅读  |  详细内容 »

AI生成的蘑菇科普书存在可致命错误

近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。

发布于:1年以前  |  420次阅读  |  详细内容 »

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”

发布于:1年以前  |  411次阅读  |  详细内容 »

国产扫地机器人热销欧洲,国产割草机器人抢占欧洲草坪

2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。

发布于:1年以前  |  406次阅读  |  详细内容 »

罗永浩吐槽iPhone15和14不会有区别,除了序列号变了

罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。

发布于:1年以前  |  398次阅读  |  详细内容 »