梦晨 萧箫 发自 凹非寺
换成诗表现又将如何?
虽然翻译出来不是很有文学性,但AI正确理解到了“望着同一个月亮”这层意思。
嚯,这个翻译极大地引起了我的兴趣。
如果百度和微软一起上考场
既然翻译出正确词意不是太难,那文言文中的特殊语法AI能否掌握?
为了更好地评估微软翻译的能力,这里请出老牌选手百度翻译,让它们比试一下。
第一题:秦时明月汉时关
这里考点是互文的修辞方法,应该理解成秦汉时期的明月、秦汉时期的关口。
百度的答案是:
看来百度没理解到位,再看看微软的答案:
微软正确理解了互文,率先拿下1分。
第二题:春风又绿江南岸
这句的考点是词类活用,绿本来是个形容词,在这里用作动词。
还是百度先来:
没问题,接下来是微软:
等一下,虽然绿用作动词翻译对了,可是后面怎么多了一个“可是”?
难道……把后半句诗也输进去试试:
果然如此,看来微软翻译在用整句进行训练的时候掌握了句与句之间的转折关系,后来不知怎么又算到前半句里了。
这次百度扳回一局,1:1平。
最后一题考验一下文言文中的另一个常见语法现象——倒装
比如《邹忌讽齐王纳谏》中的“我孰与城北徐公美?”
按惯例百度先:
然后是微软:
看来两个AI都学会了倒装句的用法,最终结果2:2平,各有千秋。
微软翻译虽然多学会了一个互文,但毕竟还是年轻选手,对句子之间关系的处理需要再练习。
接下来挑战一下微软文言文翻译的极限。
比如维基百科其实就有个文言文版叫维基大典,里面刚好有微软的词条。
来试试让微软AI翻译一下自己公司的介绍:
看起来现代的伪文言文对于这个刚出生的小AI来说还是太苛刻了。
虽然也特别训练了“微软”和“电脑”这种现代才出现的名词,但遇到“一九七五年”这种古代不用的表达就不行了,前老板比尔盖茨的名字也没认出来。
“立之者”这里还按古文的语境脑补出一个“国君”,可能这就是过拟合吧。
说到现代的表达方式,其实这个翻译工具还可以倒过来用,把白话文译成文言文。
比如诸葛丞相那句“我从未见过有如此厚颜无耻之人!”要是用文言文说出来是不是就更对味了?
那么,这样的模型是怎么“炼成”的呢?
Transformer加成,专攻训练数据
用AI搞文言文翻译,确实不是头一回见。
百度是最早用机器学习做文言文翻译的,还申请过相关专利:“一种在白话文与文言文之间进行文体转换的方法和设备”。
相关文言文翻译的模型也不少,从机器学习、RNN到Transformer都有,像微软这次采用的,就是Transformer模型:
△图源:微软研究院AI头条
不过,文言文翻译中的训练数据,却一直是个难点。
相比于其他主流语言(中文现代文、英文等),文言文可以说是训练数据极少,同时还存在句式变换、繁简混合等问题,造成翻译的生硬。
这次微软的文言文翻译,主要就解决了四个方面的数据问题:
其一,针对数据量不足,利用相同字词进行数据合成和增强。文言文和现代文有一些相同含义的字词,如果对这些词语进行召回、对齐,再扩展到短词短句,就能合成大量可用的训练数据。
其二,针对句式变换不灵活,对数据格式进行变形,提升鲁棒性。文言文断句和现代文不太一样,为此研究人员通过数据格式变形,来扩大训练数据量,让模型也学会翻译类似语句。
其三,针对字体识别不力,用简繁混合数据训练,提升模型识别能力。为了让机器学习能同时识别简繁混合的文言文,研究人员在训练模型时会将简体中文和繁体中文数据混合在一起进行训练,确保翻译模型不出错。
其四,针对现代文的“新词”,专门建立相关数据集和识别模型,确保不“乱翻译”。为了避免模型在遇到现代文中的“高铁、电脑、互联网”这种词时出现混乱(例如将高铁翻译成高处的铁块),研究人员建了一个模型,专门用来识别这些新词。除了新词,也针对博客、论坛、微博等新文体进行训练。
然而这都还只是文言文和中文之间的互译,整点英文试试?
英译中,bug藏不住了
这次微软的文言文翻译是直接整合到了Bing翻译里,难道还可以把文言文翻译成外语?
先挑战一下单个的英文句子:
Never gonna give you up
看来简单句没有难倒AI,我们提升一下难度,用一首比较著名的英文诗“当你老了”试试:
等等,“灰暗”、“阴景深”、“弯下腰在酒边”……这都是什么鬼?
简单的句子似乎还好,然而一到长句子,怎么就翻译成这样了?
不过,微软也说过,这次主要实现的是文言文和现代文互译,说明其他语言在翻译成文言文之前,应该也需要先翻译成现代文。
那来看看微软的英译中效果怎么样:
破案了,微软的英译中确实不太行……可能也是导致英文翻译成文言文出现失误的原因。
相比之下,从文言文翻译现代文、再翻译到中文的效果要稍微好一点。
顺带一提,虽然正经的英文字句翻译得不太行,不过在这种字词的翻译上……竟然还有点文艺?
看来以后可以和翻译模型学习如何优雅地骂人了。(手动狗头)
如果大家还调戏出了什么好玩的翻译,欢迎留言~
微软文言文翻译地址:
https://cn.bing.com/translator
参考链接:
[1]https://weibo.com/msra?profile_ftype=1&is_all=1#1630370728811
[2]https://mp.weixin.qq.com/s/5cpBuUXfeb0r13JSyNuS_Q
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。