你可能会说这只是“瞎猫撞死耗子”罢了,但多次实验发现,该智能体可以复现该方法的!
而且它还会不止一种方法,“我不上去,你下来”——直接借助板子把目标扒拉下来了!
这也行?
而这些成精了的智能体来自DeepMind。
现在,为了让AI更加多才多艺、举一反三,他们专门给智能体打造了一个包含了数十亿游戏任务的“元宇宙”XLand:让智能体在不断扩展、升级的开放世界中通过上亿次的训练练就了不俗的泛化能力。
最终效果就像前面看到的,无需在新游戏中从头训练,它们就能自主解决任务!
DeepMind也因此发表了一篇论文,就叫做:《从开放学习走出来的通用智能体》。
如何做到的呢?
“元宇宙”XLand
最功不可没之一的就是这个庞大的“元宇宙”模拟空间。
这是一个“游戏星系”,里面有无数个“游戏星球”,每个星球上的游戏按竞争性、平衡性、可选项、探索难度四个维度进行区分。
比如图左上介绍的“抢方块”游戏:蓝色智能体需要把黄色的立方体放到白色区域,红色智能体需要把同一个立方体放在蓝色区域。
啊想想就头大,所以这个游戏的竞争性值都拉满了,而由于双方的条件/目标都一样,所以平衡性值也很高,因为需要定位目标区域,所以探索难度并不小。
再比如图右上的“将球体和立方体配对”:蓝色/红色智能体要将几何体按颜色归类到一起,完成任意一组配对就行。这个游戏的可选性值就拉满了,但竞争性就没那么强。
ps.蓝色游戏代表是完全竞争性的,粉色为完全合作性的。
不管是哪种游戏任务,这批智能体都从最简单的开始(比如仅“靠近紫色立方体”这种),一步步解锁复杂度升级的游戏(比如和另一个智能体“捉迷藏”),其中每一项游戏都有奖励,智能体们的目标就是将拿到的奖励最大化。
而智能体“玩家”们是通过阅读收到的目标的文字描述、观察RGB图像来感知周围环境来完成任务。
生成的新任务要基于旧任务,且难度要刚刚好
除了上面这个开放式的学习环境,训练方法也很重要。
研究人员使用的神经网络训练架构提供了一种针对智能体内部循环状态的注意力机制——通过估计所玩游戏的子目标,来持续引导智能体的注意力。
这种策略让智能体学习到更具普遍能力的策略。
还有一个问题:如此广阔的游戏环境,什么样的游戏任务分布能产出最善于泛化的智能体呢?
研究人员通过持续调整每个智能体的游戏分布发现,每个新任务都要基于通关的旧任务生成,不能太难,也不能太容易。
这个也基本符合一般认知。
它们先经历了四次迭代:
每个任务由多个智能体参与竞争,在旧任务上适应得好的智能体,会带着权重、瞬时任务分布、超参数等参与到新一轮任务中继续学习。此时也会加入新的智能体让竞争“活”起来。
智能体表现出明显的零样本学习能力
最后生成的第五代智能体,在XLand 4000多个“星球”里玩了大约70万个游戏,每一个智能体都经历了2000亿次训练,完成了340万个独特任务。
到了这个时候,这些智能体已经能够顺利完成每一项评估任务(除了少数即使是人类也不可能完成的)。
整个实验也最终表明,通过开发像XLand这样的环境和这样开放式地训练方法,一些基于RL的智能体已表现出明显的零样本学习能力(0-shot)。
比如使用工具、打拦(ridge-fencing)、“捉迷藏”、找立方体、数数、合作或竞争等。
研究人员也观察到智能体们面对新任务时不知道“什么是最好的解决办法”,但它们会不断地试验直到达到目标。
这个过程中出现的有趣的”紧急启发式行为”,除了开头提到的搭梯子,还有这个临时更换更简易目标的例子——
在一个游戏中该智能体需要从3个目标中任选一个完成:
1、将黑色金字塔放到黄色球体旁边;2、将紫色球体放到黄色金字塔旁边;3、将黑色金字塔放到橙色区域。
它一开始找到了一个黑色金字塔,想去完成目标3,但在搬运过程中看到了黄色球体,于是它就在1秒内改变了主意,选择直接将金字塔放在黄色球体旁边完成目标1。
(整个过程一共耗时6秒)
最后,看完了DeepMind的研究,再抛给大家一个问题:我们离真正的通用人工智能还有多远?
图片
(ps.你发现了吗,文章最开头高台取金字塔任务中的小红智障体就不行,一直打转,面对小蓝搭好的梯子甚至直接毁掉
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。