智东西
编译 | 韦世玮 徐珊
编辑 | 漠影
除了人类蛋白质组(人类基因组表达的所有蛋白质约2万种)之外,他们还将提供其他20种具有生物学意义的生物蛋白质组的开放访问,总计超过35万种蛋白质结构,包括从果蝇到小鼠等动物,以及从大肠杆菌到酵母等细菌。
发布第一批数据后,DeepMind计划继续增加蛋白质库,几乎覆盖所有科学已知的已测序蛋白质,共超过1亿种结构,该库将由EMBL维护。在EMBL总干事Edith Heard看来:“这些数据集将改变我们对生命运作方式的理解。”
“我认为这是DeepMind整个10年多生命周期的顶峰。”DeepMind联合创始人兼CEO Demis Hassabis谈道,从成立之初,DeepMind就打算将AI方面取得的突破在围棋、雅达利等游戏上进行测试,并将其应用于现实世界的问题,以加速科学突破并造福人类。
Demis Hassabis称,这些数据对科学和商业研究人员来说都将永久免费开放。“任何人都可以将它用于任何事情,他们只需要归功于参与引用的人。”他说。
▲长期以来,人源中介体复合物(Mediator Complex)一直是结构生物学家最具挑战性的多蛋白系统之一。(图源:Nature)
一、AlphaFold预测蛋白质结构,缓解多领域生物研究瓶颈
21世纪是生物的世纪,更是计算机的世纪。
早在去年12月,DeepMind就推出了AlphaFold 2系统,可通过AI软件对蛋白质结构进行准确预测,该解决方案被认为能解决困扰科学家们50年的蛋白质折叠(protein folding)问题。
直到上周,DeepMind还发表了相关科学论文和源代码,以解释如何创建这个高度创新的系统,允许其他人通过AlphaFold来完成相关研究工作。
AlphaFold系统的诞生,证明了AI可以在几分钟内准确预测蛋白质的3D结构,精确到原子精度。而AlphaFold蛋白质结构数据库的开放,也将促进世界各地的科学家们加速对人类蛋白质的研究。
那么,何为蛋白质折叠问题?
简单来说,许多生物过程都是围绕蛋白质来进行的,而蛋白质是由氨基酸序列组成的大型复杂分子,其真正的作用取决于自身独特的3D结构,也就是蛋白质中氨基酸序列的折叠方式。
了解蛋白质结构能增进人类对生命组成部分的理解,从而推动科学家们在各个领域的研究。
例如,英国朴茨茅斯大学(CEI)正在利用AlphaFold来设计一种新型酶,以快速分解污染严重的一次性塑料等废物;美国科罗拉多大学博尔德分校通过AlphaFold预测,来研究抗生素耐药性的前景;美国加利福尼亚大学旧金山分校则使用AlphaFold来研究新型冠状病毒的工作原理……
▲AlphaFold预测的蛋白质结构的两个例子(蓝色)与实验结果(绿色)的比较(图源:DeepMind)
这些都是科学家们利用科技带来的大量生物数据信息,一步步转换为未来人类的进步。
但科学家们指出,这些信息转换到现实世界并产生结果的过程,仍需要大量时间。“我认为这不会在一年内改变患者的治疗方式,但它肯定会对科学界产生巨大影响。”科罗拉多大学生物化学系教授Marcelo C. Sousa说。
需要注意的是,AlphaFold软件生成的是蛋白质结构的预测,而不是实验确定的模型,这意味着在某些情况下,科学家还需要进一步的工作来验证结构。
DeepMind对此表示,他们花了许多时间在AlphaFold软件中构建准确度指标,让它能对每个预测的可信度进行排名。
不过,蛋白质结构的预测仍对科学研究带来了巨大帮助。以往科学家们确定蛋白质结构的实验过程既耗时又昂贵,还要依赖大量反复试验,而蛋白质结构预测即便置信度低,也可以为科学家指明正确的研究方向,为他们节省多年的工作。
英国格拉斯哥大学(University of Glasgow)结构生物学教授Helen Walden认为,DeepMind的数据将“显著缓解研究瓶颈”,但“进行生物化学和生物学评估的费力、耗费资源的工作”将继续存在,例如药物功能研究。
Sousa也提到,他曾在工作中使用过AlphaFold的数据,“科学家们能快速地感受到它带来的影响。”他说,在他们与DeepMind的合作中,他们有一个包含蛋白质样本的数据集,但10年来都还没开发出一个合适的模型,直到DeepMind同意为他们提供一个结构,在15分钟内就解决了这个问题。
二、蛋白质折叠难题背后,AlphaFold分析速度已提升16倍
AlphaFold只需15分钟就能解决的问题,为何困扰了这些科学家10年?蛋白质折叠问题究竟难在哪?
如我们前面所说,蛋白质由氨基酸链构成,人体中共含有20种不同的氨基酸,任何一个蛋白质都可以由数百个氨基酸组成,且每个氨基酸都有不同的折叠和扭曲结构。
这些都意味着,哪怕是一个常见的蛋白质分子,它的最终结构都有许多种可能构型。一个估计是,典型的蛋白质可以以10^300种方式折叠。不用数了,就是“1”后面跟着300个“0”的可能性。
不过由于蛋白质的样本太小,科学家们难以用显微镜检查,不得不使用成本昂贵且复杂的方法来间接确定蛋白质结构,比如核磁共振和X射线晶体学(X-ray crystallography)。
但实际上,简单地通过氨基酸序列来确定蛋白质结构的构想,在理论上一直是难以实现的。因此,分析蛋白质结构也成为了人们攻克生物学领域的一大难关。
直到近年来,人们发现可以利用AI的方法来分析蛋白质结构。借助这些技术,AI系统可以通过在已知蛋白质结构的数据集上进行训练,并最终利用这些信息来预测蛋白质结构。
多年来,很多团队都参与到这项AI研究中,其中DeepMind基于深厚的AI人才库和大量计算资源基础,一直走在该领域的前沿。
去年,DeepMind在一项名为CASP的国际蛋白质折叠比赛中脱颖而出,其AlphaFold软件对蛋白质结构的预测结果非常准确。对此,CASP联合创始人之一的计算生物学家John Moult说:“在某种意义上,蛋白质折叠的难题已经有了解决方案。”
▲DeepMind的AlphaFold软件显着提高了计算蛋白质折叠的准确性(图源:DeepMind)
自去年CASP竞赛以来,AlphaFold系统也实现了升级,现在它分析蛋白质结构的速度已提高了16倍。“我们可以在几分钟内折叠一个普通蛋白质,多数情况下只要几秒钟。”Hassabis谈道。
英国雷丁大学教授Liam McGuffin曾开发出一些蛋白质折叠软件,他肯定了AlphaFold的技术,但也指出,AlphaFold的成功主要归功于科学家们数十年的先前研究和公开数据。
“DeepMind拥有大量研究资源来保持数据库的更新,他们比任何一个学术团体都更有能力做到这一点。”McGuffin认为,尽管科学家们最终也会走到这一步,但速度会更慢,因为他们没有足够的资源。
三、持续推进AI发展,年底数据库结构将增至1.3亿个
尽管DeepMind每年都处于大量亏损的状态,但这次开放蛋白质结构数据库是免费的。
实际上,DeepMind归属于Google母公司Alphabet,该公司一直在商业医疗保健领域投入大量资源。还有许多报道称,DeepMind与Alphabet在研究自主性和商业可行性等问题上存在分歧。
不过Hassabis谈道,公司一直在计划免费提供这些信息,这样做是对DeepMind创始精神的体现。“我们在被收购时与Alphabet达成的协议是,DeepMind主要的研究目的是推进AGI(通用人工智能)和AI技术的发展,然后利用它们来攻克科学领域的难题。”他说。
他认为,Alphabet有许多部门都专注于盈利,但DeepMind对研究的关注能够“为科学界带来各种各样的好处,包括声望和信誉,从而通过多种方法实现价值。”
Hassabis还强调,虽然DeepMind的主要研究目标是一些基础领域,但其技术已广泛应用于Google的其他业务中。“几乎你使用的任何Google产品,其中一部分技术都有我们的参与。”他透露。
与此同时,Hassabis预测AlphaFold将成为未来的标志,因为它展示了AI在处理人类生物学等复杂问题上的巨大潜力。
“我认为我们正处于一个非常激动人心的时刻。”Hassabis提到:“在接下来的十年中,我们和AI领域的其他人都希望能取得突破性进展,真正加速解决我们在地球上面临的真正重大问题。”
对于接下来的计划,EMBL-EBI的结构生物信息学Sameer Velankar谈道,到今年年底,本周提交的大约36.5万个蛋白质结构预测将增加至1.3亿个,几乎是所有已知蛋白质的一半。
此外,随着DeepMind的继续投资,以及未来对AlphaFold的改进,系统和数据库也将定期更新。
结语:站在巨人肩膀上看未来,以AI实现多领域多点开花
对DeepMind而言,从AlphaFold系统的更新迭代到蛋白质结构数据库的开放,研究团队在五年里不仅必须要创造性地克服许多技术难题,还要面临许多复杂算法的创新挑战,这些都是推动人工智能和生物学领域发展的必经之路。
不能忽视的是,DeepMind乃至未来研究团队的创新,都是建立在先前几代科学家的研究发现上。从蛋白质成像和晶体学的早起先驱,到数以千计的预测专家和结构生物学家,他们一路披荆斩棘,花了多年时间对蛋白质展开深入研究。
我们也期待,站在巨人的肩膀上的他们,未来能开辟更多创新的科学研究途径,推动更多领域的发展和进步。
来源:DeepMind、TheVerge、Nature
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。