新闻
您现在的位置:首页 > 新闻 > Salesforce的ProGen训练了2.8亿个氨基酸序列,以学习生成蛋白质
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

Salesforce的ProGen训练了2.8亿个氨基酸序列,以学习生成蛋白质

发布时间:2020/03/13 新闻 浏览次数:663

 
本周,Salesforce的一组科学家发表了一项研究,详细介绍了AI系统ProGen,他们说该系统能够以“可控制的方式”生成蛋白质,从而可以解锁蛋白质工程的新方法。如果他们的主张获得支持,这将为合成生物学和材料科学的有意义的进步奠定基础-在毁灭性冠状病毒爆发中,这是非常可取的结果。
正如Salesforce研究科学家Ali Madani在博客文章中所解释的那样,蛋白质就是简单的分子链-氨基酸-结合在一起。大约有20种标准氨基酸,它们彼此相互作用并局部形成构成二级结构的形状。这些形状继续折叠成称为三维结构的完整三维结构。从那里,蛋白质与其他蛋白质或分子相互作用,并执行各种功能,从运送氧气到人体周围的细胞到调节血糖水平。
然后,对ProGen(具有12亿个参数(即定义问题技能的值)的AI模型)进行了微调,以学习蛋白质的语言。给定所需的蛋白质特性,例如分子功能或细胞成分,它可以准确地创建或生成可行的序列。
这种技术不同于DeepMind的AlphaFold技术,后者估算氨基酸对及其角度之间的距离,并使用估算值生成蛋白质片段,即MIT CSAIL的系统,该系统学会预测相似的蛋白质结构可能来自于蛋白质对及其序列的嵌入(即数学表示)。相比之下,ProGen从自然语言的角度着眼于蛋白质的产生:它将氨基酸视为段落中的单词(在这种情况下为蛋白质)。
Madani和ProGen背后的其他团队在超过2.8亿个蛋白质序列和相关元数据的数据集上对模型进行了训练,这是最大的公开数据。他们将样品配制成超过100,000个条件标签,以便ProGen可以了解通过进化选择的天然蛋白质的分布。基本上,该模型会提取每个训练样本,并针对每个氨基酸制定一个猜测游戏;对于多轮训练,给定较短的蛋白质序列,它试图从先前的氨基酸预测下一个氨基酸。
ProGen完成了超过1万亿次的“游戏”,此后,它便能够生成具有前所未有序列的蛋白质。
在一项实验中,研究人员要求ProGen复制蛋白VEGFR2,该蛋白负责细胞增殖,存活,迁移和分化等生物学过程。在测试时,他们向模型提供了VEGFR2的开始部分以及相关的条件标签,并要求其生成其余序列。令人印象深刻的是,ProGen产生的部分保持了蛋白质的结构,暗示它产生了功能性蛋白质。
在第二项测试中,该团队试图通过实验验证的标签数据证明ProGen的能力。饲养了一个包含超过150,000个蛋白G结构域B1变体的主体-该蛋白对纯化,固定和检测中和病毒和细菌的抗体很重要-ProGen设法鉴定出具有高适应性值的蛋白,这与产生功能性蛋白质的特性。
重要的是,该团队在两个实验中证明了ProGen的序列处于放松的低能状态。这与稳定性相关-高能态对应于想要“爆炸”的蛋白质,表明序列不正确。

 
“ ProGen样品总体上显示出较低的能量,而没有二级结构的氨基酸的能量最高。这表明ProGen学会了对蛋白质最重要的结构区段进行优先排序,” Madani在博客文章中写道。 “这背后的直觉是,ProGen学会了流利的功能蛋白语言,因为它已经对通过进化选择的蛋白进行了培训。如果给定未知序列,ProGen可以识别该序列是否是功能蛋白,这是一致的。”
将来,研究人员打算通过磨练特定的蛋白质特性来提高ProGen产生新蛋白质的能力,无论是自然界中未发现的还是不存在的。 Madani继续说道:“我们的梦想是通过使用AI使蛋白质工程学达到新的高度。” “如果我们拥有一种能够为我们说蛋白质语言的工具,并且能够可控地产生新的功能蛋白质,那么它将对科学进步,疾病治愈和地球清洁产生革命性的影响。”