新闻
您现在的位置:首页 > 新闻 > 亚马逊研究人员将知识从大型AI模型提炼为简化版本
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

亚马逊研究人员将知识从大型AI模型提炼为简化版本

发布时间:2020/02/07 新闻 浏览次数:748

 
在AI和机器学习系统中,通常通过训练小模型(学生)来模仿大而笨重的模型(老师)来积累知识。想法是通过使用其输出作为标签来压缩老师的知识以优化学生,但是并不能保证当老师很大时知识会转移给学生。
这就是为什么亚马逊研究人员团队在最近的一项研究中开发了一种将大型模型的内部表示提取为简化版本的技术。他们声称,在实验中,从表示中添加知识蒸馏往往比仅使用标记蒸馏更为稳定。
所提出的方法允许上述学生通过转移其语言特性在内部扮演教师的角色。通过教师输出中的标签对学生进行优化,并通过匹配其内部表示来获取隐藏在教师中的抽象。
在典型的AI模型中,神经元(数学函数)排列在相互连接的层中,这些层传输来自输入数据的“信号”并缓慢调整每个连接的突触强度(权重)。在上述技术中,对学生的各层进行了优化以使其与教师的各层相匹配,以便从最低层(最靠近输入)的知识先于高层被提取。这使学生能够系统地学习和压缩教师各层中的抽象。
研究人员在通用语言理解评估(GLUE)基准的四个数据集上进行了涉及Google BERT的实验,该数据集是用于训练,评估和分析自然语言处理算法的资源集合。即使在模型每隔两层老师跳过一层的情况下,他们也报告说学生能够复制老师教的行为。此外,在学生模型中复制了教师的泛化能力,这意味着学生可能会犯错教师。它证明了基准数据集的性能提高了5-10%,其中包括团队组装的大型新Reddit数据集。
“不同于标准的[知识蒸馏]方法,即学生仅从教师的输出概率中学习,我们通过揭示教师的内部表示来教我们较小的模型。研究人员在描述他们工作的论文中写道:“除了保持类似的表现,我们的方法还可以有效地将教师的内部行为压缩到学生中。” “这在标准的[知识蒸馏]方法中不能得到保证,这可能会影响最初打算从教师那里转移过来的泛化能力。”