新闻
您现在的位置:首页 > 新闻 > IBM的Lambada AI为文本分类器生成训练数据
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

IBM的Lambada AI为文本分类器生成训练数据

发布时间:2019/11/18 新闻 浏览次数:1098

 
如果数据科学家缺乏足够的数据来训练机器学习模型,该怎么办?一种潜在的途径是合成数据生成,IBM Research的研究人员在新出版的预印本文章中主张合成数据。他们使用了经过预训练的机器学习模型来人工合成用于文本分类任务的新标签数据。他们声称,他们的方法被称为基于语言模型的数据增强(简称Lambada),可提高分类器在各种数据集上的性能,并显着改善了最新的数据增强技术。
根据眼前的问题,要适合分类器模型,可能需要大量的标记数据。但是,在许多情况下,尤其是在为特定应用开发AI系统时,标记数据很少而且获取成本很高。”该论文的合著者写道。根据眼前的问题,要适合分类器模型,可能需要大量的标记数据。但是,在许多情况下,尤其是在为特定应用程序开发AI系统时,标记数据很少而且获取成本很高。”
研究人员指出,在文本域中生成合成训练数据比在视觉域中更具挑战性,因为在更简单的方法中使用的转换通常会使文本失真,从而使其在语法和语义上不正确。因此,大多数文本数据增强技术(包括本文中详细介绍的技术)都涉及用同义词替换单个单词,删除单词或更改单词顺序。
Lambada利用生成模型(OpenAI的GPT)对大型文本进行了预训练,从而使其能够捕获语言结构,从而产生连贯的句子。研究人员在现有的小型数据集上微调了他们的模型,并使用微调的模型来合成新的带标签句子。独立地,他们在上述数据集上训练了分类器,并对其进行了过滤,从而仅在对现有数据和合成数据进行分类之前,仅保留看起来“定性”好的数据。
为了验证他们的方法,研究人员通过运行实验在三个数据集上测试了三个不同的分类器-BERT,支持向量机和一个长期的短期记忆网络-他们在每个班级改变了训练样本。所涉及的语料库包含有关航班相关信息的查询,几类中的基于开放域和基于事实的问题,以及来自电信客户支持系统的数据。
他们报告说,Lambada在小数据集上静态地提高了所有三个分类器的性能,这部分归功于其对每个类别的样本数量的控制。他们说,这些控件使他们能够投入更多的时间来为原始数据集中代表性不足的类生成样本。
“我们的扩充框架不需要其他未标记的数据……令人惊讶的是,对于大多数分类器而言,与简单的弱标记方法相比,LAMBADA的准确性更高,”共同作者写道。 “显然,与……从原始数据集中获取的样本相比,生成的数据集对提高分类器的准确性做出了更大的贡献。”

姓 名:
邮箱
留 言: