新闻
您现在的位置:首页 > 新闻 > MIT和IBM开发了AI,该AI根据主题推荐文档
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

MIT和IBM开发了AI,该AI根据主题推荐文档

发布时间:2019/12/23 新闻 浏览次数:897

 
甚至最佳的文本分析推荐算法也可能会受到一定大小的数据集的阻碍。为了提供比大多数现有方法更快,更好的分类性能,MIT-IBM Watson AI实验室和MIT的Geometric Data Processing Group的团队设计了一种技术,该技术结合了流行的AI工具,包括嵌入和最佳运输。他们说,仅考虑一个人的历史偏好或一群人的偏好,他们的方法就可以扫描数百万种可能性。
该研究的主要作者,麻省理工学院助理教授贾斯汀·所罗门(Justin Solomon)在一份声明中说:“互联网上有大量文字。” “任何有助于切穿所有材料的东西都非常有用。”
为此,Solomon及其同事的算法根据文本集中的常用单词将文本集合汇总为主题。接下来,它将每个文本分为5到15个最重要的主题,并通过排名显示每个主题对整个文本的重要性。嵌入(在这种情况下为单词的数据表示形式)有助于使单词之间的相似性显而易见,而最佳传输则有助于计算在多个目的地之间移动对象(或数据点)的最有效方式。
嵌入使利用两次最佳传输成为可能:首先比较集合中的主题,然后测量常见主题的重叠程度。研究人员称,在扫描大量书籍和文档时,这种方法特别有效。在涉及Gutenberg Project数据集中的1,720对标题的评估中,该算法设法在一秒钟内比较所有标题,或者比下一个最佳方法快800倍。
此外,与竞争对手的方法相比,该算法在分类文档方面做得更好,例如,按作者对古腾堡数据集中的书籍进行分组,按部门对亚马逊上的产品评论进行分组。它还提供了主题列表,使用户可以更好地理解为何推荐给定文档的原因,因此也更具解释性。
研究人员留给未来的工作来开发一种端到端的培训技术,该技术可以优化嵌入,主题模型和最佳运输方式,而与目前的实施方式相比,可以分别进行优化。他们还希望将其方法应用于更大的数据集,并研究在图像或三维数据建模中的应用。
所罗门和合著者在总结他们工作的论文中写道:“ [我们的算法]似乎以一种要求比较两个文档的方式来捕获差异:将每个文档分解为易于理解的概念,然后比较这些概念。” 。 “ [W] ord嵌入提供了全局语义语言信息,而……主题模型提供了特定于语料库的主题和主题分布。从经验上讲,它们结合起来可以为各种基于度量的任务提供卓越的性能。”