新闻
您现在的位置:首页 > 新闻 > 微软的AI确定有关视频剪辑的陈述是否正确
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

微软的AI确定有关视频剪辑的陈述是否正确

发布时间:2020/03/30 新闻 浏览次数:605

 

在预印服务器Arxiv.org上发表的一篇论文中,卡内基·梅隆大学,加利福尼亚大学圣塔芭芭拉分校和Microsoft的Dynamics 365 AI Research的研究人员描述了一种挑战-视频和语言推断-要求AI推断是否需要声明与给定的视频剪辑有关或矛盾。他们说,这样做的目的是促进对视频和语言理解的研究,这可以增强企业中用于自动会议转录的工具。

正如研究人员所解释的那样,视频和语言推理需要对视觉和文本线索进行彻底的解释。为此,他们介绍了一个视频数据集,其中包括逼真的场景,并通过Amazon Mechanical Turk(来自观看视频的字幕)与来自众包工作者的陈述配对。工人基于对视频和字幕的理解而写了陈述,这些陈述不仅描述了视频中的明确信息(例如,物体,位置,角色和社交活动),而且还揭示了对复杂情节的理解(了解事件,解释人类的情感和关系,并推断事件的因果关系)。

总共,数据集包含超过582小时的来自YouTube和电视连续剧的95,322对视频陈述对和15,887个电影剪辑,包括“朋友”,“绝望的家庭主妇”,“我如何遇见母亲”和“现代家庭”。每个大约30秒的视频都与六个正面或负面陈述配对,以识别角色,识别动作,谈话原因,推断原因或参考人类动态。 (为了防止偏见蔓延,在收集否定陈述时,研究人员要求注释者使用肯定陈述作为参考,并仅修改其中的一小部分使其变为否定。)

为了对数据集进行基准测试,合著者使用了双向长期短期记忆模型(一种能够学习长期依赖性的AI模型)来将视频特征编码为数字表示形式。单独的模型编码的语句和字幕。给定一个视频,字幕和陈述,还有另一个模型(在80%的数据集上进行了训练,保留了10%的验证权和10%的测试权),确定了该陈述是否包含视频或字幕。他们说,表现最佳的基准达到了59.45%的准确度,而人类评估者的准确度为85.20%。

“基准模型与人员绩效之间的差距非常大。我们鼓励社区参与这项任务,并发明更强大的方法来推动多模式推理的最新发展。”研究人员写道。 “可能的未来方向包括开发模型以对关键帧进行本地化,以及更好地利用视频和字幕之间的对齐方式来提高推理能力。”

这项研究是微软亚洲研究院和哈尔滨工业大学的一项研究,该研究试图通过捕获评论,视频和音频中的表示来使用AI生成实时视频字幕。该系统(其代码可在GitHub上找到)将最相关的注释与候选集的视频进行匹配,以便它共同学习跨模式表示。

姓 名:
邮箱
留 言: