财经
您现在的位置:首页 > 财经 > Voxel51通过视频原型识别人员,汽车等,筹集了200万美元
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

Voxel51通过视频原型识别人员,汽车等,筹集了200万美元

发布时间:2019/08/09 财经 浏览次数:702

 
许多公司和市政当局背负着数百或数千小时的视频以及将其变为可用数据的有限方式。 Voxel51提供基于机器学习的选项,可以通过视频进行咀嚼并对其进行标记,不仅可以通过简单的图像识别,还可以了解运动和物体随时间的变化。
注释视频是许多行业的重要任务,其中最着名的当然是自动驾驶。但它在机器人,服务和零售行业,警察遭遇(现在身体凸轮变得司空见惯)等方面也很重要。
它以各种方式完成,从人类每帧框架对象周围绘制框,并将其中的内容写入更高级的方法,自动化大部分过程,甚至实时运行。但这些的一般规则是它们是逐帧完成的。
如果您想知道图像中有多少辆汽车,或者是否有停车标志,或者牌照是什么,那么单帧就很棒。但是,如果您需要判断某人是走路还是走路?那个人是在挥手还是扔石头怎么样?一般来说,人群中的人是向右还是向左走?这种事情很难从一个框架中推断出来,但是连续只看两三个就清楚了。
这一事实就是创业公司Voxel51正在利用这个领域的既定竞争对手。视频原生算法可以做一些单帧不能的事情,并且它们重叠的地方,前者通常做得更好。
Voxel51来自密歇根大学的联合创始人,首席执行官Jason Corso和首席技术官Brian Moore完成的计算机视觉工作。后者采用了前者的计算机视觉课程,最终两人发现他们共同希望将想法从实验室中拿出来。
“我创办这家公司是因为我进行了大量的研究,”Corso说,“而且可用的绝大多数服务都集中在基于图像的理解而不是基于视频的理解上。在我们看到的几乎所有情况中,当我们使用基于视频的模型时,我们会看到准确度的提高。“
虽然任何旧的现成算法都可以识别图像中的汽车或人物,但是制作能够识别交叉点处的合并行为的东西,或者告诉某人是否已经在汽车之间滑行到jaywalk时需要更加精明。 。在每种情况下,上下文都很重要,需要多帧视频来表征行动。
“当我们处理数据时,我们会考虑整体的时空体积,”Corso说。 “5帧,10帧,30帧……我们的模型弄清楚它应该走多远才能找到强大的推论。”
在其他更常见的单词中,AI模型不仅仅是在查看图像,而是在多个图像之间的关系中。如果不确定给定框架中的某个人是否从跳跃中蹲伏或着陆,它就会知道它可以向前或向后擦洗一点以找到能够清除的信息。
甚至对于更普通的推理任务,例如计算街道上的汽车,可以通过回顾或跳过来仔细检查或更新该数据。如果你只能看到五辆汽车,因为一辆汽车很大并且阻挡了第六辆,这并没有改变这样一个事实:有六辆汽车。即使每个车架都没有显示每辆车,它仍然对交通监控系统很重要。
对此的自然反对意见是,处理10帧以找出人正在做什么在计算上讲比处理单个帧更昂贵。如果你像对待一系列静止图像那样对待它,那肯定是正确的,但这不是Voxel51的做法。
“我们通过每帧处理更少的像素来逃避它,”Corso解释说。 “我们处理的像素总量可能与单帧相同或更少,具体取决于我们希望它做什么。”
例如,对于需要仔细检查但速度不是问题的视频(如交通凸轮数据的积压),它可以在每个帧上花费所需的所有时间。但是对于转向需要更快的情况,它可以快速,实时地传递以识别主要物体和运动,然后返回并专注于最重要的部分 – 而不是不动的天空或停放汽车,但人和其他已知的物体。
该平台具有高度参数化,自然不会分享人为注释的局限性(尽管后者仍然是高度新颖应用程序的主要选项,您必须从头开始构建模型)。
“你不必担心,它是注释器A还是注释器B,我们的平台是一个计算平台,所以它可以按需扩展,”Corso说。
他们把所有东西都装进了一个叫做Scoop的拖放式界面。你放入你的数据 – 视频,GPS,类似的东西 – 让系统通过它。然后你有一个可浏览的地图,可以列举或跟踪任何数量的东西:标志的类型,蓝色的宝马,红色的丰田,右转弯的车道,人行道上的人,人行道上的人,等等。你可以结合类别,以防你正在寻找蓝色宝马在右转弯车道的场景。
每个目击都附在源视频上,边界框放在上面,表示您正在寻找的位置。然后,您可以导出相关视频,无论是否有注释。有一个演示网站,显示它是如何工作的。
这有点像Nexar最近公布的Live Maps,但显然也有很大不同。这两家公司可以采用人工智能处理大量街道级视频数据,并且仍然是不同的业务主张,这表明这类服务的潜在市场有多大。
尽管Voxel51具有街头功能,但它不会追求自动驾驶汽车。像Waymo和丰田这样的公司正在寻求相当狭窄的垂直导向系统,这些系统高度专注于识别自主导航所特有的物体和行为。优先事项和需求不同于一家安全公司或警察部队,它们可以同时监控数百台摄像机 – 这就是公司现在所处的位置。这与该公司的种子前资金一致,该资金来自公共安全部门的NIST拨款。
250小时视频无需人工干预,这样的标志/信号地图对许多市政府都有帮助
“进入市场的第一阶段是关注智能城市和公共安全,”Corso说。 “我们正在与专注于公民安全的警察部门合作。所以官员想要知道,是否有火灾爆发,或是人群聚集在哪里不应该聚集?“
“现在它是一个试验性试点 – 我们的系统与巴尔的摩的CitiWatch一起运行,”他继续说道,指的是该市的犯罪监控系统。 “他们有800个摄像头,还有五六个退休警察坐在地下室观看那些 – 所以我们帮助他们在正确的时间观看正确的饲料。反馈令人兴奋:当[CitiWatch监督主要胡德]看到我们模型的输出时,不仅仅是人,而是行为,争吵或战斗,他的眼睛亮了起来。“
现在,老实说 – 听起来有点反乌托邦,不是吗?但Corso小心翼翼地指出,他们不是在追踪个人。
“我们主要是保护隐私的视频分析;我们没有能力或兴趣进行面部识别。我们不关注任何形式的身份,“他说。
优先权不在于身份,这是好的,但它仍然是一个可怕的能力提供。然而,正如任何人都可以看到的那样,能力就在那里 – 这只是让它变得有用和有用而不仅仅是令人毛骨悚然的问题。虽然可以想象一些不道德的用途,比如打击抗议者,但也很容易想象这在琥珀色或银色警报情况下有多么有用。米色雷克萨斯的坏人?轰,最后一次见到这里。
无论如何,该平台令人印象深刻,计算机视觉工作也更加令人印象深刻。毫不奇怪,该公司已筹集了一些现金以继续前进。 200万美元的种子轮由eLab Ventures,Palo Alto和Ann Arbor的风险投资公司领导,该公司早些时候吸引了前面提到的NIST提供的125万美元赠款。
这笔钱将用于预期目的,建立产品,建立支持和公司的非技术方面等。考虑到大量未开发的视频,灵活的定价和近乎即时(在视频处理方面)的结果似乎会推动采用相当快。期待看到更多像Corso和Moore这样的公司,因为该视频的价值变得清晰。
 
 
 
 
 
 
 
 
 
 
 

姓 名:
邮箱
留 言: