新闻
您现在的位置:首页 > 新闻 > 英特尔的未来就是人工智能
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

英特尔的未来就是人工智能

发布时间:2019/05/28 新闻 浏览次数:843

 
根据Santa Clara公司的AI芯片部门去年收入达10亿美元,英特尔预计市场机会每年将从2017年的25亿美元增长到2022年的100亿美元增长30%。从这个角度来看,其以数据为中心的收入现在构成了所有部门的所有业务的一半,比五年前的大约三分之一。
来自现有的Nvidia,Qualcomm,Marvell和AMD等公司的竞争加剧; Hailo Technologies,Graphcore,Wave Computing,Esperanto和Quadric等创业公司;甚至亚马逊也有可能减缓英特尔的收益,这就是为什么该公司不会满足于自己的成就。英特尔于2015年收购了现场可编程门阵列(FPGA)制造商Altera,并在一年后收购了Nervana,填补了其硬件平台产品,为全新一代AI加速器芯片组奠定了基础。去年8月,英特尔抢购了Vertex.ai,这是一家开发平台无关的AI模型套件的初创公司。
不用说,英特尔有充足的优势,因此很难跟踪这一切。但副总裁兼建筑总经理Gadi Singer很高兴在最近的一次采访中为我们提供指导。英特尔人工智能产品部门的高级主管Casimir Wierzynski也是如此,他提供了英特尔在基于光的AI加速光子电路和光学芯片方面工作的一瞥。
“人工智能硬件是一个价值数十亿美元的机会。事实上我们可以而且我们将投资几个产品线是因为需求范围广泛[一些 – 将集中在加速等具有很大功率效率敏感性的事情上,这与其他产品不同,“辛格说。 “因此,这是一个值得投资于互补投资组合的领域。”
软件
Singer正确地指出,如果不能轻易开发硬件就没什么了不起的。他说,这就是英特尔注意不要忽视AI难题的软件生态系统的原因。
去年4月,该公司宣布将开源nGraph,这是一种神经网络模型编译器,可优化跨多个处理器架构的汇编代码。大约在同一时间,英特尔推出了One API,这是一套用于将计算引擎映射到各种处理器,图形芯片,FPGA和其他加速器的工具。 5月,该公司新成立的人工智能实验室免费提供了一个用于自然语言处理的跨平台库 – NLP Architect–旨在通过名称实体识别,意图提取和语义解析来灌输和标记会话助理。
辛格指出,这些并不是英特尔开源的唯一工具包。它现在提供其神经网络蒸馏器库,可用于去除与目标任务无关的一些AI模型,以缩小这些模型的大小。还有Coach,一个强化学习框架,允许用户将AI代理嵌入到针对机器人和自动驾驶车辆场景的培训环境中。
2018年春季推出了OpenVINO(开放视觉推理和神经网络优化),这是一个用于AI边缘计算开发的工具集,它包含用于对象检测,面部识别和对象跟踪的预训练AI模型。它适用于传统的CPU或专门用于推理的芯片(经过训练的AI模型进行预测的时间点),如FPGA,并且已经由GE Healthcare等公司用于医疗成像和Dahua用于智能城市服务。
Singer表示,OpenVINO旨在补充英特尔的计算机视觉软件开发套件(SDK),该套件将视频处理,计算机视觉,机器学习和流水线优化整合到一个软件包中,使用Movidius Neural Compute SDK,其中包含一套可编译的软件,配置文件和检查机器学习模型。它们与英特尔的Movidius神经计算API处于同一个系列,旨在简化C,C ++和Python等编程语言的应用程序开发。
其中许多套件都运行在英特尔的AI DevCloud中,这是一个由Xeon Scalable处理器支持的云托管AI模型培训和推理平台。 DevCloud提供可扩展的存储和计算资源,使开发人员能够针对硬件远程测试,优化和验证模型,例如Aaeon Technologies等制造商提供的mini-PCIe开发板。
隐私
英特尔认识到保护隐私的人工智能培训和推理的趋势,辛格表示,去年年底HE-Transformer的开源采购是重要的第一步。在高层次上,HE-Transformer是基于Microsoft Research的简单加密算术库(SEAL)的nGraph后端,允许AI模型对加密数据进行操作。
HE-Transformer中的“HE”是“同态加密”的缩写,“同态加密”是一种加密形式,能够计算密文 – 使用算法加密的明文(文件内容)。它生成一个加密结果,在解密时,与未加密文本上执行的操作结果完全匹配。
HE-Transformer有效地添加了一个抽象层,可以应用于开源框架上的神经网络,如Google的TensorFlow,Facebook的PyTorch和MXNet。
“我们相信安全和隐私都将发挥重要作用。它实际上是大规模机器学习的基本推动因素,“他说。 “例如,如果您想要…为许多医院的许多患者获取信息,隐私问题就变得非常重要。当您想了解这些人的行为和动作时,如果您无法保护他们的隐私,那么您将无法访问这些数据。
当被问及英特尔是否会继续开发像谷歌的TensorFlow Privacy这样的机器学习库时,Singer采用一系列统计技术来保证人工智能模型培训的隐私,Singer表示相关工具正在进行中。 “我们现阶段没有谈论它,因为我们的深度学习能力还处于早期阶段,”他说。 “但此时此刻有很高的兴趣和投入。”
加速器和FPGA
大多数AI系统核心的神经网络由神经元或生物神经元之后松散建模的数学函数组成。它们通过“突触”连接,将信号传递给其他神经元,并将它们分层排列。这些信号 – 馈入神经网络的数据或输入的乘积 – 从一层到另一层传播,并通过调整每个连接的突触强度(权重)来慢慢“调整”网络。随着时间的推移,网络从数据集中提取特征并识别跨样本趋势,最终学会做出预测。
神经网络不会摄取原始图像,视频,音频或文本。相反,来自训练语料库的样本被代数转换为多维数组,如标量(单个数字),向量(有序的标量数组)和矩阵(标量排列成一列或多列和一行或多行)。封装标量,向量和矩阵的第四种实体类型 – 张量 – 增加了有效线性变换(或关系)的描述。
例如,包含数百万像素的单个图像可以被转换成大的数字矩阵,而来自音频记录中的话语的单词和短语可以被映射到向量,这种技术称为嵌入。
毫无疑问,有些硬件比其他硬件更有效地处理这些统计操作。处理器通常足以进行推理和一些涉及复杂顺序计算的培训 – 特别是那些像英特尔第二代Xeon可扩展CPU,其中包含矢量神经网络指令和深度学习软件优化的组合,称为DL Boost AI。为此,英特尔声称其第二代Xeon可扩展CPU在AI工作负载上提供高达2.4倍的性能,这些工作负载占数据中心推理的60%,在推理工作负载方面性能高达14倍,包括图像识别,对象检测和图像分割。该公司还声称其即将推出的10纳米冰湖架构将提供比市场上同类产品高出8.8倍的峰值AI推理吞吐量。
但是一些要求最苛刻的深度学习任务涉及张量操作,而图形卡和专门设计的称为专用集成电路(ASIC)的芯片更有利于这些操作。这是因为它们包含数千个能够并行执行数百万次数学计算的核心。
“尽管为了推断CPU非常有效,但有些情况下你需要进行张量操作。深度学习中最苛刻的任务是使用…多维数组并对张量进行所有算术运算。“他说。 “[从]解决方案架构的角度来看,在优化软件和其他硬件功能方面不断增强CPU是有道理的…… [但] CPU本身并不足以涵盖所有这些类型的[用例] “。
考虑像英特尔的16nm Myriad X VPU这样的视觉处理器。它针对图像信号处理和设备上的推理进行了优化,具有可以处理高达180Hz的双720p馈送的立体声块和具有基于硬件的编码的可调信号处理器流水线,可在8个传感器上实现高达4K的视频分辨率。它还配备了英特尔的神经计算引擎,这是一种专用的硬件加速器,支持本机FP16和定点8位支持。
英特尔声称这款芯片在全面爆炸时可以达到4 teraflops的计算速度和1万亿次运算的专用神经网络计算,或者是深度神经网络推理中其前身(Myriad 2)性能的10倍。
FPGA不像专用的加速器,因为它们的硬件往往针对通用的,更广泛的计算和数据功能。但它们在可编程性方面确实具有优势,这使开发人员能够在制造后配置和重新配置它们。这可能是微软为Project Brain Wave选择英特尔Stratix 10 FPGA的原因之一,这是一项针对加速深度神经网络培训和部署而优化的云服务。
英特尔在Agilex中提供最先进的FPGA解决方案,Agilex是其新的10nm嵌入式芯片组,旨在解决企业网络和数据中心的“以数据为中心”的挑战。
Agilex产品具有可定制的异构3D系统级封装,包括模拟,存储器,计算和定制I / O组件 – 包括DDR5,HBM和Intel Optane DC。它们得到了英特尔One API的全面支持,并提供了向ASIC的迁移路径。
英特尔声称,与英特尔14英寸长的Stratix 10 FPGA相比,Agilex FPGA的性能提高了40%,总功耗降低了40%,部分归功于其第二代HyperFlex架构。
实现Nervana
英特尔于2017年首次宣布正在开发两款AI加速器芯片 – 一款用于推理工作负载,另一款用于培训 – 并在1月份的消费电子展(CES)新闻发布会上进一步详细介绍了推理产品。被称为Nervana神经网络处理器(NNP-I),它适用于PCIe插槽(或基于OCP加速器模块规格的夹层板),基于10nm工艺制造,并将包含基于英特尔Ice的处理器内核湖泊建筑处理一般操作,以及神经网络加速。
NNP-I针对图像识别进行了优化,其架构与其他芯片截然不同;它缺少标准的缓存层次结构,其片上存储器由软件直接管理。 Singer表示,由于其高速的片上和片外互连,NNP-I能够在多个芯片上分配神经网络参数,实现非常高的并行性。此外,它使用了一种新的数字格式–Flexpoint – 可以增强对推理任务至关重要的标量计算,使芯片能够适应大型机器学习模型,同时保持“业界领先”的电源效率。
“图像可能是最适用于加速器的用例,因为大量的图像识别是矩阵乘法函数,”辛格说。 “当你进入自然语言处理和推荐系统时,需要更多的计算类型…… [核心] CPU核心[让你做一个]高重量张量活动的混合,并在本地执行[CPU任务]无需在片外移动数据。“
NNP-I的大规模生产还有很长的路要走,但Singer表示它已经在英特尔的实验室中运行多种拓扑结构。他预计今年将投入生产,支持Facebook的Glow Compiler,这是一款旨在加速深度学习框架性能的机器学习编译器。
上述加速器芯片 – 代号为“Spring Crest”的Nervana Neural Net L-1000可能会与NNP-I一起到达。 16nm芯片的24个计算集群将提供高达竞争显卡的AI培训性能的10倍,以及英特尔首款NNP芯片Lake Crest的3-4倍性能。
辛格不愿透露更多内容,但表示将在未来几个月内公布有关Spring Crest的更多细节。
看到了光明
根据负责AI产品部门的英特尔硅光子组织的Wierzynski所说,NNP-I和Spring Crest之外的东西可能与今天的AI加速器芯片截然不同。在那里,光子集成电路的工作正在进行中 – 光学芯片的基础 – 与电子同类产品相比具有许多优势。
“几年前引起我注意的一件事是麻省理工学院出版的一篇论文,”Wierzynski告诉VentureBeat。 “它基本上问,’嘿,不是使用电子产品,为什么你们不考虑使用光子?’光子具有这些非常好的特性,它们可以快速地通过物质移动,并且有控制光线的方法,以便它可以为你做有用的事情。“
Wierzynski指的是2017年的论文,由总部位于波士顿的光子学创业公司Lightelligence的首席执行官沉一辰合着。沉,然后博士麻省理工学院物理系教授Marin Soljacic在麻省理工学院学习光子材料的学生在Nature Photonics杂志上发表了一篇研究,描述了一种利用光学干涉进行神经网络工作负荷的新方法。
“加速深度学习的关键问题之一是,当芯片越来越萎缩时,如何满足这种对更低和更低延迟的需求?”Wierzynski说。 “我们真的在推动硅能做的极限。这种方式之一就是你需要一定的计算性能,但需要一些可管理的能耗。“
为此,像Lightelligence这样的光学芯片只需要有限的能量,因为光产生的热量少于电能。它们也不易受环境温度,电磁场和其他噪声的影响。
此外,与其硅等效物相比,光子设计的延迟提高了10,000倍,功耗水平“数量级”更低。在初步测试中,与最先进的电子芯片相比,某些矩阵矢量乘法运算速度提高了100倍。
“希望你能够使用与人们现在使用的相近的[AI]模型,”Wierzynski说。 “[我们]正在学习更多关于如何大规模建造光子电路的知识。听起来像星际迷航。“
这并不容易。正如Wierzynski所指出的,神经网络除了矩阵乘法之外还有第二个基本构建块:非线性。没有它们的网络只是计算其输入的加权和,不能进行预测。并且,遗憾的是,关于在光学领域中可以执行何种非线性操作的问题仍然存在。一种可能的解决方案是在同一芯片上结合硅和光电路的混合方法。 Wierzynski表示,神经网络的某些部分将以光学方式运行,部分神经网络将以电子方式运行。
但这不会解决光学芯片的缩放问题。快速的光子电路必然需要快速的存储器,然后在大约200毫米的晶圆上封装每个元件 – 包括激光器,调制器和光学组合器。
“正如在任何制造过程中一样,存在不完善之处,这意味着芯片内部和芯片之间会有很小的变化,这些会影响计算的准确性,”Wierzynski说。
幸运的是,他和同事正在削减解决方案。在最近的一篇论文中,他们描述了两种用于在Mach-Zender干涉仪(MZI)上构建AI系统的架构,这是一种光子电路,可以配置为在与两个光束的相位相关的量之间执行2×2矩阵乘法。
在对基于手写数字识别(MNIST)的基准深度学习任务进行模拟的两种架构进行培训后,研究人员发现,当采用双精度浮点精度时,GridNet的精度高于FFTNet(98%对95%)。重要的是,FFTNet表现出强大的稳健性,即使增加了人工噪声,它也不会低于50%的准确度。
Wierzynski表示,该研究为人工智能软件培训技术奠定了基础,可以避免在制造后微调光学芯片的需要,从而节省时间和人力。
“这是采用非常复杂的制造技术的一种方式,英特尔在过去的几十年里为光电路精心开发并赋予它一个全新的目的,”他补充道。 “这是这种技术的早期阶段 – 在这个领域需要做更多的工作 – [但]这对我来说非常令人兴奋。”
 
 
 
 
 
 
 
 
 

姓 名:
邮箱
留 言: