国际研究团队推出用于边缘AI的高效新型神经形态芯片

一组国际研究人员设计、制造和测试了 NeuRRAM 芯片。图片来源:David Baillot/加州大学圣地亚哥分校

NeuRRAM 是一种直接在内存中运行计算并可以运行各种人工智能应用程序的新芯片,由一个国际研究团队设计和制造。它的与众不同之处在于,它所消耗的能源只是通用 AI 计算计算平台所消耗的能源的一小部分。

NeuRRAM 神经形态芯片使人工智能更接近于在广泛的边缘设备上运行,与云断开连接。这意味着他们可以随时随地执行复杂的认知任务,而无需依赖与中央服务器的网络连接。该设备的应用遍布全球的每一个角落和我们生活的方方面面。它们的范围从智能手表到 VR 耳机、智能耳机、工厂中的智能传感器以及用于太空探索的漫游车。

NeuRRAM 芯片的能效不仅是最先进的“内存计算”芯片(一种在内存中运行计算的创新混合芯片)的两倍,它还提供与最先进的“内存计算”芯片一样准确的结果传统的数字芯片。传统的人工智能平台体积更大,通常受限于使用在云中运行的大型数据服务器。

NeuRRAM 芯片的特写。图片来源:David Baillot/加州大学圣地亚哥分校

此外,NeuRRAM 芯片用途广泛,支持多种不同的神经网络模型和架构。因此,该芯片可用于许多不同的应用,包括图像识别和重建以及语音识别。

“传统观点认为,内存计算的更高效率是以多功能性为代价的,但我们的 NeuRRAM 芯片在不牺牲多功能性的同时获得了效率,”该论文的第一通讯作者、最近获得博士学位的万维尔说。他毕业于斯坦福大学,曾在加州大学圣地亚哥分校从事芯片研究,在那里他与生物工程系的 Gert Cauwenberghs 共同担任顾问。

由加州大学圣地亚哥分校 (UCSD) 的生物工程师共同领导的研究小组在 8 月 17 日的Nature 杂志上展示了他们的研究结果。

NeuRRAM 芯片采用了一种创新的架构,该架构已在整个堆栈中进行了协同优化。图片来源:David Baillot/加州大学圣地亚哥分校

目前,人工智能计算既耗电又昂贵。边缘设备上的大多数人工智能应用都涉及将数据从设备移动到云端,人工智能在云端对其进行处理和分析。然后将结果传输回设备。这是必要的,因为大多数边缘设备都是电池供电的,因此只能用于计算的电量有限。

通过降低边缘 AI 推理所需的功耗,这款 NeuRRAM 芯片可以带来更强大、更智能、更易于访问的边缘设备和更智能的制造。它还可以带来更好的数据隐私,因为将数据从设备传输到云会增加安全风险。

AI 芯片上,将数据从内存转移到计算单元是一大瓶颈。“这相当于每天花8小时上下班,却只有2小时用来工作。”

为了解决这个数据传输问题,研究人员使用了所谓的电阻式随机存取存储器。这种类型的非易失性存储器允许直接在存储器内而不是在单独的计算单元中进行计算。RRAM 和其他用作神经形态计算的突触阵列的新兴内存技术是在斯坦福大学 Wan 的顾问、这项工作的主要贡献者之一 Philip Wong 的实验室中开创的。尽管使用 RRAM 芯片进行计算不一定是新事物,但通常会导致在芯片上执行的计算的准确性降低,并且芯片架构缺乏灵活性。

“自 30 多年前引入内存计算以来,它一直是神经形态工程中的常见做法,”Cauwenberghs 说。“NeuRRAM 的全新之处在于,极高的效率现在与各种 AI 应用程序的极大灵活性相结合,与标准数字通用计算平台相比,准确性几乎没有损失。”

精心设计的方法是跨硬件和软件抽象层进行多层次“协同优化”的关键,从芯片的设计到运行各种 AI 任务的配置。此外,该团队确保考虑到从存储设备物理到电路和网络架构的各种限制。

“这款芯片现在为我们提供了一个平台,可以解决从设备和电路到算法的整个堆栈问题,”圣母大学计算机科学与工程助理教授 Siddharth Joshi 说。

芯片性能

研究人员通过一种称为能量延迟积或 EDP 的方法来测量芯片的能量效率。EDP 结合了每次操作消耗的能量和完成操作所需的时间。通过这一措施,与最先进的芯片相比,NeuRRAM 芯片的 EDP 低 1.6 到 2.3 倍(越低越好),计算密度高 7 到 13 倍。

工程师在芯片上运行各种 AI 任务。它在手写数字识别任务上达到了 99% 的准确率;85.7% 的图像分类任务;84.7% 的谷歌语音命令识别任务。此外,该芯片还在图像恢复任务中实现了 70% 的图像重建误差降低。这些结果可与现有的数字芯片相媲美,这些芯片在相同的位精度下执行计算,但大大节省了能源。

研究人员指出,该论文的一个关键贡献是,所有特色结果都是直接在硬件上获得的。在之前的许多内存计算芯片工作中,AI 基准测试结果通常部分通过软件模拟获得。

下一步包括改进架构和电路,并将设计扩展到更先进的技术节点。工程师还计划解决其他应用,例如脉冲神经网络。

匹兹堡大学助理教授 Rajkumar Kubendran博士说:“我们可以在设备层面做得更好,改进电路设计以实现更多功能,并通过我们的动态 NeuRRAM 平台解决各种应用问题。”

此外,Wan 是一家致力于生产内存计算技术的初创公司的创始成员。“作为一名研究人员和工程师,我的抱负是将实验室的研究创新成果付诸实践,”Wan说。

新架构

NeuRRAM 能源效率的关键是一种创新的方法来检测内存中的输出。传统方法使用电压作为输入并测量电流作为结果。但这导致需要更复杂、更耗电的电路。在 NeuRRAM 中,该团队设计了一种神经元电路,可以感应电压并以节能的方式执行模数转换。这种电压模式感测可以在单个计算周期内激活 RRAM 阵列的所有行和所有列,从而实现更高的并行度。

在 NeuRRAM 架构中,CMOS 神经元电路与 RRAM 权重物理交错。它不同于传统设计,其中 CMOS 电路通常位于 RRAM 重量的外围。神经元与 RRAM 阵列的连接可以配置为作为神经元的输入或输出。这允许在各种数据流方向上进行神经网络推理,而不会产生面积或功耗方面的开销。这反过来又使架构更易于重新配置。

为了确保人工智能计算的准确性可以在各种神经网络架构中保持不变,工程师们开发了一套硬件算法协同优化技术。这些技术在各种神经网络上得到了验证,包括卷积神经网络、长短期记忆和受限玻尔兹曼机。

作为神经形态 AI 芯片,NeuroRRAM 跨 48 个神经突触核心执行并行分布式处理。为了同时实现高通用性和高效率,NeuRRAM 通过将神经网络模型中的一层映射到多个核上以对多个数据进行并行推理,从而支持数据并行。此外,NeuRRAM 通过将模型的不同层映射到不同的内核并以流水线方式执行推理来提供模型并行性。

国际研究团队

这项工作是一个国际研究团队的成果。

UCSD 团队设计了实现与 RRAM 阵列接口的神经功能的 CMOS 电路,以支持芯片架构中的突触功能,以实现高效率和多功能性。Wan与整个团队密切合作,实施了设计;表征芯片;训练人工智能模型;并进行了实验。Wan 还开发了一个软件工具链,将 AI 应用程序映射到芯片上。

RRAM 突触阵列及其操作条件在斯坦福大学进行了广泛的表征和优化。

RRAM 阵列在清华大学制造并集成到 CMOS 上。

Notre Dame 的团队为芯片的设计和架构以及随后的机器学习模型设计和培训做出了贡献。

这项研究开始于美国国家科学基金会资助的宾夕法尼亚州立大学“硅上视觉皮层计算探险”项目的一部分,该项目继续得到海军AI研究科学办公室、半导体研究公司和DARPA JUMP项目以及西部数字公司的资金支持。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2022-08-22
国际研究团队推出用于边缘AI的高效新型神经形态芯片
NeuRRAM芯片是第一个展示广泛 AI 应用的内存计算芯片,同时仅使用其他平台消耗的一小部分能量,同时保持同等精度。

长按扫码 阅读全文