最近的大部分进展人工智能都来自于构建更大的神经网络。一种强大到足以处理“大脑规模”模型的新芯片可以加速的方法。

芯片启动大脑2019年,当它走出隐身状态,展示了一种1.2万亿晶体管芯片时,它成为了公众关注的焦点。T他有餐盘那么大,芯片是叫做Wafer Scale Engine世界上最大的计算机芯片.今年早些时候大脑发布Wafer Scale Engine 2 (WSE-2),使晶体管数量增加了一倍多,达到2.6万亿。

现在,该公司概述了一系列创新,这意味着其最新的芯片可以训练多达120万亿参数的神经网络。参考OpenAI革命性的GPT-3语言模型包含1750亿的参数T迄今为止最大的神经网络谷歌训练的,有1.6万亿。

更大的网络,如GPT-3,已经改变了自然语言处理的格局,使以前无法想象的事情成为可能。”说大脑首席执行官兼联合创始人安德鲁·费尔德曼在新闻稿中

该行业正在突破1万亿参数模型,我们正在将这一边界扩大两个数量级,使大脑规模的神经网络具有120万亿参数。”

Cerebras的天才之处在于,它不是将一块硅片分割成数百个更小的芯片年代一颗巨大的行星。一般的GPU只有几百个核心,而WSE-2有85万个。B因为它们都在同一块硅片上,它们可以更无缝地工作。

这使得该芯片非常适合需要大量并行操作的任务,其中包括深度学习和各种超级计算应用程序。本周早些时候Hotchips会议该公司公布了一项新技术,进一步提升了WSE-2的性能。

大型神经网络面临的一个主要挑战是如何处理计算中涉及的所有数据。大多数芯片上的内存都是有限的,每次数据的输入和输出都会产生一个瓶颈,这就限制了网络的实际大小。

WSE-2已经拥有巨大的40g片上内存,这意味着它可以甚至拥有当今最大的网络.但是这家公司建立了一个名为MemoryX的外部单元,提供高达2.4 pb的高性能内存,这是它是如此紧密地集成在一起,就像在芯片上一样。

大脑是否也改进了它的方法数据会来回移动。以前,神经网络的核心会存储在芯片上,只会输入训练数据。但现在,神经网络神经元之间连接的权重被保存在MemoryX单元中,并在训练期间输入。

该公司表示,通过结合这两项创新,他们可以训练出比现有网络规模大两个数量级的网络。与此同时宣布的其他进步包括极稀疏运行的能力因此有效的神经网络,以及一种名为“SwarmX”的新型通信系统,该系统可以连接192个芯片,形成总计1.63亿个核。

目前尚不清楚所有这些尖端技术将花费多少,以及谁有能力利用这些技术。“这是高度专业化的东西,”林利集团的高级分析师迈克·德姆勒说,告诉《连线》杂志“这只对训练大型模特有意义。”

虽然人工智能模型的规模一直在迅速增长,但要将WSE-2推向极限可能还需要数年时间。尽管在大脑的压力材料中有暗示,仅仅因为参数计数大致匹配大脑中的突触数量,这并不意味着新的芯片将能够运行任何接近其复杂性或性能的模型。

在人工智能领域,现在有一个主要的争论,那就是我们是否可以简单地通过建立更大的神经网络来实现一般的人工智能需要新的理论上的突破。到目前为止,不断增加的参数计数已经导致了性能的相当一致的飞跃。一个对目前最大的模型进行两个数量级的改进,无疑意义重大。

目前还不清楚这种趋势是否会持续下去,但Cerebras的新芯片可以让我们更接近答案。

图片来源:大脑

我是一名自由科技作家,住在印度班加罗尔。我主要感兴趣的领域是工程、计算机和生物学,特别关注这三者之间的交叉。

遵循Edd: