探究 transfomers 的本质——推动 AI 模型进化的引擎

如今,几乎所有前沿的 AI 产品和模型都采用了 transformer 架构。GPT -4o、LLaMA、Gemini 和 Claude 等大型语言模型(LLM) 都是基于 transformer 的,而文本转语音、自动语音识别、图像生成和文本转视频模型等其他 AI 应用也以 transformer 作为底层技术。

由于围绕人工智能的炒作不太可能在短期内减弱,现在是时候给予变压器应有的地位了,这就是为什么我想解释一下它们的工作原理,为什么它们对于可扩展解决方案的增长如此重要,以及为什么它们是 LLM 的支柱。

Transformer 不仅仅是看上去那么简单

简而言之,Transformer 是一种神经网络架构,旨在对数据序列进行建模,非常适合语言翻译、句子补全、自动语音识别等任务。Transformer 已成为许多此类序列建模任务的主导架构,因为底层的注意力机制可以轻松并行化,从而允许在训练和执行推理时实现大规模。

Transformer最初是在谷歌研究人员于 2017 年发表的一篇论文《Attention Is All You Need》中提出的,它是一种专为语言翻译设计的编码器-解码器架构。次年,谷歌发布了 Transformer 的双向编码器表示 (BERT),这可以被认为是第一批 LLM 之一——尽管按照今天的标准,它现在被认为是小规模的。

从那时起——尤其是随着OpenAI的 GPT 模型的出现而加速——趋势就是使用更多的数据、更多的参数和更长的上下文窗口来训练越来越大的模型。

为了促进这一发展,出现了许多创新,例如:更先进的 GPU 硬件和更好的多 GPU 训练软件;量化和专家混合 (MoE) 等减少内存消耗的技术;新的训练优化器,如 Shampoo 和 AdamW;高效计算注意力的技术,如 FlashAttention 和 KV Caching。这一趋势在可预见的未来可能会持续下去。

Transformer 中自注意力机制的重要性 根据具体应用,Transformer 模型采用编码器-解码器架构。编码器组件学习数据的向量表示,然后可用于下游任务,如分类和情绪分析。解码器组件采用文本或图像的向量或潜在表示,并使用它来生成新文本,使其可用于句子完成和摘要等任务。因此,许多熟悉的先进模型(如 GPT 系列)都是仅解码器。

编码器-解码器模型结合了这两个组件,使其适用于翻译和其他序列到序列任务。对于编码器和解码器架构而言,核心组件都是注意层,因为它允许模型保留文本中较早出现的单词的上下文。

注意力有两种形式:自我注意力和交叉注意力。自我注意力用于捕捉同一序列中单词之间的关系,而交叉注意力用于捕捉两个不同序列中单词之间的关系。交叉注意力将模型中的编码器和解码器组件以及翻译过程中的编码器和解码器组件连接起来。例如,它允许英语单词“strawberry”与法语单词“fraise”相关联。从数学上讲,自我注意力和交叉注意力都是矩阵乘法的不同形式,可以使用 GPU 非常高效地完成。

由于存在注意层,Transformer 可以更好地捕捉长篇文本中单词之间的关系,而之前的模型(例如循环神经网络 (RNN) 和长短期记忆 (LSTM) 模型)则会丢失文本中前面单词的上下文信息。

模型的未来 目前,Transformer 是许多需要 LLM 且受益于最多研究和开发的用例的主导架构。虽然这种情况似乎不太可能在短期内改变,但最近引起人们关注的另一类模型是状态空间模型 (SSM),例如 Mamba。这种高效算法可以处理非常长的数据序列,而 Transformer 则受到上下文窗口的限制。
对我来说,Transformer 模型最令人兴奋的应用是多模态模型。例如,OpenAI 的 GPT-4o 能够处理文本、音频和图像,其他提供商也开始效仿。多模态应用非常多样化,从视频字幕到语音克隆再到图像分割(等等)。它们还为残障人士提供了更容易使用 AI 的机会。例如,盲人可以通过多模态应用程序的语音和音频组件进行交互,从而获得极大的帮助。

这是一个令人兴奋的领域,具有很大的潜力来发掘新的用例。但请记住,至少在可预见的未来,主要由变压器架构支撑。

评论