ChatGPT幕后的真正大佬_编码机资源

当前位置： 编码机 >> 编码机资源 >> ChatGPT幕后的真正大佬

ChatGPT幕后的真正大佬

发布时间:2023/6/2 17:14:13

引

ChatGPT的背后

ChatGPT红得发紫，强得让人类心悸。

但在它的背后，还隐藏着一位真正的大佬。

可以说，与它相比，ChatGPT其实只是他的一个跟班小弟。

或者说，只是它掌控家族中的一个比较靓的仔。

这位大佬自年问世以来，隐约已成为AI领域的基石王者。

它的名字叫做——Transformer！

Chat不重要，GPT才重要

先拆解一下ChatGPT，它由Chat与GPT两部分组成。

聊天不重要，GPT才重要。

那什么是GPT，它的全英文是GenerativePre-trainedTransformer。

翻译过来就是——生成式预训练的变形金刚。

先问ChatGPT——你是谁？

我是谁，它是这样解释的：

GPT是基于Transformer架构的预训练语言模型，可以生成自然语言文本。Transformer是基于自注意力机制的深度学习模型架构，它在自然语言处理领域中得到了广泛的应用，如机器翻译、文本分类和生成模型等。

GPT是基于Transformer模型的改进版本，主要是针对生成任务进行了优化，通过预训练学习自然语言的语义和语法规律，进而生成高质量的文本。

因此，GPT可以看作是Transformer模型在生成任务上的一个应用扩展。

短短的自我介绍中，ChatGPT就四次提到Transformer。

Transformer模型结构图

Transformer到底是什么，让ChatGPT如此迷恋？

这只变形金刚，到底是只什么怪兽？

强大的变形金刚Transformer

Transformer的定义清晰明了：

是用于自然语言处理（NLP）的神经网络架构。

在Transformer出现之前，人工智能研究领域百家争鸣。

Transformer出现之后，格局开始变了。

开始打压如日中天的循环神经网络（RNN）和卷积神经网络（CNN）。

以上图片来自网络，请原创者联络我们

Transformer架构使用了注意力机制，能够处理长序列的依赖关系。

这让它具有以下明显优点：

?并行计算：由于自注意力机制的引入，Transformer可以实现并行计算，加快训练速度。

?长序列处理：相比传统的循环神经网络和卷积神经网络，Transformer可以处理更长的序列，这是由于自注意力机制可以学习到全局的序列信息。

?模块化结构：Transformer由编码器和解码器两部分组成，每部分都包含了多层相同的模块，这种模块化结构使得Transformer更易于扩展和调整。

Transformer在各种任务中的表现,也将不断得到改善和优化，发展日新月益。

以上图片来自网络，请原创者联络我们

自年推出之后，Transformer已经形成了自己的家族体系。

基于GPT架构，ChatGPT就隐藏在GPT-3的后面。

现在你就明白，它为什么叫变形金刚了。

它的确是可以演变成各种不同的角色，而且个个都挺厉害。

统一自然语言NLP

人工智能的一大研究方向，首先是自然语言处理NLP领域。

自从Transformers出现后，全球NLP领域的人工智能的工程师们望风景从。

Transformers在该领域的进展所向披靡，不可阻挡，原因如下：

?模型大小和训练数据规模的增加：大规模的Transformers模型，如GPT-3.5、bert、T5等，有些模型参数量达到千亿级别，具有更强表达能力。

?多语言和跨语言应用：由于Transformers模型具有更强泛化能力，因此可以被应用于多语言和跨语言任务，如机器翻译、跨语言文本分类等。

?与其他模型的结合和拓展：与其他模型结合使用，如结合卷积神经网络（CNN）或循环神经网络（RNN）进行多模态学习等。

?解释性和可解释性：随着越来越多的机器学习算法被应用于实际场景，对于模型的解释性和可解释性要求也越来越高。

LLM成长的时间线

在自然语言处理NLP领域，总体的趋势是：

LSTM/CNN→Transformer

NLP领域分为两大不同类型的任务：

?理解类人工智能

?生成式人工智能

这两个领域的研发，已经收敛到了两个不同的预训练模型框架里：

?自然语言理解，技术体系统一到了以Bert为代表的“双向语言模型预训练+应用Fine-tuning”模式；

?自然语言生成类任务，其技术体系则统一到了以GPT为代表的“自回归语言模型（即从左到右单向语言模型）+Zero/FewShotPrompt”模式。

而这两大模型都是基于Transformers，而且两者也出现了技术统一趋向。

在自然语言处理NLP这个领域，Transformer基本上已经一统天下。

以至于那些还沉迷于CNN，RNN的工程师被警告：

放弃战斗吧，向Transformer投降！

藏不住的野心：

统一计算机视觉CV

除了NLP，人工智能的另一分支是计算机视觉CV。

Transformer最开始，只是专注于自然语言的处理。

NLP曾经落后于计算机视觉，但是Transformer的出现迅速地改变了现状。

一出生就风华正茂，用来形容Transformer毫不为过。

它催生了一大批举世瞩目的模型，达到了令人类不安的程度。

随着Transformer统一了NLP，计算机视觉领域显然受到了启发。

一直沉迷于CNN神经网络中的科学家，开始想知道Transformer是否可以在计算机视觉方面取得类似的效果。

不试不知道，一试吓一跳。

Transformer在计算机视觉领域同样治疗效果明显：

?图像分类

ViT（VisionTransformer）是一种将Transformer应用于图像分类的模型。在ImageNet等基准数据集上取得了与卷积神经网络（CNN）相媲美的结果。

?目标检测

DETR（DEtectionTRansformer）是基于Transformer的目标检测模型。DETR在COCO数据集上取得了与FasterR-CNN方法相当的结果。

?语义分割

Transformer可以用于语义分割任务，其中每个像素被视为一个token。在Cityscapes、ADE20K和COCO-Stuff等数据集上取得了领先的结果。

以上例子都是Transformer的应用，它在计算机视觉领域也是虎视耽耽。

花8分钟时间，

拆解Transformer这只变形金刚

Transformer为何如此强大，我们花8分钟来解剖它。

以下内容来自JayAlammar：

Transformers可以被看做一个黑盒，以文本翻译中的法-英翻译任务为例，这个黑箱接受一句法语作为输入，输出一句相应的英语。

那么在这个黑盒子里面都有什么呢？

里面主要有两部分组成：Encoder和Decoder。

输入一个文本的时候，该文本数据会先经过一个叫Encoders的模块，对该文本进行编码。然后将编码后的数据再传入一个叫Decoders的模块进行解码，解码后就得到了翻译后的文本。

Encoders为编码器，Decoders为解码器。

细心的同学可能已经发现了，上图中的Decoders后边加了个s，那就代表有多个编码器了呗，没错，这个编码模块里边，有很多小的编码器，一般情况下，Encoders里边有6个小编码器，同样的，Decoders里边有6个小解码器。

在编码部分，每一个的小编码器的输入，是前一个小编码器的输出。而每一个小解码器的输入，不光是它的前一个解码器的输出，还包括了整个编码部分的输出。

那每一个小编码器里边又是什么呢？

放大一个encoder，发现里边的结构是一个自注意力机制+一个前馈神经网络。

先来看下Self-attention是什么样子的。

通过几个步骤来解释：

(1)首先，Self-attention的输入就是词向量，即整个模型的最初的输入是词向量的形式。自注意力机制，顾名思义就是自己和自己计算一遍注意力，即对每一个输入的词向量，我们需要构建Self-attention的输入。

(2)接下来就要计算注意力得分了，这个得分是通过计算Q与各个单词的K向量的点积得到的。以X1为例，分别将Q1和K1、K2进行点积运算，假设分别得到得分和96。

(3)将得分分别除以一个特定数值8（K向量的维度的平方根，通常K向量的维度是64）这能让梯度更加稳定。

(4)将上述结果进行softmax运算得到，softmax主要将分数标准化，使他们都是正数并且加起来等于1。

(5)将V向量乘上softmax的结果，这个思想主要是为了保持我们想要

转载请注明:http://www.aideyishus.com/lkzp/4758.html

------分隔线----------------------------

热点文章

模拟芯片行业深度报告国产替代浪

ChatGPT幕后的真正大佬

最新文章

热点文章

推荐文章