论文阅读-Generative Pre-Training

type

status

date

slug

summary

NLP任务处理范式：

💡

第一种：语言学家手工设计一系列特征模板来输入模型。模型对任务的处理结果高度依赖于特征模板的设计

第二种：用预训练后的词嵌入表征加模型架构的调整，主要工作重心在词嵌入

第三种：在超大的文本数据集上预训练一个通用的模型。接着再对下游的特定任务微调。（GPT1.0）

预训练的想法早在第二范式便已普及开来。但是不同的是词嵌入捕捉的更多是词义维度上的信息，如何捕捉更多的语言学信息是个大难点。难点如论文所述主要有两点：如何为所谓的可迁移的语言学能力或信息制定目标函数？即我们的优化目标是什么(如语言模型好坏，机器翻译结果或辩论的一致性)？其次学习到的能力将以何种形式迁移？是否需要如ELMO论文里展现的将学到的上下文词嵌入(contextual embeddings) 和输入拼接，并且定制下游模型的架构？或者又如UMLFit那样需要非常细致复杂的训练调整？

🌸 论文贡献 🌸

探索了一种使用无监督预训练和监督微调相结合的半监督语言理解任务的方法。

目标：学习一种通用的表达方式，这种表达方式几乎不需要适应范围广泛的任务。我们假设可以访问大量的未标记文本语料库和几个具有手动标注的训练示例(目标任务)的数据集。我们的设置不要求这些目标任务与未标记的语料库在同一个域中。

🌸 基本步骤 🌸

对未标记的数据使用语言建模目标来学习神经网络模型的初始参数；

使用相应的监督目标将这些参数调整到目标任务。

⭐ Framework

分为两个阶段进行

在大型文本预料库上学习大容量语言模型

微调，使模型适应带有标签数据的区别性任务

总结

一些对比~~

重要内容总结

一、基本原理

RNN（循环神经网络）是一种序列模型，可以处理序列数据，并记忆之前的信息；Transformer 是一种基于自注意力机制的模型，用于处理序列数据并实现并行计算；BERT 和 GPT 分别是使用 Transformer 模型的预训练语言模型，其中 BERT 用于双向编码和 GPT 用于单向编码。它们的原理、优缺点、区别和联系如下：

RNN：

原理：RNN 在每个时间步中，通过将当前输入和上一个时间步的隐藏状态作为输入，计算出当前时间步的隐藏状态。这使得 RNN 能够处理序列数据，并且能够记忆先前的信息。

优点：适合处理序列数据，可以记忆先前信息。

缺点：梯度消失/爆炸问题，长序列记忆困难，不易并行化。

Transformer：

原理：Transformer 利用自注意力机制来计算序列中各个位置的重要性权重，并根据这些权重加权求和生成新的表示。这使得 Transformer 能够在不考虑序列顺序的情况下处理序列数据，并且可以通过并行计算来提高效率。

优点：能够处理长序列，可以并行计算，无需考虑序列顺序。

缺点：需要大量的训练数据和计算资源。

BERT：

原理：BERT 是一个双向的 Transformer 模型，通过预训练两个任务（掩码语言建模和下一句预测）来学习词语和上下文的表示。BERT 可以生成高质量的语言表示，同时还可以对其进行微调以解决各种 NLP 任务。

优点：表现良好，可以应用于多种 NLP 任务。

缺点：需要大量的训练数据和计算资源。

GPT：

原理：GPT 是一个单向的 Transformer 模型，通过自回归语言建模任务进行预训练，学习生成下一个词的条件概率分布。GPT 生成的文本几乎与人类写作风格相同。

优点：生成文本质量高。

缺点：不能处理双向上下文，更适用于生成文本而不是分类或问答等其他 NLP 任务。

二、区别和联系：

RNN 使用迭代方式处理序列，Transformer 使用自注意力机制处理序列。

BERT 和 GPT 都使用了 Transformer 模型，但 BERT 是双向的，GPT 是单向的。

BERT 主要用于双向编码和微调，GPT 主要用于单向编码和生成文本。

Transformer 和 BERT/GPT 都适合处理长序列，但 Transformer 更利于并行计算，而 BERT/GPT 更适合处理自然语言相关的任务。

RNN：原理：RNN 在每个时间步中，通过将当前输入和上一个时间步的隐藏状态作为输入，计算出当前时间步的隐藏状态。这使得 RNN 能够处理序列数据，并且能够记忆先前的信息。

优点：适合处理序列数据，可以记忆先前信息。

缺点：梯度消失/爆炸问题，长序列记忆困难，不易并行化。

Transformer：原理：Transformer 利用自注意力机制来计算序列中各个位置的重要性权重，并根据这些权重加权求和生成新的表示。这使得 Transformer 能够在不考虑序列顺序的情况下处理序列数据，并且可以通过并行计算来提高效率。

优点：能够处理长序列，可以并行计算，无需考虑序列顺序。

缺点：需要大量的训练数据和计算资源。

BERT：原理：BERT 是一个双向的 Transformer 模型，通过预训练两个任务（掩码语言建模和下一句预测）来学习词语和上下文的表示。BERT 可以生成高质量的语言表示，同时还可以对其进行微调以解决各种 NLP 任务。

优点：表现良好，可以应用于多种 NLP 任务。

缺点：需要大量的训练数据和计算资源。

GPT：原理：GPT 是一个单向的 Transformer 模型，通过自回归语言建模任务进行预训练，学习生成下一个词的条件概率分布。GPT 生成的文本几乎与人类写作风格相同。

优点：生成文本质量高。

缺点：不能处理双向上下文，更适用于生成文本而不是分类或问答等其他 NLP 任务。

区别和联系： RNN 使用迭代方式处理序列，Transformer 使用自注意力机制处理序列。 BERT 和 GPT 都使用了 Transformer 模型，但 BERT 是双向的，GPT 是单向的。 BERT 主要用于双向编码和微调，GPT 主要用于单向编码和生成文本。 Transformer 和 BERT/GPT 都适合处理长序列，但 Transformer 更利于并行计算，而 BERT/GPT 更适合处理自然语言相关的任务。

Author:NotionNext
URL:https://tangly1024.com/article/GPT
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

Relate Posts

NotionNext

一个熟练使用智能设备的小猫🐱