type
status
date
slug
summary
tags
category
icon
password
笔记
⭐ Abstract + Introduction
语言表示模型BERT,代表来自Transformer的双向编码器表示。旨在通过联合调节所有层中的左右上下文来从未标记的文本中预训练深度双向表示(用来预训练未标记文本的深度双向表示)。因此,预训练的 BERT 模型只需一个额外的输出层就可以进行微调,为各种任务(例如问答和语言推理)创建最先进的模型,而无需大量特定于任务的架构修改。
语言模型预训练用来有效改进各类自然语言处理任务。
ㅤ | ㅤ | ㅤ |
句子级任务 | 自然语言推理、释义 | 通过整体分析来预测句子之间的关系 |
token级任务 | 命名实体识别和问答 | 需要在标记级产生细粒度输出 |
🍀 应用于下游任务的预训练策略
- 基于特征
使用特定于任务的架构,其中包括预先训练的表示作为额外的特征
- 基于微调
引入最小的特定任务参数,并通过简单地微调所有与训练参数,在下游任务上进行训练
传统方法缺陷:单向的标准语言模型限制了与训练期间可以使用体系结构的选择,对一些任务是有害的(需要考虑上下文)
BERT使用MLM预训练目标缓解了单向约束。
- 证明了双向预训练对语言表征的重要性;
- 表明预训练的表示减少了对许多高度工程化的特定于任务的架构的需求;
- BERT在多个NLP任务中提供了先进技术
⭐ 被广泛使用的预训练语言模型
- 无监督的基于特征的方法
- 无监督微调方法
- 从监督数据迁移学习
⭐ BERT
在bert框架中有两个步骤:预训练和微调。
使用未标记的文本(基于不同的训练任务)进行预训练后,用预训练得到的参数进行初始化,对特定任务进行微调—>得到可以应用于特定任务的模型。对特定任务进行微调的微调模型在不同任务间是不同的。
在预训练期间,模型在不同的预训练任务中使用未标记的数据进行训练。为了进行微调,BERT模型首先使用预训练的参数进行初始化,然后使用来自下游任务的标记数据对所有参数进行微调。每个下游任务都有单独的微调模型,即使它们是用相同的预训练参数初始化的。
👉:BERT的一个显著特征是它跨不同任务的统一架构。预训练的体系结构和最终的下游体系结构之间的差异很小。
架构 BERT模型的结构是一个基于原始实现方式的多层双向Transformer编码器
输入 能够在一个标记序列中明确地表示单个句子和一对句子(eg:<Question, Answer>)【是bert模型处理多种下游任务的需求,不同任务对输出有不同要求】
"句子":可以是连续文本的任意跨度(不一定是逻辑上的句子单位)
"序列":BERT输入标记序列,可能是一个句子,也可能是两个句子组合在一起。每个序列用[CLS](序列的第一个token)进行分类标记,与此标记对应的最终隐藏状态被用作分类任务的聚合序列表示
用两种方法来区分这些句子。
首先,用一个特殊的标记([SEP])将它们分开。
其次,为每个标记添加一个学习嵌入(对每一个token加入一个可学习的的embedding),表明它属于句子a还是句子b。
将输入嵌入表示为E,将特殊[CLS]标记的最终隐藏向量表示为C∈RH,将第i个输入标记的最终隐藏向量表示为Ti∈RH。对于给定的令牌,它的输入表示是通过将相应的令牌、段和位置嵌入相加来构造的。
预训练
- Masked LM
深度双向模型比从左到右模型或从左到右和从右到左的浅连接模型更强大。不幸的是,标准的条件语言模型只能从左到右或从右到左进行训练,因为双向条件作用将允许每个单词间接地“看到自己”,并且该模型只能在多层上下文中简单地预测目标单词。
为了训练深度双向表示,使用MLM,随机屏蔽部分输入标记,对被屏蔽的输入标记进行预测
- Next Sentence Prediction
许多重要的下游任务,如问答(QA)和自然语言推理(NLI),都是基于对两个句子之间关系的理解,而语言建模并不能直接捕捉到这一点。为了训练一个能够理解句子关系的模型,对一个二元化的下一句预测任务进行预训练,该任务可以从任何单语言语料库中简单地生成。
具体来说,在为每个预训练示例选择句子A和B时,50%的时间B是A之后的实际下一句句子(标记为IsNext), 50%的时间B是语料库中的随机句子(标记为NotNext)。
微调
Transformer中的自注意机制允许BERT通过交换适当的输入和输出对许多下游任务建模,因此微调非常简单。
自我注意编码一个连接的文本对有效地包括了两个句子之间的双向交叉注意。
- Author:NotionNext
- URL:https://tangly1024.com/article/bert
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts