Transformers & BERT

Transformer

Transformer 是 2017 年提出的革命性架构，完全摒弃了 RNN/CNN，仅使用注意力机制（Attention）就在机器翻译、文本理解等任务上取得了突破性成果。它是现代大语言模型（LLM）的基础。

🔗 自注意力机制动画演示

The cat sat on mat

每个词与其他词的关系权重

0.9

0.3

0.1

0.2

0.8

0.4

0.1

0.3

0.9

注意力权重：值越大 = 两个词关系越密切

🎯 Multi-Head Attention 动画演示

Head 1: 语法

Head 2: 语义

Head 3: 位置

多个注意力头并行关注不同类型的关系

核心创新：自注意力机制（Self-Attention） 每个 token 可以直接关注序列中所有其他 token，不受距离限制，解决了长距离依赖问题
Multi-Head Attention 多个注意力头并行计算，关注不同类型的语义关系（语法、情感、实体等）
位置编码（Positional Encoding） 因为没有 RNN 的顺序结构，需要额外加入位置信息来区分词序
编码器-解码器结构 编码器处理输入序列，解码器基于编码结果和已生成内容自回归生成输出
并行计算优势 相比 RNN 可以充分利用 GPU 并行计算，训练速度大幅提升

# Transformer 自注意力机制简化实现
import torch
import torch.nn.functional as F
import math

class SelfAttention(nn.Module):
    def __init__(self, d_model, n_heads):
        super().__init__()
        self.d_model = d_model
        self.n_heads = n_heads
        self.d_k = d_model // n_heads
        
        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model)
        self.W_v = nn.Linear(d_model, d_model)
        self.W_o = nn.Linear(d_model, d_model)
    
    def forward(self, x, mask=None):
        batch_size = x.size(0)
        
        # 投影并分头
        Q = self.W_q(x).view(batch_size, -1, self.n_heads, self.d_k).transpose(1,2)
        K = self.W_k(x).view(batch_size, -1, self.n_heads, self.d_k).transpose(1,2)
        V = self.W_v(x).view(batch_size, -1, self.n_heads, self.d_k).transpose(1,2)
        
        # 计算注意力分数
        scores = torch.matmul(Q, K.transpose(-2,-1)) / math.sqrt(self.d_k)
        if mask is not None:
            scores = scores.masked_fill(mask == 0, -1e9)
        
        attention_weights = F.softmax(scores, dim=-1)
        attention_output = torch.matmul(attention_weights, V)
        
        # 合并多头并输出
        output = attention_output.transpose(1,2).contiguous().view(batch_size, -1, self.d_model)
        return self.W_o(output)

Learning / Data / Tasks

Transformer 在不同类型的任务和数据上有广泛应用，了解这些对应关系有助于理解 AI 安全中的攻击面。

预训练 + 微调范式 先在大规模通用数据上预训练，再在特定任务数据上微调，已成为 NLP 标准流程
文本理解任务 文本分类、情感分析、问答系统、自然语言推理（NLI）
文本生成任务 机器翻译、摘要、对话生成、代码生成
多模态任务 图像描述、视频理解、视觉问答（VQA）
AI安全关联 预训练模型可能包含有毒数据，微调可能引入后门，生成内容可能泄露训练信息

BERT

BERT（Bidirectional Encoder Representations from Transformers）是 2018 年提出的双向预训练语言模型，在多项 NLP 基准测试中刷新纪录。其核心创新是"双向"和"掩码语言模型"。

掩码语言模型（MLM） 随机mask 15%的词，训练模型预测mask位置的原词，让模型同时学习左、右上下文
下一句预测（NSP） 训练判断两句话是否为连续的上下文，帮助模型理解句子间关系
双向编码 与单向语言模型不同，BERT 同时利用前后文信息，理解更准确
模型规模 BERT-Base: 12层/768隐层/12头，1.1亿参数；BERT-Large: 24层/1024隐层/16头，3.4亿参数
词表使用 WordPiece 词表（约30000词），处理未登录词（OOV）能力更强

# BERT 预训练示例（简化）
from transformers import BertModel, BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# MLM 预训练
text = "The [MASK] chases the dog."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
predictions = outputs.logits

# 预测被mask的词
mask_token_id = tokenizer.mask_token_id
predicted_id = predictions[0, mask_token_idx].argmax(-1)
predicted_word = tokenizer.decode(predicted_id)

BERT Fine-Tuning

BERT 微调是将预训练模型适配到下游任务的关键步骤，只需要少量标注数据即可取得好效果。

分类任务 在 [CLS] 表示后接分类层，用于情感分析、垃圾邮件检测等
问答任务 预测答案的起始和结束位置，如 SQuAD 数据集
命名实体识别（NER） 为每个 token 预测实体标签（人名、地名、组织等）
微调技巧 小学习率（2e-5 ~ 5e-5）、epoch 少（3~10）、warmup策略
数据效率 相比从零训练，微调只需几千条标注数据即可达到好效果
AI安全风险 微调阶段易受后门攻击，恶意数据可能导致模型行为异常

# BERT 分类任务微调示例
from transformers import BertForSequenceClassification

model = BertForSequenceClassification.from_pretrained(
    'bert-base-uncased',
    num_labels=2  # 二分类
)

# 训练
outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
loss = outputs.loss
loss.backward()

# 使用 AdamW 优化器，学习率2e-5
optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5)

Extensions (扩展模型)

基于 Transformer 和 BERT 的架构改进，衍生出众多影响力深远的模型。

GPT 系列 单向语言模型，通过大规模预训练+Prompt tuning / RLHF 达到惊人效果
RoBERTa BERT 的强力版，去除 NSP、动态mask、更多训练数据，性能更优
ALBERT 参数共享和因子分解，大幅减少参数量同时保持性能
DistilBERT 知识蒸馏，压缩 60% 参数量的同时保留 97% 性能
XLNet、SpanBERT 改进预训练目标的变体，在特定任务上表现更好
T5、BART Encoder-Decoder 统一框��，文本到文本的通用框架
多语言模型 mBERT、XLM-R 支持 100+ 语言，跨语言迁移学习

📚 本章复习要点

Transformer：基于自注意力的革命性架构，是所有大模型的基础
BERT：双向预训练+MLM+NSP，在多项 NLP 任务上刷新纪录
微调：预训练模型适配下游任务的关键步骤，是 AI 安全重点关注环节
扩展模型：GPT、RoBERTa、ALBERT、DistilBERT 等针对不同需求优化
AI安全关联：预训练数据安全、微调数据投毒、模型窃取等风险