Model Distillation & Extraction

概念区分：模型蒸馏(M knowledge Distillation)和模型抽取(Model Extraction)都是"复制"模型，但目的和手段不同。蒸馏是正向的知识迁移，用于模型压缩和部署；抽取是逆向的攻击窃取，用于盗取模型功能。

Understanding (理解) - 模型安全基础知识

在深入模型蒸馏和抽取之前，需要理解模型安全中的几个核心概念。

模型知识产权 训练大型AI模型需要大量数据和计算资源，模型本身是有价值的商业资产
模型保护的目标 防止模型被窃取、被投毒、被对抗攻击、以及模型输出泄露敏感信息
模型安全的威胁模型 外部攻击者、黑盒API用户、恶意内部员工、竞争对手等各种角色
防御层次 模型结构保护、API访问控制、输出保护、水印保护、司法保护
与本章内容关联 模型抽取是模型窃取的主要手段，模型蒸馏的防御思路可用于保护模型

Model Distillation (模型蒸馏)

模型蒸馏是一种模型压缩技术，通过让小模型（学生）学习大模型（老师）的"软标签"来获得接近大模型的性能。

📚 模型蒸馏动画演示

Teacher 🧠 大模型

⇨

Student 🧠 小模型

大模型（Teacher）指导 → 小模型（Student）学习软标签

软标签分布：

核心思想 大模型的 softmax 输出包含类别间的相似性信息（软标签），比硬标签更丰富
温度参数 T 控制 softmax 的平滑程度：q_i = exp(z_i/T) / Σexp(z_j/T)
损失函数 学生模型同时学习硬标签（交叉熵）和软标签（KL散度）
压缩效果 可压缩 10x-100x 参数，保留 95%+ 性能
防御视角 蒸馏过程中的知识迁移可用于防御模型抽取（通过监控学生模型质量）

# 模型蒸馏示例
import torch.nn.functional as F

def distillation_loss(student_logits, teacher_logits, labels, T=4, alpha=0.7):
    # 软标签损失：学生学习老师的概率分布
    soft_teacher = F.softmax(teacher_logits / T, dim=-1)
    soft_student = F.log_softmax(student_logits / T, dim=-1)
    soft_loss = F.kl_div(soft_student, soft_teacher, reduction='batchmean') * (T * T)
    
    # 硬标签损失：学生学习真实标签
    hard_loss = F.cross_entropy(student_logits, labels)
    
    # 组合损失
    return alpha * soft_loss + (1 - alpha) * hard_loss

# 训练学生模型
for epoch in range(num_epochs):
    for batch in dataloader:
        inputs, labels = batch
        teacher_outputs = teacher_model(inputs)
        student_outputs = student_model(inputs)
        
        loss = distillation_loss(student_outputs, teacher_outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

Model Extraction (模型抽取/窃取)

模型抽取是一种攻击技术，攻击者通过查询目标模型来窃取其功能，构建一个功能相近的复制模型。

🔓 模型抽取攻击动画演示

🔍

查询API

→

💾

收集输出

→

📋

训练副本

攻击者通过 API 查询 → 收集输入输出对 → 训练复制模型

攻击目标 获得一个与原始模型功能相似的替代模型，可能用于绕过授权或二次攻击
攻击条件 可以访问模型的 API 接口，获得输入输出的映射关系
查询策略 随机查询、主动学习查询、基于置信度的查询等
训练替代模型 用查询得到的 (输入, 输出) 对训练新模型
攻击评估 测试集准确率与原始模型的对比
防御方法 限制查询频率、添加输出扰动、添加水印、监控异常访问等

维度	模型蒸馏 (正常)	模型抽取 (攻击)
目的	模型压缩、部署优化	窃取模型功能
发起者	模型拥有者	外部攻击者
信息访问	完全访问	只通过 API
知识来源	软标签（概率分布）	硬标签或概率
合法性	合法	非法

攻击实例：某公司提供文本分类 API，攻击者通过大量查询收集输入输出对，然后用这些数据训练自己的模型。如果成功复制，不仅可以免费使用原模型功能，还可能进一步利用复制模型进行迁移攻击（Adversarial Attack）。

攻击方法详解

被动查询 随机生成样本或利用公开数据集查询，记录输入输出对
主动查询 利用模型输出置信度，选择 uncertainty 高的样本查询（减少查询次数）
成员推断辅助 利用成员推断攻击判断某样本是否在原模型训练集中，提高查询效率
模型逆向 利用梯度信息（如果有）直接恢复模型参数
分工合作 多个攻击者分工查询不同数据范围，汇总结果

防御方法

查询限制 限制单用户查询频率、每日查询总量
输出扰动 添加随机噪声、返回粗粒度标签而非概率
水印技术 在模型中嵌入水印，用特定输入触发，可用于溯源
异常检测 监控异常查询模式，检测潜在攻击者
认证授权 API 访问需要身份认证和授权
法律保护 通过服务条款和法律手段保护模型

📚 本章复习要点

模型蒸馏：正向知识迁移，用于模型压缩，是合法技术
模型抽取：逆向模型窃取，通过 API 查询复制模型功能
核心区别：蒸馏是"教导"，抽取是"偷学"
攻击条件：需要能够访问 API 并进行多次查询
防御方法：查询限制、输出扰动、水印、异常检测
与上一章关联：抽取得到的模型可进一步进行对抗攻击