Privacy in Machine Learning

核心概念：隐私安全关注的是"模型是否会泄露训练数据信息"。与之前的攻击不同，隐私攻击不改变模型行为，而是通过模型输出推断敏感信息。这在医疗、金融等敏感领域尤为重要。

Threats (隐私威胁)

机器学习模型可能通过多种方式泄露敏感信息，威胁数据隐私。

训练数据泄露 模型可能"记住"训练数据，并在输出中暴露
模型参数泄露 模型参数本身可能包含敏感信息
输出泄露 模型输出（如置信度）可能泄露训练数据信息
梯度泄露 在联邦学习等场景中，梯度更新可能泄露原始数据
间接泄露 通过模型行为间接推断敏感属性
法律合规 如 GDPR 要求保护个人数据，违规将面临巨额罚款

Privacy Risks in Machine Learning

隐私风险主要来自以下几个方面：

风险类型	描��	潜在危害
成员推断攻击	判断某个样本是否在训练集中	泄露特定用户参与训练
属性推断攻击	推断训练数据的敏感属性	泄露用户敏感信息
模型反演攻击	重建训练输入	恢复原始图像/文本
梯度泄露	从梯度恢复原始数据	隐私数据被窃取
模型逆向	从模型输出反推输入	敏感信息泄露

成员推断攻击 (Membership Inference Attack)

成员推断攻击是最经典的隐私攻击之一，用于判断某个样本是否在模型的训练集中。

攻击原理 过拟合的模型对训练数据给出更高的置信度，利用此差异进行推断
攻击方法 训练一个攻击模型，区分"成员"和"非成员"
攻击条件 需要能够访问模型的输出（置信度）
防御方法 降低模型过拟合、限制输出精度、使用差分隐私

# 成员推断攻击示例
class MembershipInferenceAttack:
    def __init__(self, target_model, shadow_models):
        self.target = target_model
        self.shadow_models = shadow_models
        self.attack_model = self.train_attack_model()
    
    def attack(self, data):
        # 获取目标模型的输出
        output = self.target(data)
        confidence = F.softmax(output, dim=-1).max().item()
        
        # 训练集通常有更高的置信度
        return confidence > self.threshold
    
    def train_attack_model(self):
        # 使用shadow models训练攻击模型
        # shadow model需要与目标模型相似
        pass

属性推断攻击 (Attribute Inference Attack)

属性推断攻击用于推断训练数据是否具有某种敏感属性。

攻击目标 推断数据是否具有某种属性（如性别、疾病）
攻击场景 数据拥有者不公开属性，只提供特征
防御方法 属性过滤、差分隐私、正则化

Differential Privacy (差分隐私)

差分隐私是隐私保护的核心技术，通过在数据处理过程中引入随机性来保护个体隐私。

🔮 差分隐私噪声添加动画演示

📊

🔒

原始数据 + 随机噪声 = 隐私保护输出

💰 隐私预算 ε 消耗动画演示

每次查询消耗隐私预算

ε 越大 → 隐私越弱 | ε 越小 → 隐私越强

核心思想 确保单个数据点的存在与否，对最终结果的影响很小
数学定义 对于相邻数据集 D1,D2，输出 O 满足 Pr[O(D1)=O(D2)] ≤ e^ε
隐私预�� ε ε 越小，隐私保护越强，可用性越低
噪声机制 Laplace Mechanism、Gaussian Mechanism 等

差分隐私在 ML 中的应用

DP-SGD 在梯度下降的每一步添加高斯噪声
DP 训练 训练得到的模型具有隐私保护能力
隐私预算累积 每次查询消耗隐私预算，总预算耗尽后不再提供隐私保证
权衡隐私保护越强，模型精度可能越低

# 差分隐私 SGD (DP-SGD)
def dp_sgd(model, dataloader, epsilon=1.0, delta=1e-5):
    for batch in dataloader:
        # 1. 计算梯度
        loss = model(batch)
        gradients = torch.autograd.grad(loss, model.parameters())
        
        # 2. 裁剪梯度范数
        grad_norm = torch.norm(torch.cat([g.flatten() for g in gradients]))
        clipped_gradients = [g * min(1, C/grad_norm) for g in gradients]
        
        # 3. 添加高斯噪声
        noise = torch.normal(0, C*sigma, clipped_gradients.shape)
        private_grad = clipped_gradients + noise
        
        # 4. 更新模型
        update_model(private_grad)

Privacy-Preserving ML (隐私保护机器学习)

除了差分隐私，还有其他隐私保护技术：

联邦学习 数据不离开本地，只交流梯度更新
安全多方计算 多方协作��算，不暴露原始数据
同态加密 在加密数据上直接计算
模型水印 在模型中嵌入水印，用于版权保护
输出限制 不输出置信度，只输出标签

📚 本章复习要点

隐私威胁：模型可能泄露训练数据信息（成员、属性、原始数据）
成员推断：判断某样本是否在训练集中
属性推断：推断数据的敏感属性
差分隐私：通过添加噪声保护隐私，是核心防御技术
隐私预算 ε：隐私保护强度与可用性的权衡
其他技术：联邦学习、安全多方计算、同态加密