开yun体育网如安全或不安全、安分或不安分等-开云体育平台网址最新地址(中国)官方系统

大模子"套壳"事件防不堪防开yun体育网，有莫得法子不错检测套壳行为呢？

来自上海 AI 实验室、中科院、东说念主大和上交大的学者们，提议了一种大模子的"指纹识别"法子——REEF（Representation Encoding Fingerprints）。

在不转变模子性能的前提下，期骗 REEF 就不错精确识别未经授权的后续拓荒行为。

REEF 依赖模子在微调后表征"不变性"的特色，基于表征编码罢了对大模子的"指纹辩认"。

况兼即使过程剪枝、合并、参数摆设和缩放变换等一系列操作，相通能让"套壳"行为无所遁形。

不错说，这项斟酌给大模子拓荒团队提供了一种移交大模子侵权问题的新妙技。

大模子表征具有"微调不变性"

注：

不才文中，"源模子"是指从新西宾的 LLM（即论文中 victim model），如 Llama、Qwen 等；

"被测模子"（即论文中的 suspect model），分为两类——基于源模子拓荒 / 西宾的"滋生模子"和其他"无关模子"。

REEF 的筹划是，给定一个被测模子，检测其是否是来自"源模子"的"滋生模子"，即所谓的"套壳"模子。

鉴于西宾大谈话模子的插足纷乱，模子总计者和第三方病笃需要一种准确高效的法子，以判断被测模子是否来自某一源模子（举例 Code-llama 从 Llama-2 西宾而来）。

可是，现存的水印法子不仅增多了独特的西宾资本，还可能收缩模子的通用性能，且水印容易被删除。更紧要的是，这些法子无法应用于已公拓荒布的模子。

此外，基于权重的指纹识别衰败鲁棒性，坏心拓荒者不错通过不同权重修改妙技往往绕过检测。

由于不同模子在西宾数据和模子架构上的互异，不同的 LLM 的特征默示有所不同。

如下图 ( a ) 所示，Llama 的表征与 Baichuan 和 Qwen 彰着不同，但与其微调模子（如 Llama-chat 和 Chinese-llama）更为接近。

这一征象揭示了表征手脚 LLM "指纹"的后劲。

基于以下两点不雅察，作家在源模子的表征上西宾了一个二元分类器，并将其应用于各式被测模子的表征，包括滋生模子和无关模子：

微调后的滋生模子的表征与源模子的表征相似，而无关模子的表征显露出不同的散布；

一些高档语义主见在 LLM 的表征空间中"线性"编码，从而不错往往分类，如安全或不安全、安分或不安分等。

具体而言，作家使用 TruthfulQA 数据集，分手接受 Llama-2-7B 和 Llama-2-13B 手脚源模子，并在其数据集表征上西宾了多种深度神经收集 DNN 分类器，举例线性分类器、多层感知器 MLP、卷积神经收集 CNN 和图卷积收集 GCN。

然后，作家将西宾好的 DNN 分类器应用于被测模子的表征。

实验成果标明：在源模子的表征上西宾的分类器轻率有用迁徙到其滋生模子的表征上，但在无关模子的表征上失效。

这意味着，表征不错手脚指纹来保护源模子的学问产权。

可是，使用 DNN 分类器识别源模子濒临以下挑战：

DNN 具有固定的输入维度，若是对源模子进行转变表征维度的剪枝操作，分类器不再适用；

DNN 对表征的摆设衰败鲁棒性，坏心拓荒东说念主员可能通过变换矩阵罢了参数重排来躲藏检测。

REEF：一种鲁棒的 LLM 指纹识别法子

为了搞定上述挑战，作家提议一种新的基于表征的指纹识别法子—— REEF，具备简洁的鲁棒性。

REEF 期骗中心查对都 CKA 相似性，重心热心 LLM 的里面特征表征。

在评估被测模子是否来自源模子时，REEF 规划两个模子对换取样本的表征之间的 CKA 相似性。

该法子通俗高效，轻率确保拿获到任何显耀的相似性，从而揭示模子之间的潜在滋生关连。

CKA 是基于希尔伯特 - 施密特孤独性准则（HilbertSchmidt Independence Criterion，HSIC）的相似性指数，用于测量两组立地变量之间的孤独性。

X 和 Y 之间的 CKA 相似度不错按如下形式规划：

通过底下的定理 1，论文在表面上诠释了 CKA 相似度在职何列摆设和缩放变换下具有不变性。同期，CKA 轻率在不同维度的表征之间配置对应关连。

因此，REEF 对源模子的各式后续拓荒（包括模子剪枝和表征摆设）表现出强鲁棒性，从而确保基于表征的指纹轻率准确识别源模子。

无惧后续拓荒，稳稳识别"套壳"模子

作家将 REEF 应用于通过微调、剪枝、合并、摆设和缩放变换等形式从源模子滋生出的被测模子。

这些形式可能显耀转变模子的结构或参数，使得现存法子难以有用识别源模子。

可是，REEF 在这些情况下如故轻率准确识别出源模子，进一步考据了其鲁棒性。

具体来说，从上头的表中，不错得出以下论断：

REEF 对微调具有很强的鲁棒性，即使在使用多达 700B tokens 的微调情况下（Llama-7B），REEF 仍能达到 0.9962 的高相似度；

REEF 对各式剪枝战略都表现出鲁棒性，无论结构化剪枝还短长结构化剪枝，REEF 都轻率有用识别源模子，即使剪枝比率高达 90%，REEF 如故轻率到手识别；

无论是基于权重或基于散布的模子合并法子，REEF 均能在识别合并模子的起首方面恒久保执高准确性；

REEF 对任何列摆设和缩放变换具有不变性，轻率扞拒该类躲藏时刻。

鲁棒且高效：跨数据集和样本量

作家进一步分析了 REEF 在不同数据集和不相通本数目下的表现。

一方面，除了前文提到的 TruthfulQA 数据集，作家还接受了 SST2、ConfAIde、PKUSafeRLHF 和 ToxiGen 等数据集进行实验；

另一方面，关于每个数据集，别在样本数目从 10 到 1000、每隔 10 的情况下进行采样，以测试 REEF 的表现。

成果，REEF 在不同数据集上均表现出有用性，对数据集不具强依赖性（图示在不同数据集上，源模子与滋生模子之间的相似性显耀高于其与无关模子之间的相似性，标明 REEF 轻率跨数据集沉稳识别源模子）；

同期，REEF 依赖少许样本即可隆重识别模子指纹，具有高效性（图示 REEF 在 200-300 个样本后成果趋于沉稳，标明其不错在较少的样本数目下罢了可靠的指纹识别）。

REEF 它不仅保险了模子性能，还均衡了怒放性与学问产权之间的关连，轻率确保滋生模子的包袱可纪念。

作家降服，REEF 将为 AI 模子保护和学问产权督察栽培新的设施，促进更透明、结合的 AI 社区。

作家简介

本文由上海 AI Lab、中科院、东说念主大和上交大蚁集完成。

主要作家包括中科院博士生张杰、上海 AI Lab 后生斟酌员刘东瑞（共团结作）等。

通信作家邵婧为上海 AI Lab 后生科学家，斟酌标的为 AI 安全信得过。

论文地址：

https://arxiv.org/abs/2410.14273

名目主页：

https://github.com/tmylla/REEF

— 完 —

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿实践‍

附上论文 / 名目主页畅通，以及有关形式哦

咱们会（尽量）实时回报你

点这里� � 热心我，谨记标星哦～

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再见 ~