![]()
文章概要: 1. 大型语言模型(LLM),如GPT-3,通过自我评估和研发方法(RAIN)大概满足人类需求,无需额外数据和微调。 2. RAIN方法具备广泛适用性,适用于多种语言生成任务,无需额外模型或数据存储,且无需倚赖标记数据或训练。 3. RAIN经过自我评估提高LLM的性能,降低对敌对攻击的成功率,为AI生成更协调和安全的反响。 广州电缆线回收网 9月18日 讯息:探索表明,大型预训练语言模型(LLM),如GPT-3,具有出色的能力,可以理解和答复人类提出的问题,援手编码工作等。然而,它们常常生成与人类偏好不同的结果。 从前,思虑人员试图经过收集有关人类偏好的信息来解决这个问题,然后经过使用强化学习或指令调整来调整先前训练的模型,从而需要一个微调阶段。调整冻结的LLM(尚未接受额外训练且不需要额外数据)更具吸引力。 图源备注:图片由AI生成,图片授权服务商Midjourney 最近,一组探究人员表现,未对齐的LLM允许通过囊括自我评估和回溯机制的自我改进流程直行生成与人类偏好匹配的答复。源于AI安全性的研讨,他们引入了可回滚自动回归推理(RAIN),这是一种特殊的推理技术,使预训练的LLM没准评估其自动生成的文本,并使用评估结果来领导向后倒带和向前生成。 RAIN以其无需逐步数据进行模型对齐的能力而著称。它消除了对参数更新、梯度计算或训练的需求。模型经过固定模板提示在自我评估阶段获取有关应对齐哪些人类偏好的带领,从而省去了反复调整初始查询的需求。 实验结果由GPT-4模型和人工评估员评估,体现了了RAIN的成功。比如,使用HH数据集,RAIN在如故LLaMA30B的有用性率不变的同时,与普通推理相比将其无害性率从82%提高到97%。 该团队表示,当 Vicuna33B 成为显着敌对攻击 (LLM-ATTACKS) 的目标时,RAIN 甚至经过将攻击成功率从94% 降低到19% 建立了新的防御基准。 RAIN在对齐大型语言模型(LLM)方面具有许多特长: - 通用性:RAIN方法具有广泛的适用性,适用于各种语言生成任务。它与自回归推理范式完美契合,这是许多LLM的旧例范式。这意味着RAIN高度可定制且用户友好,允许快速集成到大部分现有LLM中。 - 与冻结权重的对齐:RAIN不需要维护额外的模型或存储梯度数据和计算网络,与一些其他对齐策略(如RLHF)相比,其产生的最低内存开销与简单自回归推理尤其。因为其简单的实现和高效的内存设计,RAIN是对齐冻结权重的LLM的现实选择,消除了资源密集型的微调过程。 - 无需学习:RAIN不依附于任何类型的标记或未标记数据,也不依附于人类注释。它以无需学习的方式运作,不需要大宗报导或培训,因此在各种任务中显著抬高了对齐性能,并使LLM更加抵抗敌对提示攻击。在评估一个着名的敌对攻击方法时,RAIN显著降低了攻击成功率,映现了其看成防御措施的潜力。 这项考虑引入了RAIN作为一种调整LLM以满足人类偏好的技术,无需额外消息或繁琐的微调。这是通过可以LLM评估和创想其本身输出来达成的,最终产生更协调和安全的AI生成响应。 论文网址:https://arxiv.org/abs/2309.07124 (投诉) (责任编辑:admin) |