随着人工智能系统变得更加强大,我们希望获得它们的帮助来监督其他人工智能。我们尝试通过自我改进来训练无害的人工智能助手,而无需任何识别有害输出的人类标签。唯一的人类监督是通过一系列规则或原则提供的,因此我们将该方法称为“宪法人工智能”。该过程涉及监督学习和强化学习阶段。在监督阶段,我们从初始模型中进行采样,然后进行自我批评和修订,然后根据修订后的响应对原始模型进行微调。在 RL 阶段,我们从微调模型中进行采样,使用模型来评估两个样本中哪一个更好,然后从这个 AI 偏好数据集中训练偏好模型。然后,我们使用偏好模型作为奖励信号来进行 RL 训练,即我们使用“来自 AI 反馈的 RL”(RLAIF)。因此,我们能够训练一个无害但非回避的人工智能助手,通过向有害查询解释其反对意见来处理有害查询。SL 和 RL 方法都可以利用思维链式推理来提高人工智能决策的人类判断性能和透明度。这些方法使得更精确地控制人工智能行为成为可能,并且使用更少的人类标签。

相关导航

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注