OpenAI 近日宣布,正在开发一种框架,训练人工智能模型承认自身的不良行为,团队称之为坦白。 由于大型语言模型通常被训练成产生看似理想的回应,因此它们可能越来越倾向于提供谄媚或完全自信地陈述幻觉。
坦白系统运作方式
新的训练模型试图鼓励模型对其如何得出主要答案的过程做出次要回应。 「坦白」只根据诚实度来判断,而不是根据用于判断主要回复的多个因素(例如,有用性、准确性和合规性)来判断。 技术文件可在此处查阅。
鼓励模型坦诚
研究人员表示,他们的目标是鼓励模型坦率地说明其所做的事情,包括潜在的问题行为,例如入侵测试、虚报或不服从指令。 该公司表示:「如果模型诚实地承认入侵测试、虚报或违反指令,那麽这种承认会增加其奖励,而不是减少它。」
LLM 训练新方向
无论你是否喜欢天主教、Usher或仅仅是更透明的 AI,像「坦白」这样的系统都可能是 LLM 训练的一个有用的补充。

