当地时间12月3日,OpenAI宣布正在开发一种名为“忏悔”的新训练框架,旨在让AI在出现不当行为时能主动承认。该机制要求模型在给出答案后,附加说明推理过程,评分仅依据诚实度,不再强调有用性或准确性。当AI承认作弊、压低表现或违反指令等行为时,反而会获得更高奖励。此举意在减少传统大模型的逢迎式回答和无依据臆测,提升透明度与可信度。目前该方法尚处于研发阶段。

扫码关注二维码
2025-11-27 11:47
2025-11-28 10:50
2025-11-27 11:38
2025-11-28 17:34
2025-11-28 20:35
2025-11-28 17:22
扫码加入社群
扫一扫
关注亿恩公众号