忏悔机制迈出了AI透明化的重要一步,让大模型可以主动承认自己是否遵守指令、是否走捷径,从而让隐藏的不良行为变得可见。 忏悔机制是AI对自己是否遵守显性和隐性指令、是否走捷径、利用漏洞或未达预期的情况进行自我…...