作者為北京航空航天大學的肖宜松,劉艾杉,應宗浩,劉祥龍,新加坡國立大學的梁思源,新加坡南洋理工大學的陶大程。本文已被 NeurIPS 2025 錄用。
LLM 已在智能創作、企業服務等領域廣泛應用,但其內容安全問題仍是落地過程中的關鍵挑戰。仇恨、歧視、威脅性言論等潛在風險,使得 LLM 的安全部署與可信使用面臨困難,而現有的內容過濾或對齊方案在效果、效率與成本之間往往難以兼顧。
近期,來自北航等機構的研究提出了一種新的解決思路:自回歸獎勵引導表征編輯(ARGRE)框架。該方法首次在 LLM 的潛在表征空間中可視化了毒性從高到低的連續變化路徑,實現了在測試階段進行高效「解毒」。
