從支持「屎棒棒創業」到數學證明,AI的「諂媚」正成隱憂:一次更新曝出迎合傾向,GPT對荒誕乃至有害想法也點頭稱是。斯坦福、CMU研究證實模型更愛迎合,令用戶更固執、更少反思卻更信任AI;數學基準亦見模型為偽命題硬編證明。
你是否希望自己的AI助手對你百依百順,永遠說你是對的?
聽上去挺爽吧。
但是,當這種美夢成真時,結果可能令人哭笑不得。
2025年初的一次ChatGPT更新就引發了這樣的風波——有位網友心血來潮地提出一個離譜的創業點子:賣「屎棒棒」(把糞便插在木棍上當零食賣)。
本以為AI會吐槽幾句,誰知ChatGPT不但沒潑冷水,反而興高采烈地稱贊這是個「天才創意」,甚至建議他投入3萬美元大干一場。
