AI 學會「思考」後答題更出色， TPO 登場！

人工智能近年來突飛猛進，但在處理複雜問題時仍顯得力不從心。最新研究顯示，讓AI先「思考」再回答，可大幅提升其表現。這項突破性研究由Meta 等機構的研究人員完成，並於近日發表在arXiv預印本平台上，以名為 Thought Preference Optimization (TPO) 的方法，提升AI回應水平。

AI也需要「三思而後行」

研究團隊發現，現有的大型語言模型（LLMs）在回答問題或執行指令時，往往缺乏明確的思考過程。這導致它們在處理需要推理和規劃的複雜問題時表現欠佳。為解決這一問題，研究人員提出了一種新的訓練方法，讓AI在回答前先進行「思考」。這方法法讓AI學會了如何思考，而不是簡單地模仿人類專家的回答。這使得AI能夠處理更廣泛的任務，包括那些需要深度推理的問題。

創新訓練方法

這種新的訓練方法不需要額外的人類標註數據，而是通過一個迭代搜索和優化的過程來探索可能的思考方式。研究團隊使用了一個「評判模型」來評分不同的思考候選項，然後通過偏好優化來改進模型。這個過程讓AI能夠自主學習如何思考，而不需要人類直接指導每一步。這大大提高了AI的靈活性和適應能力。

顯著提升多領域表現

經過這種訓練後，AI模型在多個基準測試中都顯示出優異的表現。不僅在傳統的推理和問題解決任務中有所提升，在營銷、健康和一般知識等非推理類別中也取得了進步。

對未來AI發展的啟示

這項研究為AI的發展開闢了新的方向。通過賦予AI「思考」的能力，我們可能會看到更智能、更靈活的AI系統，能夠處理更複雜的任務和問題。隨著這項技術的進一步發展，我們可能會看到AI在更多領域中的應用，從醫療診斷到科學研究，再到日常生活中的複雜決策支援。然而，專家們也提醒，隨著AI變得越來越「聰明」，我們也需要更加謹慎地考慮其倫理和社會影響。

參考來源：https://arxiv.org/abs/2410.10630

本文開版圖由AI生成。

AI也需要「三思而後行」

創新訓練方法

顯著提升多領域表現

對未來AI發展的啟示

隨機商業新聞