Google 研究：AI模型事實核查能力評測標準出爐

Google 近期發布了一項重要的研究成果，推出名為「FACTS Grounding」的評測系統，專門用來評估大型語言模型在回應長篇內容時的事實準確度。這項研究由 Google DeepMind、Google Research、Google Cloud 以及 Kaggle 共同合作完成，為 AI 模型的事實核查能力建立了新的標準。

評測系統核心設計

FACTS Grounding 採用了兩階段的評估機制：首先評估模型是否正確理解並回應用戶的要求，接著再判斷回應內容是否完全基於提供的文件。研究團隊特別設計了一個包含 1719 個測試案例的資料集，其中 860 個公開測試案例，859 個則作為私密測試使用。這些測試案例涵蓋了多個領域，包括醫療、法律、科技、金融等領域，文件長度最長可達 32,000 個標記。

評測方法的創新之處

研究團隊採用了多重評判機制，結合了三個不同的 AI 評判模型：Gemini 1.5 Pro、GPT-4o 以及 Claude 3.5 Sonnet。這種設計可以降低單一評判模型可能帶來的偏見。評分過程中，系統會先剔除不符合用戶要求的回應，再由這三個評判模型分別給出事實準確度評分，最後取平均值作為最終分數。

Google 研究：AI模型事實核查能力評測標準出爐 2 — Gemini 1.5 Flash表現最好，平均分數85.8分，排名第一
Gemini 2.0 Flash實驗版次之，平均85.6分，排名第二
OpenAI的o1-mini和preview版本表現較弱，分別為62.5分和62.1分，排在最後

重要研究發現

研究結果顯示，當前最先進的語言模型在這項測試中表現各異。Gemini 2.0 Flash Experimental 和 Gemini 1.5 Flash 在測試中表現最為出色，分別獲得了 83.6% 和 82.9% 的最終分數。其他模型如 Gemini 1.5 Pro、Claude 3.5 Sonnet 和 GPT-4o 的表現也相當不錯，分數都在 78% 以上。