Cosine Genie ：最強 AI 軟件工程師？

Cosine 近日發表了一份技術報告，介紹其最新的 AI 軟件工程模型 Genie，根據報告，Genie 在 SWE-Bench 評估中取得了 30.08% 的分數，在 SWE-Lite 評估中達到 50.67%，成為當前最具能力的軟件工程AI。

訓練數據的獨特性

Genie 的訓練基於專有數據，這些數據準確模擬了人類工程師的思維過程、邏輯和工作流程。這使 Genie 能夠像人類工程師一樣進行邏輯問題解決，遠超過其他 AI 工具的表現。報告指出，Genie 通過訓練這種複雜的數據集，能夠處理高度上下文相關且前所未見的問題。

性能評估

在 Genie 的開發過程中，使用 SWE-Bench 作為核心基準，這個基準專注於評估模型解決軟件工程問題的能力，包括問題分解、代碼查找和實現解決方案的能力。Genie 在檢索任務中成功檢索了 91,475 行所需的 142,338 行代碼，達到 64.27% 的成功率。

架構與數據組合

在 Genie 的早期開發中，團隊使用了短上下文窗口模型，但發現這限制了模型的信息表示能力。最終，團隊成功訓練了一個長上下文的 OpenAI 模型，這對 Genie 的性能提升至關重要。Genie 的訓練數據包括超過百億個標記，涉及的主要編程語言有 JavaScript 和 Python，各佔 21%；TypeScript 和 TSX 各佔 14%；其他語言如 Java、C# 和 C 則各佔 3%。