《Disney +》 迪士尼、Marvel、彼思、星球大戰…  「GUILTY GEAR -STRIVE-」初期角色的最後1人!「伊諾」決定參戰!   本週的《Destruction AllStars》:青牙挑戰系列賽、第一季內容搶先報,以及更多內容   賀《貓咪大戰爭》下載突破6000萬次紀念活動&「哥吉拉」聯名同時開跑!   果然電車GO還是要有主控台!睽違14年的「電車GO!!專用主控台控制器for Nintendo Switch」發售確定!   「Discord」6週年更新商標設計!微笑圖案的克萊德也換了新風貌!   《漫威星際異攻隊》劇情預告片解析   《街頭霸王 5》港日台三地對賽!港HumanBomb/台GamerBee/日Sako等率領隊伍奪冠軍席位   東京都內的遊戲酒店! 東京台場日航大酒店推出遊戲專用房! 

Cosine Genie : 最強 AI 軟件工程師?

商業

Cosine 近日發表了一份技術報告,介紹其最新的 AI 軟件工程模型 Genie,根據報告,Genie 在 SWE-Bench 評估中取得了 30.08% 的分數,在 SWE-Lite 評估中達到 50.67%,成為當前最具能力的軟件工程AI。

訓練數據的獨特性

Genie 的訓練基於專有數據,這些數據準確模擬了人類工程師的思維過程、邏輯和工作流程。這使 Genie 能夠像人類工程師一樣進行邏輯問題解決,遠超過其他 AI 工具的表現。報告指出,Genie 通過訓練這種複雜的數據集,能夠處理高度上下文相關且前所未見的問題。

Cosine Genie : 最強 AI 軟件工程師?

性能評估

在 Genie 的開發過程中,使用 SWE-Bench 作為核心基準,這個基準專注於評估模型解決軟件工程問題的能力,包括問題分解、代碼查找和實現解決方案的能力。Genie 在檢索任務中成功檢索了 91,475 行所需的 142,338 行代碼,達到 64.27% 的成功率。

架構與數據組合

在 Genie 的早期開發中,團隊使用了短上下文窗口模型,但發現這限制了模型的信息表示能力。最終,團隊成功訓練了一個長上下文的 OpenAI 模型,這對 Genie 的性能提升至關重要。Genie 的訓練數據包括超過百億個標記,涉及的主要編程語言有 JavaScript 和 Python,各佔 21%;TypeScript 和 TSX 各佔 14%;其他語言如 Java、C# 和 C 則各佔 3%。

代理性設計

Genie 的設計目標是具備代理性,能夠自主反應並作出邏輯決策。在訓練過程中,團隊專注於將開發者的隱性知識明確化,以提高模型的有效性。

未來發展

Cosine 表示,將繼續專注於 Genie 的改進,計劃擴展模型組合以適應不同的任務需求。團隊希望能夠在新版本中引入更多的編程語言和框架,並針對特定的代碼庫進行微調,以增強 Genie 的實際應用性能。

資料來源:https://cosine.sh/blog/genie-technical-report?utm_source=ai.briefnewsletter.com&utm_medium=newsletter&utm_campaign=gpt-4o&_bhlid=9527278a82b2f7e3928e775f84d7456a9d75863d

TechApple

隨機商業新聞

Disney+