《Disney +》迪士尼、Marvel、彼思、星球大戰… 迪士尼扭曲仙境 x 他媽哥池！附有寮章的「扭曲哥池」決定發售！開始接受預約！ State of Play將在台北時間今天清晨5點開始 DAEMON X MACHINA（機甲戰魔）登場Nintendo Switch試玩同樂會日本大手能量飲料品牌 ZONe推出新風味「mad_hacker」亡靈Gespenst也加入！「超級機械人大戰30」免費下載及DLC①的發佈日決定！【速報】系列最新作《勇者鬥惡龍XII》正式發表！「寶可夢晶燦鑽石・明亮珍珠」FINAL PV & 新情報公開！透過Nintendo Switch 試玩同樂會來免費試玩「Steam World Dig２」吧！

2023 微軟的AI新殺著，圖像都能應對的 Kosmos-1

商業星期四, 三月 9, 2023

近期，微軟推出了一款名為Kosmos-1的多模態大型語言模型（MLLM），據稱該模型可以分析圖像內容，不僅可以進行文字辨識和視覺智商測試，還能夠理解自然語言指令。微軟使用網路上的多模態語料庫來訓練Kosmos-1，該語料庫包括文字和圖像的組合以及文本資料等。為了讓Kosmos-1能夠讀懂圖像資料，研究人員需要先將圖像轉換為一系列特殊的標記，以便語言模型理解。

2023 微軟的AI新殺著，圖像都能應對的 Kosmos-1 1 — 2023 微軟的AI新殺著，圖像都能應對的 Kosmos-1 2

微軟展示了Kosmos-1理解圖像的範例，顯示該模型能夠分析圖像並回答與圖像內容相關的問題，也能夠閱讀圖像中的文字或為圖像做註解。Kosmos-1在瑞文斯頓推理測驗中的表現也很有趣，該測驗要求參與者通過呈現具特定序列的圖形完成另一個相同序列，以評估其視覺智商。Kosmos-1在測試中的正確率僅為22％，但仍優於隨機猜測的17％正確率。微軟認為，整合語言、行動和多模態認知的AI技術將推動AGI通用人工智慧的發展，這也是OpenAI早先設定的發展目標。

參考內容：https://arxiv.org/pdf/2302.14045.pdf

NordVPN