《Disney +》 迪士尼、Marvel、彼思、星球大戰…  「機戰30」免費更新&DLC②發佈!   藍牙電競耳機EPOS H3 Hybrid評測!   不畏懼黑暗才是真男人!「BLACKOUT GUARANA」的黑暗將籠罩港區男子!?   PSP 初代女神異聞錄 & 2 罪‧罰最後降價!三千日圓買三款遊戲還有找零!   《跑車浪漫旅 7》將於2022年3月4日登陸PS5和PS4   八位堂推出可以在NS、PC、Android等眾多平台使用的多功能遊戲手把「8BitDo Pro 2」!   今年的「Day of Play」也將照常舉辦!這次不再只是特賣而已!   必備精選優惠重返PlayStation Store 

Mistral AI 推出文件理解 API,實現多模態 OCR

商業

Mistral AI 推出全新的光學字元識別(OCR)API,旨在改變文件理解領域的遊戲規則。「Mistral OCR」技術,以前所未有的文件理解能力,將挑戰現有市場上的競爭產品。

在資訊技術發展的長河中,從象形文字到數字化,每一次飛躍都讓人類知識更加易於獲取與應用。而現在,我們正站在下一個技術躍進的邊緣。據統計,全球約 90% 的組織數據以文件形式儲存,Mistral OCR 正是為了釋放這些數據的潛力而生。

超越傳統的文件理解模型

與市場上其他 OCR 解決方案不同,Mistral OCR 能夠以前所未有的精準度理解文件中的所有元素,包括媒體、文字、表格和方程式。它接收圖像和 PDF 作為輸入,並按順序提取交錯的文字和圖像內容。

這使得 Mistral OCR 成為與處理多模態文件(如幻燈片或複雜 PDF)的 RAG 系統結合使用的理想模型。目前,這一模型已在 Le Chat 平台上向數百萬用戶開放,並以 API 形式「mistral-ocr-latest」發布,價格為 1000 頁/美元(使用批處理推理可將每美元處理的頁面數提高約一倍)。

卓越的技術特點

Mistral OCR 擁有多項突出特點,使其在競爭激烈的市場中脫穎而出:

  1. 頂尖的複雜文件理解能力:卓越於處理交錯的圖像、數學表達式、表格和 LaTeX 格式等複雜排版,能深入理解包含圖表、圖形、方程式和圖像的科學論文。
  2. 原生多語言和多模態支持:能夠解析、理解和轉錄全球數千種字體和語言,這對於處理來自不同語言背景文件的全球組織至關重要。
  3. 行業領先的基準表現:在嚴格的基準測試中,Mistral OCR 一直優於其他領先的 OCR 模型,其在文件分析各方面的準確性都超越競爭對手。
  4. 同類產品中速度最快:作為同類產品中重量最輕的模型之一,Mistral OCR 處理速度顯著快於同行,單節點每分鐘可處理高達 2000 頁。
  5. 文件即提示,結構化輸出:創新地將文件作為提示使用,使指令更加強大和精確,允許用戶從文件中提取特定資訊並格式化為結構化輸出。
  6. 選擇性自部署選項:為具有嚴格數據隱私要求的組織提供自部署選項,確保敏感或機密信息保持安全。

性能基準展示壓倒性優勢

參考分數:

ModelFuzzy Match in Generation
Google-Document-AI95.88
Gemini-2.0-Flash-00196.53
Azure OCR97.31
Mistral OCR 250399.02
LanguageAzure OCRGoogle Doc AIGemini-2.0-Flash-001Mistral OCR 2503
ru97.3595.5696.5899.09
fr97.5096.3697.0699.20
hi96.4595.6594.9997.55
zh91.4090.8991.8597.11
pt97.9696.2497.2599.42
de98.3997.0997.1999.51
es98.5497.5297.7599.54
tr95.9193.8594.6697.00
uk97.8196.2496.7099.29
it98.3197.6997.6899.42
ro96.4595.1495.8898.79

根據公開的基準測試數據,Mistral OCR 在多項指標上均超越了包括 Google Document AI、Azure OCR、Gemini 系列和 GPT-4o 在內的主要競爭對手。

在整體表現方面,Mistral OCR 2503 版本達到了 94.89% 的準確率,而最接近的競爭對手 Gemini-2.0-Flash-001 僅為 88.69%。在數學內容處理方面,差距更為明顯,Mistral OCR 達到 94.29%,遠超 Gemini-1.5-Flash-002 的 89.11%。

多語言能力方面,Mistral OCR 同樣表現卓越。在模糊匹配生成測試中,Mistral OCR 達到了 99.02% 的準確率,超過 Azure OCR 的 97.31% 和 Gemini-2.0-Flash-001 的 96.53%。更令人印象深刻的是,在中文處理上,Mistral OCR 達到 97.11% 的準確率,而競爭對手普遍徘徊在 90-92% 之間。

廣泛的應用場景

Mistral OCR 目前已在多個領域展現其強大價值:

  • 科學研究數位化:領先研究機構使用 Mistral OCR 將科學論文和期刊轉換為 AI 就緒格式,加速科學工作流程。
  • 歷史和文化遺產保存:各大機構和非營利組織利用該技術數位化歷史文件和文物,確保它們的保存並使更廣泛的受眾能夠訪問。
  • 客戶服務流程優化:客戶服務部門將文檔和手冊轉換為索引知識,減少響應時間並提高客戶滿意度。
  • 教育、法律、設計等文獻 AI 化:幫助公司將技術文獻、工程圖紙、講義、演示文稿和監管文件等轉換為可索引、可回答的格式,為數百萬文件解鎖智能和生產力。

目前,Mistral OCR 功能已在 Le Chat 平台上免費提供試用,開發者也可以通過 La Plateforme 嘗試 API。作為戰略合作計劃的一部分,Mistral AI 還將選擇性地提供本地部署選項。

TechApple 觀點:OCR 技術的新戰場與產業洗牌即將來臨

Mistral AI 的這次強勢出擊無疑將重塑整個 OCR 市場格局,與谷歌、微軟和 OpenAI 等巨頭直接在基準測試數據上取勝,不僅是技術實力的展示,更象徵著 AI 領域新秀對傳統巨頭的挑戰。特別值得關注的是 Mistral OCR 在中文等亞洲語言上的突出表現。在這些傳統被視為西方 AI 模型弱項的語言上,Mistral OCR 取得了接近 97% 的高準確率,這對於亞洲市場的商業布局具有極大意義。

不過,Mistral AI 在定價上似乎沒有明顯優勢,每千頁一美元的價格並不特別便宜。這表明他們可能正將自己定位為高端市場的玩家,而非通過價格戰爭來獲取市場份額。這種策略在高度競爭的 AI 服務市場是否奏效,仍需時間檢驗。隨著 OCR 技術與 LLM 的深度結合,文件理解不再是簡單的文字識別,而是演變為一種複雜的多模態認知過程,意味著傳統的 OCR 供應商如果不能快速轉型,很可能在這場技術革命中被淘汰。對於企業用戶而言,這也預示著文檔處理和知識管理的革命性變化即將到來。

資料來源:https://mistral.ai/en/news/mistral-ocr

TechApple

隨機商業新聞

Disney+