DeepSeek 再出新招,正式發佈Janus-Pro模型,創新的自迴歸框架,成功統一了多模態理解與生成功能,該模型採用獨特的視覺編碼解耦方式,同時保持單一統一的transformer架構,有效解決了先前模型的技術限制。
![DeepSeek 推出 Janus-Pro 多模態模型,圖像處理更進一步 2](https://techapple.com/wp-content/uploads/2025/01/janus_pro_teaser1.png)
強大的技術基礎
Janus-Pro建立在DeepSeek-LLM-1.5b-base和DeepSeek-LLM-7b-base的基礎上,在多模態理解方面採用SigLIP-L作為視覺編碼器,支援384 x 384的圖像輸入。在圖像生成方面,該模型使用特殊的分詞器,降採樣率為16。
卓越性能表現
這個統一框架不僅超越了之前的統一模型,更在多項任務中達到或超越了專門任務模型的表現水準。其簡潔的設計、高度的靈活性和出色的效能,使其成為下一代統一多模態模型的重要代表作。
![DeepSeek 推出 Janus-Pro 多模態模型,圖像處理更進一步 3](https://techapple.com/wp-content/uploads/2025/01/janus_pro_teaser3.webp)
開放授權政策
Janus-Pro的程式碼採用MIT授權條款,而模型使用則需遵循DeepSeek模型授權規範。這樣的授權方式既確保了技術的開放性,也保障了智慧財產權。
廣泛應用前景
模型的設計特點使其在圖像理解和生成領域具有獨特優勢,能夠應用於各種複雜的多模態任務。其統一的框架設計不僅簡化了開發流程,更為未來AI技術的發展開闢了新方向。
技術支援與發展
DeepSeek團隊為使用者提供完整的技術支援,開發者可以通過GitHub存取相關資源,或透過官方郵件聯繫獲得協助。這種開放合作的模式,將持續推動多模態AI技術的創新與進步。
Hugging Face : https://huggingface.co/deepseek-ai/Janus-Pro-7B