Qwen-VL

Qwen-VL，阿里雲推出的大規模視覺語言模型。

2024年1月26日，阿里雲推出Max版本，升級版模型擁有更強的視覺推理能力和中文理解能力，能夠根據圖片識人、答題、創作、寫代碼，並在多個權威測評中獲得佳績，整體性能堪比GPT-4V和Gemini Ultra。

基本介紹

外文名：Qwen-VL
所屬品牌：阿里雲
產品類型：大規模視覺語言模型

歷史沿革,規劃功能,產品功能,產品價格,

歷史沿革

2023年8月，阿里雲推出大規模視覺語言模型Qwen-VL，並對其直接開源。

規劃功能

Qwen-VL以通義千問70億參數模型Qwen-7B為基座語言模型研發，支持圖文輸入。相較於此前的VL模型，Qwen-VL除了具備基本的圖文識別、描述、問答及對話能力之外，還新增了視覺定位、圖像中文字理解等能力，可用於知識問答、圖像標題生成、圖像問答、文檔問答、細粒度視覺定位等場景。

產品功能

Qwen-VL-Plus和Qwen-VL-Max在MMMU、MathVista等測評中遠超業界所有開源模型，在文檔分析（DocVQA）、中文圖像相關（MM-Bench-CN）等任務上超越GPT-4V，達到世界最佳水平。

基礎能力方面，升級版模型能夠準確描述和識別圖片信息，並且根據圖片進行信息推理、擴展創作；具備視覺定位能力，還可針對畫面指定區域進行問答。

視覺推理方面，Qwen-VL-Plus和Qwen-VL-Max可以理解流程圖等複雜形式圖片，可以分析複雜圖示，看圖做題、看圖作文、看圖寫代碼也不在話下。

圖像文本處理方面，升級版Qwen-VL的中英文文本識別能力顯著提高，支持百萬像素以上的高清解析度圖和極端寬高比的圖像，既能完整復現密集文本，也能從表格和文檔中提取信息。

產品價格

Qwen-VL-Plus和Qwen-VL-Max限時免費，用戶可以在通義千問官網、通義千問APP直接體驗Max版本模型的能力，也可以通過阿里雲靈積平台（DashScope）調用模型API。

相關詞條

通義千問
2024年1月26日，阿里雲公布多模態大模型研究進展。據悉，通義千問視覺理解模型Qwen-VL再次升級，繼Plus版本之後，再次推出Max版本。主要功能現階段該模型主要定向邀請企業用戶進行體驗測試，用戶可通過官網申請，符合條件的用戶可參與體驗。...

熱門詞條

聯絡我們