Qwen-VL,阿里雲推出的大規模視覺語言模型。
2024年1月26日,阿里雲推出Max版本,升級版模型擁有更強的視覺推理能力和中文理解能力,能夠根據圖片識人、答題、創作、寫代碼,並在多個權威測評中獲得佳績,整體性能堪比GPT-4V和Gemini Ultra。
基本介紹
- 外文名:Qwen-VL
- 所屬品牌:阿里雲
- 產品類型:大規模視覺語言模型
歷史沿革,規劃功能,產品功能,產品價格,
歷史沿革
2023年8月,阿里雲推出大規模視覺語言模型Qwen-VL,並對其直接開源。
規劃功能
Qwen-VL以通義千問70億參數模型Qwen-7B為基座語言模型研發,支持圖文輸入。相較於此前的VL模型,Qwen-VL除了具備基本的圖文識別、描述、問答及對話能力之外,還新增了視覺定位、圖像中文字理解等能力,可用於知識問答、圖像標題生成、圖像問答、文檔問答、細粒度視覺定位等場景。
產品功能
Qwen-VL-Plus和Qwen-VL-Max在MMMU、MathVista等測評中遠超業界所有開源模型,在文檔分析(DocVQA)、中文圖像相關(MM-Bench-CN)等任務上超越GPT-4V,達到世界最佳水平。
基礎能力方面,升級版模型能夠準確描述和識別圖片信息,並且根據圖片進行信息推理、擴展創作;具備視覺定位能力,還可針對畫面指定區域進行問答。
視覺推理方面,Qwen-VL-Plus和Qwen-VL-Max可以理解流程圖等複雜形式圖片,可以分析複雜圖示,看圖做題、看圖作文、看圖寫代碼也不在話下。
圖像文本處理方面,升級版Qwen-VL的中英文文本識別能力顯著提高,支持百萬像素以上的高清解析度圖和極端寬高比的圖像,既能完整復現密集文本,也能從表格和文檔中提取信息。
產品價格
Qwen-VL-Plus和Qwen-VL-Max限時免費,用戶可以在通義千問官網、通義千問APP直接體驗Max版本模型的能力,也可以通過阿里雲靈積平台(DashScope)調用模型API。