出現背景,時代背景,技術背景,名稱由來,發展歷程,主要功能,系列產品,通義靈碼,通義智文,通義聽悟,通義星塵,通義點金,通義曉蜜,通義仁心,通義法睿,長文本功能,模型框架,模型修改,關鍵技術,模型訓練,平台特色,服務特性,內容特性,算力特性,個性特性,安全特性,存在問題,合作產品,社會評價,行業評價,自我評價,內部評價,相關事件,
出現背景 時代背景 大模型是人工智慧領域的熱門研究方向。專家認為,
人工智慧 進入產業級大模型時代。大模型將是未來一段時間科技領域裡面最重要的事情之一。大模型將開啟人工智慧的“大一統時代”。
人工智慧是引領新一輪
科技革命 與產業變革的戰略性技術,是賦能經濟社會數位化、綠色化雙轉型的主要引擎,具有很強的“頭雁”效應。
這些模型使用大量的多媒體數據資源作為輸入,並通過複雜的數學運算和最佳化算法來完成大規模的訓練,以學習和理解到輸入數據的模式和特徵。這些模式和特徵最終通過大模型中龐大的參數進行表征,以獲得與輸入數據和模型設計相匹配的能力,最終來實現更複雜、更廣泛的任務,如語音識別、自然語言處理、計算機視覺等。
技術背景 傳統機器學習算法中,可通過圖像特徵描述子SIFT、SURF、BRIEF進行特徵點提取和匹配,車載自動駕駛攝像頭裡面用的圖像識別類算法基本上都是CNN的結構,為卷積神經網路。卷積神經網路認知圖像的過程跟人大腦認知圖像的原理類似。圖像輸入即輸入攝像頭的數據,以每幀信息為基礎進行檢測、分類、分割等計算,最後利用多幀信息進行目標跟蹤,輸出相關結果。
視覺算法近年來的突破在泛化性、可提示性、生成質量和穩定性等方面均取得了進展,預示著技術拐點的臨近以及爆款套用的湧現。由於
擴散算法 的成熟,對3D資產生成和視頻生成領域有促進作用。
隨著科技發展,AI 的開發門檻降低,人們期待小學生也能用各種模型進行開發,因此需要形成一個一個模型的不同層級的結構。一個通用的模型其實也很難解決所有問題,從設計者、開發者的角度出發,圍繞著模型作開發的範式逐漸誕生。
2022年11月30日,美國人工智慧研究實驗室OpenAI推出ChatGPT,這是一種人工智慧技術驅動的自然語言處理工具,使用了Transformer神經網路架構,也是GPT-3.5架構,這是一種用於處理序列數據的模型,擁有語言理解和文本生成能力。
Transformer神經網路架構
ChatGPT會通過連線大量的語料庫來訓練模型,語料庫包含了真實世界中的對話,使得ChatGPT具備上知天文下知地理,還能根據聊天的上下文進行互動,做到與真正人類幾乎無異的聊天場景進行交流。ChatGPT不單是聊天機器人,還能進行撰寫郵件、視頻腳本、文案、翻譯、代碼等任務。也能夠通過學習和理解人類的語言來進行對話。
名稱由來 初期,通義前身為通義千問,前者的“通義”取自《漢書》中的“天地之常經,古今之通義也”,有“普遍適用的道理與法則”之意;後者的“千問”寓意千萬次的問,千萬的學問,能問出千問的一定是真愛,能回答千問的,也一定是真有學問,以及AI和阿里雲一樣,都有千萬次互動的熱情。
2024年5月,更名為通義,意為“通情,達義”,具備全副AI能力,致力於成為人們的工作、學習、生活助手。
發展歷程 2023年4月7日,通義千問開始邀請測試。
2023年4月11日,阿里巴巴所有產品未來將接入通義千問大模型,進行全面改造,包括
天貓 、
釘釘 、
高德地圖 、
淘寶 、
優酷 、盒馬等;同4月,釘釘首次發布基於阿里千問大模型的智慧型化能力,用戶輸入斜槓“/”即可喚起10餘項AI能力。通義千問 AI 大模型接入天貓精靈,開啟相關內測招募。阿里雲工程師在實驗將千問大模型接入工業機器人,在釘釘對話框輸入一句漢字,可遠程指揮機器人工作。
2023年9月,通義千問正式向公眾開放;淘寶內測套用淘寶問問接入通義千問,基於通義千問的文本理解與文本生成能力實現全新的互動體驗以及推薦;同月25日,阿里雲宣布開源通義千問140億參數模型
Qwen-14B 及其對話模型
Qwen-14B-Chat ,免費可商用;同年10月31日,2023
雲棲大會 現場,阿里大模型家族全面升級發布,通義千問2.0正式升級發布。通義千問App也隨之發布。
參數模型Qwen-14B-Chat
2023年11月7日,阿里雲旗下通義千問 App 上架蘋果
App Store ,安裝包大小為 25.9 MB,此前這款 App 已在各大安卓套用市場上架;同月16日,
阿里巴巴 公告,截至9月30日,
釘釘 17條產品線已經全面接入大模型。釘釘還面向客戶及生態體系合作夥伴開放其智慧型化底座AIPaaS,以助生態體系參與者重塑其產品。
2023年12月1日,阿里雲開源通義千問720億參數模型
Qwen-72B 、18億參數模型
Qwen-1.8B 及音頻大模型
Qwen-Audio ;同月2月22日,國內首個官方“大模型標準符合性評測”結果公布,阿里雲通義千問成為首批通過評測的四款國產大模型之一,在通用性、智慧型性等維度均達到國家相關標準要求。
2024年1月4日,阿里雲旗下的通義千問 App 上線了一項免費的新功能“通義舞王”:用戶在按照提示要求上傳照片後,經過十幾分鐘的等待,即可自動生成舞蹈視頻;同月22日,由中國一汽聯合阿里雲通義千問打造的大模型套用GPT-BI落地;同月26日,阿里雲公布多模態大模型研究進展。通義千問視覺理解模型
Qwen-VL 再次升級,繼Plus版本之後,再次推出Max版本。
2024年3月22日,阿里雲旗下的通義千問宣布升級,向所有人免費開放1000萬字的長文檔處理功能;同月29日,通義千問團隊開源首個MoE模型,名為
Qwen1.5-MoE-A2.7B ,有27億個激活參數。
2024年4月3日,剛剛成為阿里雲一號AI員工的
通義靈碼 正式上線通義千問APP,並向全民免費開放;同月7日,阿里雲通義千問開源320億參數模型Qwen1.5-32B,可最大限度兼顧性能、效率和記憶體占用的平衡。通義千問此前已開源5億、18億、40億、70億、140億和720億參數的6款大語言模型並均已升級至1.5版本;同月28日,據“阿里通義千問”訊息,通義千問首次推出千億級參數模型Qwen1.5-110B。Qwen1.5-110B是Qwen1.5系列中規模最大的模型,也是該系列中首個擁有超1000億參數的模型。
2024年5月,通義千問2.5大模型版本發布並更名為通義。5月21日訊息,阿里雲宣布通義千問GPT-4級主力模型Qwen-Long,API輸入價格從0.02元/千tokens降至0.0005元/千tokens,直降97%。
2024年6月7日,阿里通義千問
Qwen2大模型 發布,並在Hugging Face和ModelScope上同步開源。
2024年6月21日,攜程已接入阿里雲通義千問大模型,支持其全球業務發展。此外,哈囉集團已與阿里雲達成深度合作,全方位接入阿里雲通義大模型。
2024年7月,在2024世界人工智慧大會上,阿里雲CTO周靖人透露,近2個月,通義千問開源模型下載量增長2倍,突破2000萬次,阿里雲百鍊服務客戶數從9萬增長至23萬,漲幅超150%。
2024年7月26日,巴黎奧運會期間,通義App上線賽事百事通、全民雲運動、AI運動寫真等多款新功能。這些新功能基於通義大模型打造,讓國內體育迷們看奧運、聊奧運的同時,也能體驗AI技術帶來的觀賽新體驗。7月31日,阿里通義宣布免費開放奧運AI大模型,具備最強奧運專業知識,並集契約聲傳譯級別的中法互譯功能。7月31日起,用戶可以在通義APP免費使用。
2024年8月,阿里通義千問開源 Qwen2-Audio 系列的兩個模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。8月19日,通義千問宣布啟用新域名:tongyi.ai。8月30日訊息,通義網頁版上線“PPT創作”功能,具備言之有物、設計精美、智慧型編排三大核心特點。8月30日,阿里通義千問發布第二代視覺語言模型Qwen2-VL,旗艦模型Qwen2-VL-72B的API已上線阿里雲百鍊平台。9月2日訊息,阿里雲通義千問宣布開 源第二代視覺語言模型 Qwen2-VL,並推出 2B、7B 兩個尺寸及其量化版本模型。同時,旗艦模型 Qwen2-VL-72B 的 API 已上線阿里雲百鍊平台,用戶可直接調用。
布通義千問2.5發布現場
主要功能 通義千問是阿里巴巴達摩院自主研發的超大規模語言模型。誕生源於阿里巴巴對人工智慧技術的探索和實踐,旨在為各行各業提供優質的自然語言處理服務,並且能夠應對各種複雜的任務挑戰。
8大行業模型可以幫助人們寫代碼、讀代碼、查BUG、最佳化代碼等;短時間內獲取長文本提要和概述,掌握要點;對音頻內容轉寫、翻譯、角色分離、全文摘要、章節速覽、發言總結、PPT提取等功能,並支持標重點、記筆記;可以解讀財報研報,分析
金融業 事件,自動繪製圖表表格,實時市場數據分析等。
通義開源模型
系列產品 通義靈碼 通義靈碼可以輔助程式設計師寫代碼、讀代碼、查BUG、最佳化代碼等。掌握
Java 、
Python 、Go、
JavaScript 、
TypeScript 、C/C++、C#等200多種程式語言,可幫助程式設計師提升超10%的開發效率。程式設計師、編程愛好者、學生無需下載專業軟體,使用通義千問就能寫代碼和學代碼。
通義智文 通義智文是阿里雲推出的基於通義大模型的免費AI閱讀助手,可智慧型閱讀網頁、論文、圖書和文檔,幫助用戶在短時間內獲取提要和概述,掌握要點,提高閱讀效率。同時支持自由提問,可解答用戶關於文章的問題或其他不解之處。
通義智文界面
通義聽悟 生活中,音視頻承載了密集的信息內容,但因涉及
多模態 理解、
自然語言 處理、
搜尋 等多項複雜技術,存在查找難、回顧難、提煉難問題。通義聽悟提供包括轉寫、翻譯、角色分離、全文摘要、章節速覽、發言總結、PPT提取等功能,並支持標重點、記筆記。
通義聽悟界面
通義聽悟也可以通過多語言Query處理、長篇章文本理解、指令演化框架最佳化及檢索增強生成算法,實現對超長音視頻的單記錄、跨記錄、多語言自由問答。
用戶不僅可在單一記錄頁呼喚小悟,對最高6小時、6G大小的音視頻提問任何相關話題,可直接要求小悟整理金句、梳理結論、寫會議紀要;更可在首頁針對用戶所有記錄提問,支持一次性掃描理解上百條音視頻內容;也可對英文視頻用中文提問,將直接給出中文回答。
通義星塵 通義星塵是一款個性化角色創作平台,其基於大規模高質量個性化對話數據,採用分階段的個性化訓練策略,使得模型在保持通用能力的基礎上,延伸出擬人、具有情感、鮮明語言風格的能力,在角色的個性、風格遵循上具有更強的指令遵循能力。可以深度定義人設、和用戶建立起深度連線、支持多種形式的對話互動,並且可以基於具體的事件設定展開對話。可套用於情感陪伴、遊戲
NPC 、IP復刻等場景。
通義點金 通義點金可以解讀財報研報,分析
金融業 事件,自動繪製圖表表格,實時市場數據分析。智慧型投研機器人可以分析事件,繪製表格,查詢資訊,研究財報;文檔分析機器人可以總結要點,擴展資訊,文檔問答,片段分析,財報、研報公告;金融信息搜尋引擎可以搜數據、查研報、找公告等。
通義曉蜜 通義曉蜜提供全渠道聯絡中心與AI套用的整體方案,助力企業服務向信息化、智慧型化、多模態轉型。
其中,對話機器人支持多種形態的知識,比如文檔網頁、高頻問題、複雜多輪、表格、資料庫等;智慧型坐席助理全方位陪伴人工坐席,助力
客服 、銷售業績提升,提供產品介紹、通話過程剖析、案例沉澱、通話技巧提升等功能;多模態智慧型聯絡中心則為全渠道多模態的企業智慧型服務平台,支持電話、IM、視頻統一接入、統一調度服務數據和客戶體驗完整、一致,也為客戶給提供面向下一代的多模態服務體驗,告別單調的文字、語音交流。
通義仁心 通義仁心是個人
健康 助手,提供問報告、問症狀、問用藥、問疾病功能。
通義法睿 通義法睿能夠回答用戶提出的法律問題,具有推理法律適用、 推送裁判類案、輔助案情分析、生成法律文書、檢索法律知識等功能。旨在幫助法律專業人士提高生產力水平, 同時也可為非專業人士提供便捷的法律諮詢服務。
提供針對用戶的
法律 問題,以法律規定作為大前提,情形匹配作為小前提,按照邏輯三段論推理生成答案;根據用戶描述的文本信息或上傳的材料信息,結合專業模版定製化生成起訴狀、答辯狀等文書;利用大模型推理優勢,通過語意理解提高用戶搜尋準確性和相關性,從法規和判例庫找準信息。
長文本功能 通義千問向所有人免費開放1000萬字的長文檔處理功能。通過調優算法或者通過算力甚至使用RAG(檢索增強生成技術,是對大型語言模型輸出進行最佳化的方法,使其能夠在生成回響之前引用訓練數據來源之外的知識庫),都可以打造出該體驗。
模型框架 通義千問模型基於Transformer框架,採用了開源大語言模型訓練方法LLaMA。
模型修改 開發團隊對架構主要做了以下修改:
Embedding and output projection:通義千問模型選擇了不受限的嵌入方法,而不是捆綁輸入嵌入和輸出投影的權重,此項改動是為了以記憶體成本為代價獲得更好的性能。
位置編碼(Positional embedding):模型採用RoPE(Rotary Positional Embedding)為位置編碼,並選擇使用FP32精確度而不是BF16或FP16的逆頻率矩陣,以此提高模型的性能表現和精確度。
偏差(Bias):開發團隊在模型中的大多數層(layer)種移除了偏差,而是在QKV注意力層中添加了偏差,以增強模型的外推能力。
Pre-Norm & RMSNorm:模型採用預規範化方法(pre-normalization)提高訓練穩定性,並將傳統層歸一化方法替換為RMSNorm。
激活函式(Activation function):模型採用SwiGLU激活函式,縮小了前饋網路(feed-forward network ,FFN)的維度,由原來隱藏大小的4倍變成隱藏大小的8/3倍。
關鍵技術 Transformer模型的注意力機制在上下文長度上有很大的限制,即隨著上下文長度的增加,二層複雜度計算會使模型的計算成本和記憶體成倍增加。千問模型利用了簡單的免訓練技術,在推理過程中擴展上下文長度,這些技術包括:
NTK感知插值:這項技術以免訓練的方式調整尺度以防止高頻信息丟失,為了進一步提高性能。開發團隊還實現了一個名為動態NTK感知插值的簡單擴展動態NTK感知插值,它按塊動態改變規模,避免嚴重的性能下降。這些技術有效地擴展了Transformer模型的上下文長度,而不會影響其計算效率或準確性。
LogN-Scaling:這項技術通過一個取決於上下文長度與訓練長度之比的因子重新調整查詢和值的點積,確保注意力值的熵隨著上下文長度的增長保持穩定。
Window attention:這項技術將注意力限制在一個上下文視窗內,防止模型關注到太遠的內容。基於千問模型的長上下文建模能力在不同層之間有所不同,與較高層相比,較低層對上下文長度擴展更加敏感,開發團隊為每一層分配不同的視窗大小:較低的層使用較短的視窗,而較高的層使用較長的視窗。
模型訓練 千問模型的訓練遵循自回歸語言建模的標準方法,即模型通過前面Token的內容預測下一個Token,其他訓練細節包括:模型訓練的最大長度為2048,為了構建批次數據,開發團隊對文本內容進行隨機打亂及合併,再將其截斷到指定長度;模型在注意力模組(attention modules)採用Flash Attention技術,以提高訓練速度;模型在最佳化器(optimizer)方面採用標準最佳化器AdamW,設定超參數β1、β2和ϵ為別為0.9、0.95和10−8;模型採用餘弦學習率計畫,為每個模型大小指定一個指定的峰值學習率,學習率衰減至最國小習率峰值學習率的10%;採用BFloat16進行混合精度訓練以保證訓練穩定性。
平台特色 通義千問大模型是一種大規模預訓練模型,旨在解決智慧型對話、知識圖譜推理和其他多模態任務。大模型的一個關鍵特性是能力泛化,能夠適應各種新情景和任務,而不僅僅局限於訓練時所遇到的特定任務。
服務特性 其中,智算IaaS服務包括可支持最大十萬卡GPU單集群規模、可承載多個萬億參數大模型同時線上訓練的智算集群,可為萬卡規模AI集群提供無擁塞通訊的自研RDMA網路架構等;智算PaaS服務以機器學習平台PAI為核心,可支持萬卡的單任務分散式訓練規模,AI訓練效率提升可達10倍,推理效率提升可達6倍,覆蓋全鏈路AI開發工具與大數據服務,深度支持了通義大模型的研發。
智算MaaS服務包括通義大模型系列和以之為基礎的企業定製大模型,以及國內首個“模型即服務”開放平台魔搭社區。
內容特性 通義具有知識理解和獲取能力。無論是結構化知識還是非結構化知識,模型都能有效理解和抽取,提供相對精確和準確的答案。其次,模型具有
泛化能力 ,無需進行特定任務訓練即可進行多模態理解和推理。此外,模型還能夠根據給定的情境理解用戶的需求,提供相關的、準確的答案。最後,模型具有顯著的自適應能力,可以根據不同的套用場景和用戶需求進行自我調整。
動輒超千億參數的大模型研發,不是單一的算法問題,也不是靠簡單堆積GPU就能實現的,這是囊括了底層算力、網路、存儲、大數據、AI框架、AI模型等複雜技術的系統性工程,需要AI-雲計算的全棧技術能力。
算力特性 在算力層面,
阿里雲 為阿里大模型的研發提供了算力體系支撐。阿里雲擁有中國唯一自研雲作業系統飛天,單集群可達10萬台規模,千億級檔案數,EB級別存儲空間。阿里雲已在全球建立了28個數據中心,是亞洲規模最大的雲計算平台。
阿里雲千島湖機房
個性特性 各行各業的生態夥伴都可以結合自己的行業知識及場景需求,對通義大模型進行再訓練和精調,打造專屬大模型,並集成進自己的行業整體解決方案中。千問專屬大模型具有定製化、易集成、可微調、強安全等特點。
安全特性 阿里云為通義提供數據存儲空間,通過伺服器端加密機制,實現高安全性、高合規性的數據保護。夥伴和企業可以上傳自己的行業數據,並調用通義進行重新訓練。這些數據不會被用於訓練通用版的千問大模型,阿里雲和任何第三方都無法觸碰。
存在問題 在技術層面,在2023年4月的測試中,通義無法獲取最新信息,或意味著訓練數據有限。通義千問表示自己的訓練數據來自2021年,因此無法獲取有關未來的信息。此外,通義千問的缺點是不支持多語言,只支持中文。
合作產品 釘釘接入阿里通義千問大模型,開啟全面智慧型化戰略。在釘釘輸入斜槓“/”即可喚起智慧型服務。在只要畫個表拍張照,就能生成一個表單小程式。此外,釘釘斜槓還能根據需求撰寫文案、設計海報等。
2023年4月,阿里集團副總裁、斑馬智行CEO張春暉宣布,AliOS智慧型汽車作業系統已接入通義千問大模型進行測試,並正式發布斑馬智行第三代汽車AI能力體系Banma Co-Pilot,相關技術將會在智己汽車上落地。
2023年4月,阿里雲宣布將與OPPO安第斯智慧型雲聯合打造OPPO大模型基礎設施,基於通義千問完成大模型的持續學習、精調及前端提示工程。同時,吉利汽車、智己汽車、奇瑞新能源、毫末智行、太古可口可樂、波司登、掌閱科技等多家企業表示將與阿里雲在大模型相關場景展開技術合作的探索和共創。
截至2023年10月,阿里雲與60多個行業進行合作,推動通義千問在辦公、文旅、電力、政務、醫保、交通、製造、金融、軟體開發等領域的落地。也將持續支持千行百業的開發者基於通義千問開源模型進行模型和套用創新。
2023年11月,阿里巴巴宣布,所有產品將接入“通義千問”大模型,進行全面改造,包括天貓、釘釘、高德地圖、淘寶、優酷、盒馬等。
2023年11月發布會
2024年3月28日訊息,全球最大的智慧型手機晶片廠商MediaTek聯發科,已成功在天璣9300等旗艦晶片上部署通義千問大模型,首次實現大模型在手機晶片端深度適配。
2024年4月14日,中國科學院國家天文台人工智慧工作組發布基於阿里雲通義千問開源模型打造的天文大模型——“
星語3.0 ”。“星語3.0”基於阿里雲通義千問開源模型打造,已成功接入國家天文台興隆觀測站望遠鏡陣列--Mini“司天”。
2024年5月17日,阿里雲表示,微博已接入阿里雲通義大模型。據悉,微博是阿里雲最早一批上雲客戶,也是阿里雲通義大模型的最早客戶。
社會評價 行業評價 長文本能力或可以成為大模型公司吸引市場關注,贏得競爭的路徑之一,不過要做好“長”“準”、成本三者之間的平衡,還需要不斷摸索。(新京報 評)
通義千問更成熟了,也更好用了。通義千問2.0在指令遵循、工具使用、精細化創作等方面作了技術最佳化,能夠更好地被下游套用場景集成。通義大模型官網上線了多模態和外掛程式功能,支持圖片輸入、文檔解析等細分任務。(財經網科技頻道 評)
自我評價 通義千問將提供完備的算力和大模型基礎設施,讓包括創業公司在內的所有企業和機構更好地實現創新。(阿里雲智慧型首席技術官周靖人 評)
OpenAI是目前(截至2023年4月)全球大模型研究領域的引領者,
ChatGPT 是非常優秀的模式,通義千問還在不斷學習和成長中。尤其
GPT-4 在推理、數學等方面有表現,通義千問尚不能及。當然,通義千問也有自己較為擅長的領域,比如在文本對話、閱讀理解等方面。
(阿里雲 評) 內部評價 對於普通人來說,未來也無需下載專業軟體,使用通義千問就能寫代碼和學代碼。針對沒有代碼基礎的學生,通義千問可以提供學習建議。正如汽車的出現讓一部分馬車夫沒有了工作,但卻產生了司機這個新的職業。人類程式設計師和 AI 程式設計師的關係,應該是相互促進、共同學習。(機器之心 評)
大模型正在成為人們工作和學習的重要輔助工具,長文檔處理是很多用戶的剛需,它能針對用戶上傳的文檔進行解析、摘要和問答。隨著模型性能升級,大模型的長文檔處理能力從早期的幾千字發展到後來的幾萬字、幾十萬字,如今,阿里通義千問把天花板直線拉高到了千萬字。(《錢江晚報》評)
相關事件 維權案件
2024年1月16日,中國國內大模型打假維權出現首例勝訴判決。阿里雲、阿里巴巴訴山寨通義千問APP發布方一審勝訴,飛游科技公司因侵犯註冊商標及虛假宣傳,被責令賠償相關經濟損失及維權費用,並於官網連續十五日發布道歉聲明。