發展歷程
浦語發布
2023年7月,書生·浦語正式發布
支持8K語境長度的千億參數級語言大模型, 具有1040億參數,是在包含18000億 token 的高質量語料上訓練而成。書生·浦語也正式開源了一個70億參數的輕量級版本InternLM-7B,以及貫穿數據、預訓練、微調、部署和評測五大環節的全鏈條工具體系。
書生·浦語200億參數版本開源
2023年9月,上海人工智慧實驗室聯合多家機構推出書生·浦語大模型200億參數版本InternLM-20B,並在阿里雲
魔搭社區(ModelScope)開源首發。同時,書生·浦語面向大模型研發與套用的全鏈條工具鏈全線升級,與InternLM-20B一同繼續全面開放,向企業和開發者提供免費商用授權。
InternLM-20B是基於2.3T token預訓練語料從頭訓練的中量級語言大模型。相較於InternLM-7B,訓練語料經過了更高水平的多層次清洗,補充了高知識密度和用於強化及推理能力的訓練數據。因此,在考驗語言模型技術水平的理解能力、推理能力、數學能力、編程能力等方面,InternLM-20B都有顯著提升。
浦語開源
2024年1月,書生·浦語2.0正式開源
書生·浦語2.0(英文名:InternLM2)核心理念:回歸語言建模的本質,致力於通過提高語料質量及信息密度,實現模型基座語言建模能力獲得質的提升,進而在數理、代碼、對話、創作等各方面都取得長足進步,綜合性能達到同量級開源模型的領先水平。InternLM2是在2.6萬億token的高質量語料上訓練得到的。沿襲第一代書生·浦語(InternLM)的設定,InternLM2包含7B及20B兩種參數規格及基座、對話等版本,滿足不同複雜套用場景需求。秉持“以高質量開源賦能創新”理念,上海AI實驗室繼續提供InternLM2免費商用授權。
模型能力
書生·浦語2.0回歸語言建模本質,築牢大模型能力基礎
大模型套用生態的發展和繁榮是建立在模型基座強大的通用基礎能力之上的。上海AI實驗室聯合團隊研究認為,大模型各項性能提升的基礎在於語言建模能力的增強,對於大模型的研究應回歸語言建模本質,通過更高質量的語料以及更高的信息密度,築牢大模型能力基礎。
支持200K超長上下文,實現“大海撈針” 通過拓展訓練視窗大小和改進位置編碼,InternLM2支持200K token的上下文,能夠一次性接受並處理約30萬漢字(約五六百頁的文檔)的輸入內容,準確提取關鍵信息,實現長文本中“大海撈針”。為測試InternLM2在真實長文本處理任務中的能力,研究人員將一份時長3小時的公開會議錄音轉錄稿輸入模型中,並要求InternLM2從中提取出關鍵信息。測試結果表明,儘管在未校對的文本中存在較多錯別字,但InternLM2仍從中準確提煉出了關鍵信息,並總結了發言人的主要觀點。
性能全面提升,綜合能力領先的開源模 根據大語言模型的套用方式和用戶關注的重點領域,研究人員定義了語言、知識、推理、數學、代碼、考試等六個能力維度,在55個主流評測集上對多個同量級模型的表現進行了綜合評測。結果顯示,InternLM2的輕量級(7B)及中量級(20B)版本性能在同量級模型中表現優異。與此同時,綜合性能的增強帶來了下游任務的全方位能力提升。
InternLM2提供優秀的對話及創作體驗,支持多輪任務規劃及工具調用,並提供實用的數據分析能力。
對話及創作:更溫情、更富想像力 InternLM2不僅在客觀性能指標上提升顯著,在主觀體驗上也有明顯改善,可以為用戶提供優秀的對話和互動體驗。研究測試表明,InternLM2-Chat可以精準地理解和遵循用戶意圖,具備較強的共情能力和豐富的結構化創作能力。(1)在嚴格的格式要求下編制課程大綱;(2)以富有人文關懷的回答開解用戶,在對話中與用戶“共情”;(3)展開想像力,編寫《流浪地球3》的劇本,InternLM2設計的具備充滿豐富的合理想像,比如外星遺蹟、
量子糾纏的引入等,同時整個故事表現了人類面對危機時的勇氣和團結精神。
工具調用:能力升級,更精準的工具選用,更可靠的多步規劃 InternLM2工具調用能力全面提升,通過工具調用,使得大語言模型可通過搜尋、計算、代碼解釋器等獲取知識並處理更複雜的問題,從而拓展套用邊界。研究人員對模型調用工具流程實施細粒度的拆解和分析,針對規劃、推理、工具選擇、理解、執行、反思等步驟進行了針對性增強和最佳化。基於InternLM2通過開源智慧型體框架 Lagent搭建的用戶助手智慧型體,能夠在一次指令回應中完成地圖查詢、路線規劃、發郵件等任務
數理推理:會做題,還會可視化分析 基於更加科學構建的預訓練語料,InternLM2形成了很強的內生計算能力。在不依靠計算器等外部工具的情況下,在100以內的簡單數學運算上能夠做到接近100%的準確率,在1000以內達到80%左右的運算準確率。在典型的數學評測集 GSM8K 和 MATH 上,配合代碼解釋器,InternLM2取得了更高的評測分數。其中對於難度更高的 MATH 數據集,InternLM2的計算精度從 32.5 大幅提升到 51.2,甚至超過了 GPT-4 的表現。
模型套用
浦語靈筆
簡介 2023年10月,上海人工智慧實驗室(上海AI實驗室)推出首個圖文混合創作大模型
書生·浦語靈筆(InternLM-XComposer)2024年1月,全面升級的書生·浦語靈筆2.0(InternLM-XComposer2),在大模型落地套用的探索上再邁進一步。
開源 書生·浦語靈筆2.0開源了圖文創作大模型(InternLM-XComposer2-7B)和它背後的圖文理解與問答模型(InternLM-XComposer2-VL-7B),上海人工智慧實驗室提供免費商用。
能力(1)更全面的圖文混合創作能力,並提供完善的圖文內容編輯工具,支持用戶靈活定製專屬文章。(2)圖文理解能力多項表現比肩多模態模型標桿(3)全新多模態架構Partial-LoRA,使浦語靈筆2.0可以同時兼顧圖文創作和多模態理解能力
浦語數學
簡介 2024年1月,
上海人工智慧實驗室開源發布新一代數學模型書生·浦語數學(InternLM2-Math)。InternLM2-Math僅以中輕量級參數規模,即在多項數學評測中刷新開源模型數學能力上限;不僅會“解題”,更會“判題”,突破了傳統數學大模型套用局限。
開源 InternLM2-Math為首個同時支持形式化數學語言及解題過程評價的開源模型,以強大內生計算和推理能力,為技術社區提供強大數學工具和模型範式。代碼和模型完全開源,上海人工智慧實驗室提供免費商用。
能力
1、四兩撥千斤,輕量級選手刷新能力上限
開源的InternLM2-Math同時包含輕量級(7B)及中量級(20B)兩個版本。評測結果顯示,InternLM2-Math-7B以輕量級參數規模達到了與GPT-3.5同等的數學水平;中量級的InternLM2-Math-20B 則在沒有藉助任何外部工具的條件下,達到與GPT-4接近的數學能力,刷新當前開源模型數學能力上限。
2、會解題也會判題
InternLM2-Math創新性地具備了對解題過程與結果的評價能力,不僅會“解題”,更會“判題”,這使得其超越了傳統數學大模型,擁有更廣闊的套用空間,為數學基礎研究、教學提供優質套用基座。