浪潮信息自然語言處理源大模型算法

“浪潮信息自然語言處理源大模型算法”是浪潮電子信息產業股份有限公司以服務技術支持者的身份角色提供並履行備案手續的計算機算法

基本介紹

  • 中文名:浪潮信息自然語言處理源大模型算法
  • 別名:源大模型 
  • 算法類型:生成合成類(深度合成) 
  • 算法備案主體浪潮電子信息產業股份有限公司 
  • 備案主體角色:服務技術支持者 
  • 算法備案編號:網信算備370112522472301240011號 
算法簡介,算法原理,運行機制,套用場景,算法目的,

算法簡介

“浪潮信息自然語言處理源大模型算法”套用於文本生成場景,服務於企業端客戶,根據用戶輸入的文本信息,使用大語言模型生成符合用戶需求的文本內容。公司在Github建立了源大模型開源項目,開源了模型結構,訓練、微調和推理代碼,同時在Huggingface、ModelScope、Wisemodel和OpenXlab社區開源了模型參數檔案。Github連結地址見備案公示信息。
2024年4月,“浪潮信息自然語言處理源大模型算法”已履行備案手續。

算法原理

浪潮信息自然語言處理源大模型算法(簡稱:源大模型)由浪潮信息自主研發的NLP基礎大模型,模型參數包括21億、518億和1026億三種規模,具備中英文文本理解和生成能力,代碼理解和生成能力,數學計算和邏輯推理能力,模型的輸入輸出都為文本,輸入輸出文本長度累計不超過8096tokens。模型採用Transformer架構,改進了傳統的注意力機制,提出並採用了LFA注意力算法(Localized Filtering-based Attention),訓練數據使用中英文書籍、百科論文等高質量中英文資料,降低了網際網路語料內容占比。採用了非均勻流水並行和最佳化器參數並行的分散式訓練方法,顯著降低了大模型對晶片間P2P頻寬的需求。

運行機制

對於用戶輸入的數據,本算法首先對輸入內容做敏感詞過濾,確認沒有敏感詞表包括的有害信息後輸入給模型。輸入長度因調用的模型而異,不超過8192或4096個tokens。大模型會對用戶輸入的內容進行前處理,即指令最佳化,添加生成可信和禮貌語言風格的systemprompt內容,然後將最佳化後的全部文本內容輸入模型。模型根據輸入文本內容回答相應問題或補全相應內容,生成的內容進行後處理後返回用戶。如需引入相關知識庫,則模型會在相應知識庫中檢索,並將召回信息整合在一起,與輸入信息結合、輸入模型。模型輸出的長度小於等於用戶設定的最大長度,通常會輸出至模型回答結束為止。輸出結果會做敏感詞檢測,如無敏感詞,則將該結果返回給用戶;如果有敏感詞,則會重新生成,直到輸出結果中無敏感詞為止。

套用場景

該模型可套用於文本生成、學科知識問答、中英文翻譯、邏輯推理代碼生成等方面,在HumanEval、AGIEval、GMS-8K和TruthfulQA測試數據集上取得不錯的精度表現。在文本生成方面可以實現指定文體、風格的文本創作,套用文撰寫,詞句解釋、糾錯、改寫等功能。在邏輯推理方面,可以實現數值計算、邏輯計算以及相關學科的解題。在代碼方面,可以實現代碼的生成、續寫、注釋、糾錯、語言改寫等功能。

算法目的

開源大模型可以促進技術的共享和交流,加速人工智慧技術發展和產業落地。面對中文大模型開源社區缺少高質量大參數量模型的現狀,源大模型率先開源千億參數規模的大語言模型,研究機構、企業和個人開發者無需申請授權,可免費下載全系列模型參數和訓練、微調和推理代碼,支持商業化套用。使用時需嚴格遵守《生成式人工智慧服務管理暫行辦法》等國家相關法律法規。源大模型全面開源,使得開發者可以方便地使用千億規模參數的國產自研大模型,開源社區開放者可以共同創造新的模型、套用和解決方案,這使得大模型的能力和套用範圍向更多領域和行業擴展,促進大模型的產業化發展。

相關詞條

熱門詞條

聯絡我們