自動文摘生成(automatic summarization)是2018年公布的計算機科學技術名詞。
基本介紹
- 中文名:自動文摘生成
- 外文名:automatic summarization
- 所屬學科:計算機科學技術
- 公布時間:2018年
自動文摘生成(automatic summarization)是2018年公布的計算機科學技術名詞。
自動文摘生成(automatic summarization)是2018年公布的計算機科學技術名詞。定義自動生成能夠反映給定文本中心思想的摘要的過程、技術和方法。出處《計算機科學技術名詞 》第三版。1...
通過有機集成基於詞矢量的漢語語義量化模型、基於多知識源的文本主題分析算法、多文檔自動聚類算法以及漢語語言生成等自然語言處理技術,並在單文檔自動文摘技術基礎上,探索建立基於特定邏輯關係的語言生成框架的方法,以解決多文檔摘要的主題一致性以及由於多文檔文摘句之間缺乏一致性與連貫性而無法保證文摘生成質量的問題,...
利用一個整句的意譯器來對整個查詢句的上下文生成同義詞;通過查詢句-文檔句對訓練生成的整句的翻譯模型,利用該模型計算查詢詞到文檔詞的翻譯機率,以此作為查詢詞與文檔詞之間的關聯度依據進行查詢擴展。 本課題開展了面向檢索任務的文摘方法研究。偏向查詢的文摘是在文摘中反映查詢中表示的用戶信息需求。通過度量識別...
9.1.2自動文摘發展及分類 9.2生成式摘要 9.2.1問題與方法 9.2.2文摘評測 9.3自動文本生成 9.3.1自動文本生成概述 9.3.2基於主題的文本生成 9.3.3自動文本生成技術評測 參考文獻 第10章對話系統 10.1問題理解 10.1.1意圖識別 10.1.2槽填充 10.2對話狀態管理 10.2.1對話狀態跟蹤 10.2.2對話...
③元數據提取與加工子系統。基本功能是提取和生成元數據,對原始文獻進行描述,這部分工作既可以手工完成,也可以自動化的方式(如自動標引、自動文摘)完成,常用的方法是在機器輔助下進行人工提取。④數據存儲與管理子系統。文獻加工系統所形成的資料庫一般都擁有海量信息,數據存儲與管理子系統一方面要保證海量信息存儲...
①文檔聚類可以作為多文檔自動文摘等自然語言處理套用的預處理步驟,比較典型的例子是哥倫比亞大學開發的多文檔文摘系統Newsblaster。Newsblaster將每天發生的重要新聞文本進行聚類處理,並對同主題文檔進行冗餘消除、信息融合、文本生成等處理,從而生成一篇簡明扼要的摘要文檔;②對搜尋引擎返回的結果進行聚類,使用戶迅速定位到...
典型的例子有:多語種資料庫和專家系統的自然語言接口、各種機器翻譯系統、全文信息檢索系統、自動文摘系統等。自然語言處理,即實現人機間自然語言通信,或實現自然語言理解和自然語言生成是十分困難的。造成困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。自然語言的形式...
7.4.3 多文檔自動文摘生成的關鍵技術 181 7.4.4 自動摘要系統的評價標準 183 7.5 本章小結 185 參考文獻 185 第 8章社會網路中社區識別與信息傳播188 8.1 網路社區的識別 188 8.1.1 網路社區的概念 189 8.1.2 網路社區的特徵與關鍵問題 191 8.1.3 基於非重疊社區的發現算法 195 8.1.4 基於...
典型的例子有:種資料庫和專家系統的自然語言接口、各種機器翻譯系統、全文信息檢索系統、自動文摘系統等。自然語言處理,即實現人機間自然語言通信,或實現自然語言理解和自然語言生成是十分困難的。造成困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。一個中文文本從形式...
3. 中文大規模基礎語料庫構建:課題組創建並發布了一個由200多萬中文短文本組成的大型自動文摘生成語料庫,發布了側重於意圖匹配的大規模漢語問題匹配語料庫LCQMC,基礎語料庫已被清華、CMU等100多家著名高校、機構使用,為推動中文的國際化做出了重要貢獻。 4. 基於深度學習的醫療文本實體與關係挖掘研究:開展了基於深...
所以,從這個角度上說,自然語言處理的目標並不僅僅是實現通過自然語言進行人機對話,還需要讓計算機在一定範圍內代替人腦完成各種以自 然語言為對象的複雜工作任務,比如機器翻譯、自動文摘、信息檢索、信息過濾、語音識別與合成等等。 語言運作技術信息化的核心是自然語言的理解和生成。這涉及到語言學、計算機科學、 數學...
面向機器翻譯的蒙古語生成 關於機器翻譯系統未來的方向 漢英機器翻譯系統中的一種詞義排歧方法 英語句法分析樹向漢語分析樹的轉換 英漢互譯中的過渡處理 利用HNC理論進行基於實例的英漢機器翻譯 Easy Braille:A Translation System for Mandarin and Braille 漢日韓-英多語機譯系統的通用英語生成器 自動文摘系統中的意義...
2. 手機簡訊文本信息流的自動文摘生成[J].現代圖書情報技術,2013.02 3. 基於中文簡訊文本聚類的熱點事件發現[J].情報雜誌,2013.02 4. 基於手機簡訊信息流的熱點事件識別[J].計算機套用與軟體[J],2012.10 5. 基於語義信息的中文簡訊文本相似度研究[J].計算機工程,2012.07 6. 基於初始中心疊代收斂的文本聚類...
自然語言處理,主要研究內容包括自動文摘與文本生成、情感分析與語義計算、多語言與多模態NLP等。主要成就 與位元組跳動、南都、三菱綜研、科學網等單位合作推出多款AI寫作機器人。獲獎記錄 曾榮獲ACL2017 Outstanding Paper Award、IJCAI 2018 Distinguished Paper Award、2017年吳文俊人工智慧技術發明獎、CCF NLPCC青年新銳獎...
首先,以跨語言輿情信息融合為目標,研究了多語言環境下自然語言生成技術,包括單語言自動文摘、跨語言自動文摘以及文本自動生成。其次,以跨語言情感分析為目標,研究了跨語言情感分類與觀點抽取,以及面向微博文本的觀點分析。最後,以跨語言輿情信息語義理解為目標,研究了基於圖表征的深層語義分析方法,並研製了高性能...
第6章自動文摘 6.1實踐一: 抽取式中文自動文摘 6.2實踐二: 生成式英文自動文摘 6.3實踐三: 基於預訓練微調的中文自動文摘 第7章機器閱讀理解 7.1實踐一: 基於BiDAF的機器閱讀理解 7.2實踐二: 基於BERT預訓練微調的機器閱讀理解 7.3實踐三: 基於ERNIE預訓練微調的機器閱讀理解 第8章聊天機器人...
審核人員再對機器無法明確判定的內容進行複審。7. 違規處置:針對違規內容,觸發算法安全監測和應急處置機制。8. 算法結果輸出。9. 算法服務結束。套用場景 Fanbook(APP、網頁)算法目的 樂逗 Fanbook 大模型算法套用於文本類信息合成技術,如問答對話、文本風格轉換、自動文摘、標題生成等。
7. 違規處置:針對違規內容,觸發算法安全監測和應急處置機制。8. 算法結果輸出。9. 算法服務結束。套用場景 通過 API 或私有化部署形式提供服務技術支持,向用戶提供文本生成服務。算法目的 樂逗 Fanbook 大模型算法套用於文本類信息合成技術,如問答對話、文本風格轉換、自動文摘、標題生成等。
10.5 自然語言生成 405 10.6 依存句法 406 10.7 提取同義詞 410 10.7.1 流程 410 10.8 本章小結 411 10.9 術語表 412 第11章 語音識別 413 11.1 總體結構 414 11.1.1 識別中文 416 11.1.2 自動問答 417 11.2 語音庫 418 11.3 語音合成 419 11.3.1 歸一化 420 11.4 語音 420 11....
計算語言學和自然語言信息處理研究的核心問題是語言的自動理解(Language Understanding)和自動生成(Language Generation)。前者從句子表層的詞語符號串識別句子的句法結構,判斷成分之間的語義關係,最終弄清句子表達的意思;後者從要表達的意思出發選擇詞語,根據詞語間的語義關係構造各個成分之間的語義結構和句法結構,最終...
11.1.3自動文摘 11.1.4問答系統 11.1.5信息過濾 11.1.6信息抽取 11.1.7文本分類 11.1.8語音識別 11.2常用技術 11.2.1分詞 1122停用詞過濾 11.2.3詞幹提取 11.2.4詞形還原 11.2.5命名實體識別 11.2.6序列標註 11.2.7詞向量與詞嵌入 11.3實戰:動手寫Word2Vec 11.3.1Word2Wec簡介 113....
基於此,我們擬建立一個大規模的中文事件鏈標註資源,其中包含3000語篇實例,並在此基礎上建立事件鏈的分析模型,確立事件鏈和語篇連貫的評估機制,最後探討該模型在作文評判、自動文摘和生物事件分析中的套用。針對事件鏈,我們擬採用一種融合分析策略,將生成模型、判別模型和半指導學習有機結合起來,以避免學習過程中...
9.4.4自動文摘系統 9.5延伸閱讀 9.5.1魯棒性分析 9.5.2泛化性分析 9.6小結 第10章 推薦系統中的可解釋人工智慧 10.1簡介 10.2初探可解釋推薦 10.3可解釋推薦的歷史與背景 10.4推薦系統基礎 10.4.1推薦系統的輸入 10.4.2推薦系統的輸出 10.4.3推薦系統的三大核心問題 10.5基本的推薦模型 10.5...
基於內容的網路信息壓縮及摘要自動生成技術 :國家項目 2001年12月~2002年12月 負責人 縱向項目 基於大規模預料統計的規則量化研究 黑龍江省傑出青年基金項目 1999年1月~2001年12月 負責人 縱向項目 基於粗糙集的大規模語料庫語言學知識發現模型研究 國家自然科學基金項目 2002年1月~2004年12月 負責人 縱向項目 基於...
信息資源轉換涉及的關鍵技術,主要包括:元數據技術、語料庫技術、海量信息存儲與壓縮技術、信息可視化技術、圖像檢索技術、語言檢索技術、人機界面技術、多語言瀏覽器、跨語言信息檢索、自然語言理解、人工智慧、大規模真實文本處理、自動抽詞、自動索引、自動分類、自動文摘、概念分類、信息安全和保護技術等。評價體系 評價...
1.3.2語音自動識別和自動生成 1.3.3自動文摘 1.3.4自動校對 1.3.5自然語言理解 1.3.6信息自動檢索 1.3.7自動問答 1.3.8自動分類 1.3.9信息抽取 1.4計算語言學研究的基本方法 1.4.1理性主義和經驗主義 1.4.2理性主義和經驗主義的區別 1.5計算語言學的發展歷程 1.6本章小結 第2章機器詞典 2...
11.1.3自動文摘 11.1.4問答系統 11.1.5信息過濾 11.1.6信息抽取 11.1.7文本分類 11.1.8語音識別 11.2常用技術 11.2.1分詞 11.2.2停用詞過濾 11.2.3詞幹提取 11.2.4詞形還原 11.2.5命名實體識別 11.2.6序列標註 11.2.7詞向量與詞嵌入 11.3實戰:動手寫Word2Vec 11.3.IWord2Vec簡介 ...
《基於實例動態泛化的共指消解》是依託哈爾濱工業大學,由秦兵擔任項目負責人的面上項目。項目摘要 共指消解是指將篇章中同一實體對象的各種描述進行合併,是自然語言處理研究的重要課題。共指消解技術的研究對機器翻譯、信息抽取、信息檢索及自動文摘等自然語言處理領域都有積極的促進作用。但是目前在有限的訓練語料上,...
本書內容包括以下5類:(1)詞法、句法、語義和篇章分析,35篇;(2)語言資源建設及相關技術,12篇;(3)機器翻譯技術與系統,10篇;(4)智慧型檢索(信息檢索、信息抽取、文本挖掘、文本分類、文本聚類、自動文摘、問答系統、話題跟蹤、情感分析、文本傾向性分析等),31篇;(5)其他,5篇。本書充分展示了國內...
(4) 多文檔自動文摘技術:新聞、帖子、博文等頁面都包含著垃圾信息,多文檔自動摘要技術能對頁面內容進行過濾,並提煉成概要信息,便於查詢和檢索。張姝(2007)、劉茂福(2008)、張瑾(2008)在一定程度上實現了網路輿情信息自動生成報文,並能通過瀏覽器進行瀏覽和信息檢索。通過中國網路輿情相關領域的單體化技術研究綜述...