千言數據集

千言數據集

千言數據集,全面的面向自然語言理解和生成任務的中文開源數據集合,由來自國內多家高校和企業的數據資源研發者共同建設,旨在為研究人員帶來一站式的數據集瀏覽、整理、下載和評測的科研體驗,共同推動中文信息處理技術的進步。

2020年8月25日百度大腦語言與知識技術峰會線上上召開,百度聯合中國計算機學會中國中文信息學會共同發布“千言”數據共建計畫。

截至2021年5月,第一期千言項目已涵蓋了8大任務、20餘箇中文開源數據集,包括開放域對話、閱讀理解、機器同傳、情感分析、語義解析、信息抽取和文本相似度等。

基本介紹

  • 中文名:千言數據集
  • 外文名:LUGE
  • 屬性開源
背景介紹,NLP領域數據集的變化趨勢和新挑戰,過去和現狀,發展趨勢,中文NLP開源數據集現狀,千言數據集任務和數據介紹,開放域對話,閱讀理解,機器同傳,情感分析,語義解析,信息抽取,文本相似度,千言數據集作者,千言共建計畫未來目標,

背景介紹

百度聯合中國計算機學會、中國中文信息學會共同發起了“千言”數據共建計畫,攜手高校和企業的數據資源研發者共同建設中文開源數據集。
“千言”的目標是覆蓋豐富的任務類型,從語義理解、知識融合、多模態融合等角度推動技術進步,同時提供能進行多維度綜合評價的數據集,從而評價模型的全面性、泛化性和魯棒性等。
千言項目針對每個自然語言處理問題,均收集和整理多個開源數據集,進行統一的處理並提供統一的測評方式,幫助加速模型的研發。

NLP領域數據集的變化趨勢和新挑戰

過去和現狀

目前的許多自然語言處理技術的研發大多數隻關注模型在單一數據集上的效果,然而自然語言處理技術在大規模產業化的套用中,面臨著許多新的挑戰。包括模型需要具有全面的、處理多個子任務的能力;在跨領域數據上具有較好的泛化能力;在套用中有足夠的魯棒性以保證安全等等。此外,這些大規模套用對語義理解提出了更高的要求,要求模型具備一定的常識、背景知識甚至推理能力;同時隨著內容承載形式的多元化,也需要模型具有多模態融合的內容理解能力等。為了應對以上問題和挑戰,發起了“千言”數據共建計畫。
數據集一直是推動自然語言處理技術進步的基石。傳統的自然語言處理技術主要研究詞法、句法等相關任務,屬於計算機和語言學的交叉領域。詞法、句法等相關任務的數據集標註,需要在語言學家的幫助下才能夠高質量的完成,典型的例子有,北京大學計算語言學研究所標註的『人民日報1998年中文標註語料庫』和賓夕法尼亞大學加工的英文『賓州樹庫(PennTreeBank)』等。此外,傳統的自然語言處理技術技術研發大多也僅關注模型在單一數據集上的效果。
過去的幾年,可以說是深度學習和自然語言處理“深度”結合的幾年,自然語言處理的研究方法、模型框架均發生巨大變化,研究和套用上都取得了一系列突破。而這些技術的進步很大程度上源於自然語言處理領域數據集的變化:面向套用的(對話、問答等)數據集開始增多、增大,這些研究對於數據的標註不再要求必須由語言學家完成,而是可以通過眾包平台以較低的成本獲取大量標註數據,典型的例子有面向機器閱讀理解任務的英文數據集SQuAD和DuReader。

發展趨勢

自然語言處理技術已經在翻譯、搜尋、信息流、智慧型助手等大規模套用中發揮著重要的作用,可以觀察到在這些技術大規模的產業化套用過程中,面臨著多場景、多領域等諸多挑戰,這也對數據集的建設提出了更高的要求。例如,針對某個具體的套用任務。
  1. 數據集要能夠評價模型處理多個子任務的能力。例如,我們希望一個情感分析的數據集,能夠全面的涵蓋句子級情感分類、評價對象級情感分類和觀點抽取等多個子任務。
  2. 數據集要能夠評價模型在不同領域數據上的遷移能力。例如,我們希望一個在酒店領域訓練的情感分析模型,在電商領域的數據上也有良好的效果。
  3. 數據集要能夠評價模型在真實套用中的魯棒性。例如,我們希望一個情感分析的模型是魯棒的,能夠很好的應對實際套用中語言的歧義性和多樣性等特點,而非僅僅是擬合訓練集中的一些"捷徑"(shortcut)。
這樣的趨勢和挑戰,難以由某一個數據集作者獨立完成。因此,我們需要一個更加開放的社區,需要開源社區中的許多數據集作者們共同建設和不斷的更新,才能夠提供更好的數據集,從而推動自然語言處理技術的進步。

中文NLP開源數據集現狀

目前引領自然語言處理技術進步的、最有影響力的數據集,大多仍然是英文數據集。經不完全調研,目前開源的中文自然語言處理數據集已經有上百個,但相對分散和缺乏影響力。而中文是目前世界上使用人數最多的語言,這與中文自然語言處理數據集的現狀是不相符的。

千言數據集任務和數據介紹

開放域對話

開放域對話技術旨在建立一個開放域的多輪對話系統,使得機器可以流暢自然地與人進行語言互動,既可以進行日常問候類的閒聊,又可以完成特定功能,以使得開放域對話技術具有實際套用價值。具體的說,開放域對話又可以分為支持不同功能的對話形式,例如對話式推薦、情感對話技術、知識對話技術等。千言項目收集了一系列公開的開放域對話數據集,期望從跨類型、跨領域的角度對模型效果進行綜合評價。千言開放域對話數據集涵蓋了多個場景:包括日常對話、情感對話、知識對話,有目標的開放域對話等,旨在衡量開放域對話模型在各個不同技能上的效果和穩定性。具體的,千言收集了當前已有的7箇中文數據集,分別是來自百度的DuConv 、百度的DuRecDial、北航和微軟的豆瓣多輪對話、華為的微博數據、清華的情感對話數據、清華的KdCon、騰訊的檢索輔助生成對話數據集。
千言數據集
千言數據集整體概述

閱讀理解

機器閱讀理解(Machine Reading Comprehension) 是指讓機器閱讀文本,然後回答和閱讀內容相關的問題。機器閱讀理解是自然語言處理和人工智慧領域的重要前沿課題,對於提升機器的智慧型水平、使機器具有持續知識獲取的能力等具有重要價值,近年來受到學術界和工業界的廣泛關注。千言項目針對抽取式閱讀理解和觀點式閱讀理解兩個子任務,收集和整理了DuReader_robust、DuReader_yesno兩個數據集。這些數據集的特點是源自搜尋場景中的真實數據,且問題類型豐富,包含實體、數字、觀點類問題。特別的,還重點關注評測閱讀理解模型在真實套用場景中的魯棒性、挑戰模型的過敏感性、過穩定性以及泛化能力等。

機器同傳

同聲傳譯能夠實時地翻譯講話的內容,因而廣泛套用於國際會議、談判、新聞發布、法律訴訟和醫學等不同場景。機器同傳結合了機器翻譯(Machine Translation),語音識別(Automatic SpeechRecognition)和語音合成(Text-To-Speech)等多種人工智慧技術,已經成為重要的前沿研究領域,是一個典型的多模態任務。在機器同傳任務中,千言提供了百度的BSTC數據集,並重點關注機器翻譯、語音識別和語音合成等跨模態融合的挑戰,包括了中英、英西兩個方向共4項任務。此外,千言項目也提供了機器同傳任務的開源基線(https://aistudio.baidu.com/aistudio/projectDetail/315680)。

情感分析

情感分析旨在自動識別和提取文本中的傾向、立場、評價、觀點等主觀信息。它包含各式各樣的任務,比如句子級情感分類、評價對象級情感分類、觀點抽取、情緒分類等。情感分析在消費決策、輿情分析、個性化推薦等領域均有重要的套用,具有很高的套用價值。千言項目的情感分析數據集涵蓋了包括句子級情感分類(Sentence-level Sentiment Classification)、評價對象級情感分類(Aspect-level Sentiment Classification)、觀點抽取(OpinionTarget Extraction)三個經典任務,旨在綜合評價情感分析模型在各任務上的效果。千言項目針對上述三類任務,一共收集和整理了7個數據集,分別是中國科學院的ChnSentiCorp,蘇州大學的NLPCC14-SC,哈爾濱工業大學的SE-ABSA16_PHNS和SE-ABSA16_CAME,中國科學院的COTE-BD、COTE-MFW和COTE-DP。

語義解析

語義解析(特指Text-to-SQL)旨在將用戶輸入的自然語言問題轉成可與資料庫操作的SQL查詢語句,可以實現通過自然語言完成與資料庫的互動並獲取資料庫中的信息。該技術可以幫助非技術用戶通過自然語言與資料庫進行互動,降低資料庫使用門檻及提升資料庫使用效率,同時具有很高的實用價值,在工業界受到了廣泛關注。目前,學術界及工業界公開了多箇中文語義解析數據集。這些數據集在資料庫形式、SQL查詢語句複雜度、問題覆蓋範圍、套用場景等方面各有側重。為了驗證同一模型在不同難度、不同套用場景、不同類型問題上的處理能力,千言收集了當前已有的3箇中文數據集,分別是來自追一科技的NL2SQL、西湖大學的CSpider 和百度的DuSQL,期望從多角度對評測模型進行綜合評價。

信息抽取

信息抽取旨在從非結構化自然語言文本中提取結構化知識,如實體、關係、事件等。信息抽取是人工智慧領域的重要研究方向,同時也是文本挖掘、文本理解、信息檢索、智慧型問答、智慧型對話等人工智慧套用的重要基礎,一直以來受到學術界和工業界的廣泛關注。千言收集和整理了百度的兩個大規模中文信息抽取數據集DuIE 2.0和DuEE 1.0,這兩個數據集分別面向關係抽取和事件抽取兩個信息抽取的子任務,我們期望從不同維度對結構化知識抽取效果進行綜合評價。
DuIE2.0是業界規模最大的基於schema的中文關係抽取數據集,包含超過43萬三元組數據、21萬中文句子及48個預定義的關係類型。數據集中的句子來自中文百科、百度貼吧和百度信息流文本。數據集劃分為17萬訓練集,2萬驗證集和2萬測試集。
DuEE1.0是百度最新發布的中文事件抽取數據集,包含65個事件類型的1.7萬個具有事件信息的句子(2萬個事件)。事件類型根據百度風雲榜的熱點榜單選取確定,具有較強的代表性。65個事件類型中不僅包含「結婚」、「辭職」、「地震」等傳統事件抽取評測中常見的事件類型,還包含了「點讚」等極具時代特徵的事件類型。數據集中的句子來自百度信息流資訊文本,相比傳統的新聞資訊,文本表達自由度更高,事件抽取的難度也更大。

文本相似度

文本相似度旨在識別兩段文本在語義上是否相似。文本相似度在自然語言處理領域是一個重要研究方向,同時在信息檢索、新聞推薦、智慧型客服等領域都發揮重要作用,具有很高的商業價值。千言的文本相似度數據集覆蓋了公開的三個文本相似度數據集,分別為哈爾濱工業大學(深圳)的 LCQMC和 BQ Coupus,以及谷歌的 PAWS-X(中文),這些數據集重點考察模型在不同領域的效果,並評測模型的魯棒性。其中,LCQMC數據集中的問題收集自百度知道,BQ Corpus包括了來自銀行金融領域的問題,PAWS-X重點評測模型的魯棒性。

千言數據集作者

下列為千言數據集一期的作者名錄:
數據集作者(以下作者按照拼音排序)
陳清財等
(哈爾濱工業大學(深圳))
黃民烈等
(清華大學)
劉雲峰等
(追一科技)
柳廳文等
(中科院信工所)
史樹明等
(騰訊)
尚利鋒等
(華為)
譚松波等
(聯想)
吳華等
(百度)
周明等
(微軟)
趙妍妍等
(哈爾濱工業大學)
張岳等
(西湖大學)
-

千言共建計畫未來目標

千言希望有更多的數據集作者能夠參與共建千言項目,共同推動中文信息處理技術的進步,建設世界範圍的中文信息處理影響力。未來3年,千言希望面向20個任務,收集100箇中文自然語言處理數據集。

相關詞條

熱門詞條

聯絡我們