DINFO‑OEC文本分析挖掘方法與設備

DINFO‑OEC文本分析挖掘方法與設備

《DINFO‑OEC文本分析挖掘方法與設備》是中科鼎富(北京)科技發展有限公司於2014年4月18日申請的專利,該專利申請號:2014101558301,專利公布號:CN105022733A,專利公布日:2018年3月23日。

《DINFO‑OEC文本分析挖掘方法與設備》提供了一種基於概念的非結構化文本大數據分析挖掘方法及其設備。所述方法包括步驟:(1)預處理,包括分詞和命名實體識別;(2)對輸入文本進行概念提取和概念表達式識別;(3)依據挖掘規則,對輸入文本的概念表達式進行分析挖掘;(4)計算挖掘結果的可信度;(5)按可信度輸出挖掘結果;(5)挖掘結果可視化展示。所述方法的挖掘模型包括3棵樹:本體樹,要素樹和概念樹。所述設備包括:(1)建模單元,(2)預處理單元,(3)概念提取與表達式識別單元,(4)分析挖掘單元,(5)可視化展示單元。《DINFO‑OEC文本分析挖掘方法與設備》具有以下優點:建模過程分離業務和自然語言表達的多樣性,降低業務維護投入;挖掘方法能大大提供分析挖掘的準確率。

2021年8月16日,《DINFO‑OEC文本分析挖掘方法與設備》獲得安徽省第八屆專利獎優秀獎。

(概述圖為《DINFO‑OEC文本分析挖掘方法與設備》的摘要附圖)

基本介紹

  • 中文名:DINFO‑OEC文本分析挖掘方法與設備
  • 公布號:CN105022733A
  • 公布日:2018年3月23日
  • 申請號:2014101558301
  • 申請日:2014年4月18日
  • 申請人:中科鼎富(北京)科技發展有限公司
  • 地址:北京市海淀區上地東路25號三層6單元
  • Int.Cl.:G06F17/30(2006.01)I
  • 專利代理機構:北京三高永信智慧財產權代理有限責任公司
  • 代理人:江崇玉
  • 同一申請已公布文獻號:CN105022733A
  • 已公布文獻號公布日:2015年11月4日
  • 對比檔案:CN 1967535 A,2007.05.23,;  CN 101079072 A,2007.11.28,;  CN 101149751 A,2008.03.26.
專利背景,發明內容,專利目的,技術方案,改善效果,附圖說明,技術領域,權利要求,實施方式,榮譽表彰,

專利背景

社會化大數據中80%是非結構化數據,非結構化大數據處理是大數據面臨的最大挑戰。結構化數據分析不能充分挖掘發現大數據中的語義。非結構化文本挖掘的挑戰在於:語言多樣性帶來的維護挑戰:文本中的語言表達方式多種多樣,縮寫、簡寫等不規範用法普遍存在,需要窮舉所有語言表達方式,業務人員陷入語言表達細節,維護困難。業務分類及規則多變化快帶來的維護挑戰:業務分類多,分類變化快,每次分類變化時,需要把相關的所有分類的語言規則重新梳理,維護工作量巨大,維護效率低。多語種同步處理帶來的挑戰:不同語種的挖掘需要同時分析,需要對每種語言單獨建立規則,要求維護的業務人員掌握多語種,對維護人員要求太高。文本中噪音大帶來的分類挑戰:文本長短不一,其中的關聯性錯綜複雜,無法使用關鍵字統計的方法達到很好的挖掘效果。而2014年4月以前的技術一般採用統計方法進行文本挖掘,沒有考慮到業務人員的需求,只提供挖掘算法,給業務人員帶來了很多的困擾。文本挖掘技術面臨的問題是,如何從一篇或海量非結構化文本中分析挖掘出用戶關心的有價值的信息,讓業務人員從業務角度定義挖掘需求和挖掘規則,而無需考慮文本中語言表達習慣的多樣性帶來的語言歧義問題。

發明內容

專利目的

《DINFO‑OEC文本分析挖掘方法與設備》提供了一種基於概念的非結構化文本大數據分析挖掘方法及其設備。

技術方案

《DINFO‑OEC文本分析挖掘方法與設備》所述方法包括以下步驟:(1)預處理,包括斷句、分詞和命名實體識別;(2)對輸入文本進行概念提取和概念表達式識別;(3)依據挖掘模型中的挖掘規則,對輸入文本的概念表達式進行分析挖掘;(4)計算挖掘結果的可信度;(5)按可信度輸出挖掘結果;(5)挖掘結果可視化展示。所述方法的挖掘模型包括3棵樹:(1)本體樹:樹狀組織業務分類,為每個業務類型設定挖掘結果和挖掘規則。挖掘結果包括分類、聚類、關鍵字組合、傾向性評價等。(2)要素樹:樹狀組織業務相關的概念,是業務中經常用到對象、工具、屬性等概念。樹的節點是要素名,每個要素名可以對應多個要素值。要素值是一個詞語或文字模式。(3)概念樹:樹狀組織業務無關的常用複雜概念,即用一句話或一段話表示的概念。樹的節點是概念名,概念值是一句話或文字模式。所述方法的挖掘規則,包括3種類型:(1)CR,表示挖掘規則採用概念表達式方式。一個挖掘規則包含n個概念表達式(n>=1)。(2)SR,表示挖掘規則採用統計算法。一個挖掘規則對應一種統計算法。系統支持KNN(K近鄰)、SVM(支持向量機)分類算法。(3)UR,表示挖掘規則用戶自定義,可定製算法。所述方法的概念提取過程,包括步驟:(1)從分詞結果中做概念發現,利用同義詞表進行同義擴展,利用概念樹的概念值發現複雜概念。(2)對發現的概念識別概念類型,區分業務要素和常用概念。利用要素樹識別業務要素,利用概念樹識別常用概念類型。(3)對概念提取結果,識別輸入文本中概念之間的語義關係,給出概念表達式。所述設備包括以下幾個單元:(1)挖掘模型建模單元,實現挖掘模型的建模,本體樹、要素樹以及概念樹的管理維護等。(2)預處理單元,實現輸入文本的分詞與命名實體識別等基礎處理。(3)概念提取與表達式識別單元,實現輸入文本的概念提取,概念表達式識別。輸出概念列表和概念表達式。(4)分析挖掘單元,實現利用挖掘模型中的挖掘規則,對輸入文本概念提取結果進行挖掘,輸出挖掘結果。每個挖掘結果輸出可信度。(5)可視化展示單元,實現挖掘結果的可視化展示,支持折線圖、柱狀圖、餅圖、辭彙雲圖形式展示。

改善效果

《DINFO‑OEC文本分析挖掘方法與設備》通過挖掘模型建模,分離業務和自然語言表達的多樣性,降低業務維護投入,提高系統的可維護性。通過基於概念的挖掘方法,提供較高準確率的分析挖掘結果。使用DINFO-OEC非結構化大數據分析挖掘設備,可大大提高分析挖掘的效果。

附圖說明

圖1是DINFO-OEC非結構化文本大數據分析挖掘方法示意圖。
圖2是DINFO-OEC模型示意圖。
圖3是概念提取流程圖。
圖4是DINFO-OEC分析挖掘設備示意圖。

技術領域

《DINFO‑OEC文本分析挖掘方法與設備》涉及文本挖掘技術領域,具體涉及一種基於概念的DINFO-OEC挖掘方法以及DINFO-OEC挖掘設備。

權利要求

1.《DINFO‑OEC文本分析挖掘方法與設備》特徵在於,包括以下步驟:對輸入文本進行概念提取和概念表達式識別;依據挖掘模型中的挖掘規則,對輸入文本的概念表達式進行分析挖掘;計算挖掘結果的可信度;按可信度輸出挖掘結果;挖掘結果可視化展示,其中所述挖掘模型包括3棵樹:本體樹:樹狀組織業務分類,為每個業務類型設定挖掘結果和挖掘規則,挖掘結果包括分類、聚類、關鍵字組合和傾向性評價;要素樹:樹狀組織業務相關的概念,包括業務中用到的對象、工具和屬性;樹的節點是要素名,每個要素名對應多個要素值;要素值是一個詞語或文字模式;概念樹:樹狀組織業務無關的、用一句話或一段話表示的概念,樹的節點是概念名,概念值是一句話或文字模式。
2.如權利要求1所述的非結構化文本大數據分析挖掘方法,其特徵在於,所述挖掘規則包括3種類型:一是CR,表示挖掘規則採用概念表達式方式,一個挖掘規則包含n個概念表達式,其中n>=1;二是SR,表示挖掘規則採用統計算法,一個挖掘規則對應一種統計算法,系統支持K近鄰分類算法和支持向量機分類算法;三是UR,表示挖掘規則由用戶自定義。
3.如權利要求1所述的非結構化文本大數據分析挖掘方法,其特徵在於,所述概念表達式支持概念之間的複雜語義關係:用邏輯運算符支持概念之間的邏輯關係表達,概念之間的邏輯與,用“+”表示;概念之間的邏輯或,用“|”表示;概念排除,用“-”表示;邏輯運算優先權,用“(”和“)”表示,表示括弧中的運算優先;用謂詞邏輯f(a1,a2,…,an)支持概念之間的複雜語言關係表達,表示a1、a2、…和an之間具有f關係,f是一個概念,ai(i=1~n,n>=1)是一個概念;用特殊符號表示概念之間的位置和順序關係,句子限定用“#”表示,表示條件必須在同一個句子出現。
4.如權利要求1所述的非結構化文本大數據分析挖掘方法,其特徵在於,所述概念提取和概念表達式識別包括以下步驟:對輸入文本分詞和命名實體識別;從分詞結果中做概念發現,利用同義詞表進行同義擴展,利用概念樹的概念值發現複雜概念,對發現的概念識別概念類型,區分業務要素和常用概念,利用要素樹識別業務要素,利用概念樹識別常用概念類型,對概念提取結果,識別輸入文本中概念之間的語義關係,給出概念表達式。
5.如權利要求1所述的非結構化文本大數據分析挖掘方法,其特徵在於,所述計算挖掘結果的可信度包括:對類型是CR的挖掘規則,其可信度是輸入文本中提取的概念表達式與本體樹中挖掘規則之間的匹配度,其計算公式如下:
其中n是規則中概念表達式的個數,Com(RI)是每個概念表達式匹配概念的個數,OfNo(QRI)是輸入文本中未匹配概念個數,OfNo(BQRI)是規則中概念表達式的匹配概念個數,DSC是調節權值;對類型是SR的挖掘規則,其可信度是統計算法輸出的相似度。
6.一種DINFO-OEC非結構化文本大數據分析挖掘設備,其特徵在於,包括:挖掘模型建模單元,實現挖掘模型的建模,本體樹、要素樹以及概念樹的管理維護;預處理單元,實現包括輸入文本的分詞與命名實體識別的基礎處理;概念提取與表達式識別單元,實現輸入文本的概念提取,概念表達式識別,以及輸出概念列表和概念表達式;分析挖掘單元,實現利用挖掘模型中的挖掘規則,對輸入文本概念提取結果進行挖掘,輸出挖掘結果,並且對於每個挖掘結果輸出可信度;可視化展示單元,實現挖掘結果的可視化展示,支持折線圖、柱狀圖、餅圖和辭彙雲圖形式的展示。

實施方式

圖1是DINFO-OEC非結構化文本大數據分析挖掘方法示意圖,如圖1所示的DINFO-OEC文本分析挖掘方法100的輸入是非結構化文本111,這裡所說的“非結構化文本”指的是一個文本片段,包括“我要辦卡”這樣的一句話,也包括一篇文章,同時,“非結構化文本”包括簡體中文、英語等各種語言表述的文本。步驟S120,對非結構化文本111進行預處理,包括斷句處理、分詞、詞性標註。斷句處理是把文本111以句號斷開,分成多個句子進行後續處理。分詞、詞性標註把中文文本進行詞語切分處理,並給每個詞語標註上其對應的詞性,詞性包括名詞、動詞等。步驟S121,對預處理後的文本111,進行概念識別,這裡的“概念”指的是文本中各個辭彙的詞義信息,以及辭彙之間的語義關聯性。一個“概念”可以代表一組辭彙,也可以一個說法,甚至可以代表一句話。比如中文文本中“等了2天了,還沒有收到快件”,這段話可以識別為“未及時”這一概念。概念識別的結果是文本中包含的概念集合{C1,C2,…Cn},概念所屬的類型,以及概念之間的語義關聯。語義關聯用邏輯關係和謂詞邏輯表達。邏輯關係包含與、或、非操作。謂詞邏輯的形式是f(a1,a2,…,an),表示a1,a2,…,an之間具有f關係。f是一個概念,比如“在…之前”。ai(i=1~n,n>=1)是一個概念。概念識別的具體實施方法可參見圖2的實施例。步驟S122,把概念識別結果,利用DINFO-OEC模型進行分析挖掘。按照DINFO-OEC模型中對挖掘結果和挖掘規則的配置,對概念識別結果進行計算,給出挖掘結果。挖掘結果包括分類、聚類、關鍵字組合、傾向性評價等。DINFO-OEC模型可參見圖2的具體實施例。步驟S123,對挖掘結果的可信度計算。可信度計算根據挖掘規則的類型不同,調用不同的計算方法。對類型是CR的挖掘規則,其可信度是輸入文本中提取的概念表達式與本體樹中挖掘規則之間的匹配度,其計算公式如下。其中n是規則中概念表達式的個數。Com(RI)是每個概念表達式匹配概念的個數,OfNo(QRI)是輸入文本中未匹配概念個數,OfNo(BQRI)是規則中概念表達式的匹配概念個數。DSC是調節權值。對類型是SR的挖掘規則,其可信度是統計算法輸出的相似度。步驟S124,對分析挖掘結果進行結果輸出。按照可信度閾值定義,給出結果列表,每個結果都帶有可信度。輸出結果是結構化數據112。結構化數據112包括類名、分析挖掘結果、可信度等數據。下面結合一個物流例子說明分析挖掘和可信度計算,輸入文本111:“第三方宋先生(自稱寄方)************來電,稱其有訂msg但是沒有收到簽收簡訊,客號碼是:***********系統未傳送。請跟進,客服****”輸出結果是:操作類->派件異常_0.67操作類->派件操作不規範_0.6非公司原因類->派件異常_0.5操作類->運單使用或填寫不規範_0.43結果中,“->”前的“操作類”是類名,“->”後的“派件異常”是分析挖掘結果,“_”後的“0.67”是可信度。步驟S125,對輸出結果進行可視化展示。展示方式包括柱狀圖、餅圖、雷達圖等。圖2是DINFO-OEC模型示意圖,是結合銀行業務給出的示意圖:DINFO-OEC模型包括3個模型樹:Ø本體樹OntologyTreeØ要素樹ElementTreeØ概念樹ConceptionTree。(1)要素樹業務相關的概念,是業務中經常用到對象、工具、屬性等概念。要素可以樹狀組織,每個樹節點是一個要素,一個要素可以對應多個要素值。要素定義:Ø要素可以是一組辭彙Ø要素可以是一種表達方式,比如“服務技能”<=“不會+安裝”Ø要素的識別規則支持2種要素類型:屬性:此要素的屬性詞語Ø動作:此要素的動作詞語Ø要素的識別規則支持2種要素值類型:文本:用文本表示的詞語Ø模式:用模式表示詞語的組合。比如“(寄方|寄客).{0,5}跟進”表示“寄方”和“跟進”之間最多間隔5個漢字。
如圖2所示,要素樹中包含“工作人員”、“渠道”等,“渠道”包含“櫃檯、網點、ATM”等要素值。(2)概念樹是業務無關的常用概念,語言表達中常用的基本概念,時間、地點、值、人的情緒、態度等,是基礎的語義資源,系統已內置了常用8萬多辭彙,完全覆蓋了常用辭彙,後台自動更新維護,概念以樹狀表示,樹節點就是一個概念。每個概念包含一個或多個概念值。概念值定義:概念可以是一組辭彙;概念可以是一種表達方式,比如“服務技能”<=“不會+安裝”概念值類型:文本:用文本表示的詞語。一般是同義詞模式:用模式表示詞語的組合。如圖2所示,概念樹中包含有“人的情緒”“時效”等常用概念。(3)本體樹業務本體,根據業務需求,定製業務類別、挖掘表達式、挖掘結果。本體樹包括3部分:業務類型樹、每個業務類的挖掘結果、每個業務類挖掘結果對應的挖掘規則。業務類型樹,是一個樹狀的業務分類,樹的層級不限。樹節點是一個具體的業務類別。對樹的節點可以增加、刪除、修改。如圖2所示,是一個銀行業務的本體樹,其中包含了4個一級節點“主題”“業務”“管理”“系統”,其中“業務”又包含節點“基金、借記卡、信用卡、網上銀行、手機銀行”,每個樹節點是一個業務類,每個樹節點均包含挖掘結果類型和挖掘規則,挖掘結果包括分類、聚類、關鍵字組合、傾向性評價等。挖掘規則包括3種類型:(1)CR,表示挖掘規則採用概念表達式方式。一個挖掘規則包含n個概念表達式(n>=1)。(2)SR,表示挖掘規則採用統計算法。一個挖掘規則對應一種統計算法。系統支持KNN(K近鄰)、SVM(支持向量機)分類算法。(3)UR,表示挖掘規則用戶自定義,可定製算法。類型CR的挖掘規則,支持3種元素:要素,用“e_”前綴表示,表示此元素來自於要素樹,是業務相關要素,比如“運單”、“物流”、“內飾”、“噪音”、“基金申購”等。要素元素會根據識別規則進行泛化;概念,用“c_”前綴表示,表示此元素來自於概念樹,是常用概念,比如“不規範”“電話異常”、“不及時”、“太吵”等。概念元素會根據識別規則進行泛化;關鍵字,用“k_”前綴表示,表示此元素來自於開放辭彙,可以隨意輸入。關鍵字只做詞語匹配。挖掘表達式支持邏輯運算:邏輯與,用“+”表示。“+”左右的條件必須同時滿足;邏輯或,用“|”表示。“|”左右的條件只要有一個滿足,表達式即滿足;排除,用“-”表示。“-”右邊的條件必須排除;括弧,用“(”“)”表示,括弧可以改變匹配的優先權;句子限定,用“#”表示,表示條件必須在同一個句子出現。
圖3是概念提取流程圖,圖1是S121的具體處理流程圖,如圖3所示的概念識別方法300,能經過預處理S120的分詞與詞性標註結果進行概念識別。步驟S311,對每個辭彙進行同義擴展,利用同義詞表發現同義詞。比如“此件”是“快件”的同義,“遺失”是“丟失”的同義。步驟S312,進行概念發現。利用辭彙的上下文發現用一種表達方式或一句話表示的複雜概念。比如“*個小時之內、兩天”是時間概念,“等了兩天了”是“未及時”概念。步驟S313,進行C識別,判斷辭彙中是否包含有概念樹中的概念值,如果有,則給出概念值對應的概念。比如“能快點回復”對應的概念是“催件”。步驟S314,進行E識別,判斷辭彙中是否包含有要素樹中的要素值,如果有,則給出要素值對應的要素。比如“寄方”對應的要素是“客戶”。步驟S315,概念類型判斷,對每個辭彙標註出其概念類型,概念類型包括概念C和要素E。S315輸出的是概念集合320。步驟S321,對概念集合320中的概念,利用Bayes算法進行概念同現計算,如果同現,則記為概念之間的邏輯關係是“與”關係。步驟S316,識別概念之間的語義關係。分別調用下面的步驟進行判斷。步驟S331,判斷上下位關係,“包含、包括”等連線的概念之間有上下位關係。步驟S332,判斷定義,“指的是”這樣的表達方式中,其前後是定義關係。步驟S333,判斷所有時間關係,包括“在…之前”“在…之後”“晚於”等。步驟S334,判斷並列關係,“和、與”等連線的概念之間是並列關係。步驟S335,對動詞連線的兩個概念,其順序假設為“N1V1N2”,則其形成謂詞邏輯關係,表示為V1(N1,N2)。步驟S317,結合步驟S321、S331、S332、S333、S334、S335的結果,給出概念表達式。比如,對下面文本,其概念表達式結果是:文本:************寄方盧先生***********來電催回復,表示此件很急,現客表示此件是否已經丟失了?概念表達式:e_客戶+c_催件;e_快件+c_遺失+c_疑問。
圖4是DINFO-OEC分析挖掘設備示意圖。DINFO-OEC分析挖掘設備500,包括4個處理單元,1個建模單元,1個可視化單元。建模單元510,負責DINFO-OEC模型130的管理、配置與更改。用戶可以對DINFO-OEC模型進行增加、刪除、修改等操作。可以對130進行測試。可視化單元530,負責對分析挖掘結果進行可視化展示。可視化單元包括數據導入、圖形化展示、導出功能。數據導入支持從表格中導入分析挖掘結果。圖形化展示支持柱狀圖、雷達圖、折線圖等圖形顯示。預處理單元521,負責提供分詞、詞性標註等預處理功能。對非結構化文本111進行預處理,包括斷句處理、分詞、詞性標註。斷句處理是把文本111以句號斷開,分成多個句子進行後續處理。分詞、詞性標註把中文文本進行詞語切分處理,並給每個詞語標註上其對應的詞性,詞性包括名詞、動詞等。概念識別單元522,負責提供概念識別300功能。對每個辭彙進行同義擴展,利用辭彙的上下文發現用一種表達方式或一句話表示的複雜概念。進行C識別,判斷辭彙中是否包含有概念樹中的概念值,如果有,則給出概念值對應的概念。進行E識別,判斷辭彙中是否包含有要素樹中的要素值,如果有,則給出要素值對應的要素。概念類型判斷,對每個辭彙標註出其概念類型,概念類型包括概念C和要素E。對概念集合320中的概念,利用Bayes算法進行概念同現計算,如果同現,則記為概念之間的邏輯關係是“與”關係。識別概念之間的語義關係。最終給出概念表達式。分析挖掘單元523,負責提供分析挖掘功能。按照DINFO-OEC模型中對挖掘結果和挖掘規則的配置,對概念識別結果進行計算,給出挖掘結果。挖掘結果包括分類、聚類、關鍵字組合、傾向性評價等。可信度計算單元524,負責提供可信度計算功能。對類型是CR的挖掘規則,其可信度是輸入文本中提取的概念表達式與本體樹中挖掘規則之間的匹配度。對類型是SR的挖掘規則,其可信度是統計算法輸出的相似度。

榮譽表彰

2021年8月16日,《DINFO‑OEC文本分析挖掘方法與設備》獲得安徽省第八屆專利獎優秀獎。

相關詞條

熱門詞條

聯絡我們