基於中文文本挖掘技術的SIPO專利知識演化分析

基於中文文本挖掘技術的SIPO專利知識演化分析

《基於中文文本挖掘技術的SIPO專利知識演化分析》是依託大連理工大學,由丁堃擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於中文文本挖掘技術的SIPO專利知識演化分析
  • 依託單位:大連理工大學
  • 項目類別:面上項目
  • 項目負責人:丁堃
項目摘要,結題摘要,

項目摘要

專利是技術知識最有效的載體,專利知識演化圖譜的構建將會極大地提升專利的套用價值。項目的宗旨是:綜合運用文本挖掘技術,從知識主體和知識客體兩個視角,進行面向專題的專利知識演化分析。首先,對於給定的用戶需求,構建相應的領域本體,用於術語識別和查詢擴展,檢索國家專利資料庫SIPO,建立專題資料庫;然後,給出專利的邏輯表示,定義專利知識的細粒度表示、,利用命名實體識別、屬性抽取、語義標註等技術,填充專利的Feature、Effect和Value值框架,將非結構化信息轉化為可以量化的知識單元。在專利知識相似度和新穎度基礎上進行專利的主題聚類;最後,構造基於知識主體的競爭網路和基於知識客體的共詞網路,按照時間維度,研製專利知識演化圖譜,進行熱點專利識別、專利機會發現和專利趨勢預測,建立可視化的專利挖掘平台。

結題摘要

專利是技術知識最有效的載體,專利知識挖掘將會極大地提升專利的套用價值。項目主要目的是綜合運用知識計量、文本挖掘、自然語言處理技術,以國家專利資料庫SIPO為載體,進行面向專題的專利知識演化分析。首先,給出了專利的邏輯表示,相對於通常的信息抽取,根據專利領域特性,構建了專利知識的細粒度表示,將專利摘要文本表示技術特徵和特徵值的序列,即< Patent Frame>表示為若干個,利用命名實體識別、屬性抽取、語義標註等技術,填充專利,從而將非結構化拳灑甩信息轉化為可以量化的知識單元,實現了更為精細化的檢索和分析。然後,在專利邏輯表示的基礎上,提出了基於有序聚類和主題模型的專利知識演化分析方法,得到提狼少了所關心領域的不同發滲危蘭刪展歷史階段和不同階段的主艱整題聚類。在每個時間段內部,專利技術具有較強的內舟煮照坑聚性,圍繞相關的符拜笑主題展開。不同時間段之間耦合性降低,表現為不同時期的專利熱點的變化,有序聚類可以合理的表示技術發展的階段。在前歸囑敬面演化分析的基礎上,根據詞語共現和時間因素構建詞語關聯圖,從而基於小世界理論進行專利機會預測。實驗顯示,該方法能夠發現潛在的專利機會。最後,建立可視化的中文專利挖掘平台,並將其中主要的文本挖掘方法拓展到到專利、生物、引文網路中。

相關詞條

熱門詞條

聯絡我們