《面向市場情報的Web實體事件發現與蹤跡分析研究》是依託山東大學,由閆中敏擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:面向市場情報的Web實體事件發現與蹤跡分析研究
- 項目類別:青年科學基金項目
- 項目負責人:閆中敏
- 依託單位:山東大學
中文摘要,結題摘要,
中文摘要
實體蹤跡隱藏在Web上孤立離散的海量頁面中,不能被直接獲取利用。針對Web海量信息,建立Web實體事件發現和蹤跡分析體系,自動識別實體發展變化中有價值事件以及事件間關係並有機地組織起來,發現Web實體蹤跡用以趨勢預測和決策支持,成為非常迫切而重要的任務。本項目將建立一套比較完善的理論研究和套用方法,針對市場情報領域實現(1)設計實體事件獲取模型,在海量Web信息中發現有價值事件並融合,全面準確地獲取目標實體事件信息;(2)識別實體事件之間的因果關係、從屬關係、跟隨關係等,按照實體事件的發生時間、發生地點、行為主題、相互關係等不同維度將實體事件信息組織在一起,形成實體蹤跡圖模型;(3)根據實體蹤跡圖模型整理和提煉實體的周期性蹤跡和典型蹤跡,進行實體蹤跡的多維分析,發現實體發展規律,對外提供深層次的實體信息服務。在未來的幾年中該項研究在市場情報分析、商業競爭情報等方面都有著廣闊的發展空間和套用前景。
結題摘要
面向市場情報領域,項目組針對領域模型構建與演化、Web實體事件發現及融合、Web實體蹤跡發現展開研究,取得了一系列的研究成果;在此基礎上研發原型系統,驗證上述各項關鍵技術。主要研究進展和成果如下。 1.針對Web實體描述信息不一致的問題,提出結合CRF語義標註和匹配算法的實體模式動態更新的方法,在數據集成的過程中及時發現實體新屬性和屬性的新同義詞,實現實體模式的演化。 2.使用網頁間事件共現約束降低事件表象的匹配次數,減少事件表象聚類時間,基於時間、地點、主體、事件語義、數據衝突等特徵對事件表象進行重複檢測。 3.針對Web環境中指向同一事件的不同實例所提供的事件描述信息存在衝突的問題,提出一種基於D-S證據理論的Web實體事件數據衝突解決方法,提高了解決事件信息中數據衝突的準確率。 4.提出了基於兩階段聚類的實體間隱式關係挖掘算法。該算法使用搜尋引擎返回的結果文檔中,挖掘並標記Web數據集成系統中相關實體之間的語義關係。 5.提出基於頻繁子圖挖掘的Web 實體周期性蹤跡發現的方法,有效的解決模式增長速度過慢、子圖組合爆炸和冗餘模式產生的問題。 6.提出同類Web實體相似性蹤跡發現的方法,篩選重要事件,動態規劃發現相似性蹤跡雛形,克服了沒有預見性的頻繁子圖擴展導致的低效率問題。 在關鍵技術研究成果基礎上研發Web 實體蹤跡發現與分析原型系統,原型系統分為數據源管理、事件獲取、事件融合、蹤跡發現以及市場情報發布等幾個主要模組。 截止目前課題組已發表學術論文15篇,其中SCI 收錄2篇,EI 收錄12篇。在課題資助下,申請國家發明專利4項,新申請獲得國家、省部級科研項目3項,培養博士4人,碩士5人,組織全國Web信息系統及其套用學術會議1次,參加國際、國內學術會議8次,已按照計畫完成相關研究工作。