面向中文文本信息融合的句子排序研究

項目摘要

Internet的發展使得各種信息急劇增加，信息檢索是人們高效獲取所需信息必不可少的渠道，文本信息融合技術可將來自多個信息源的文本信息片段綜合整理，有效地減輕了對檢索結果的閱讀負擔。將多個信息源（文檔）的信息組合成邏輯性強、一致性高的一篇文本，需要對相應的信息片段（句子）進行排序，排序的結果直接關係到所生文本的可讀性。目前國內對文本信息融合中句子排序的研究只局限於在多文檔自動文摘或問答系統中簡單提到，還沒有把它專門作為一個課題進行深入的研究，國際上也沒有專門針對中文文本的句子排序研究。本項目通過人工分析與數據挖掘相結合的辦法，分析人在中文句子排序時的行為模式，總結出句子排序時可用到的各種特徵，並對其進行量化，在此基礎上集成各項特徵，設計排序模型，通過句子與句了之間關係構建有向圖，用改進的PageRank方法對圖中節點進排序。最後將排序模型集成在文本信息融合系統中，提文本信息融合結果的質量。

面向中文文本信息融合的句子排序研究

基本介紹

相關詞條

熱門詞條