數據服務中可信的多態查詢關鍵技術研究

數據服務中可信的多態查詢關鍵技術研究

《數據服務中可信的多態查詢關鍵技術研究》是依託中國人民大學,由朱青擔任項目負責人的面上項目。

基本介紹

  • 中文名:數據服務中可信的多態查詢關鍵技術研究
  • 項目類別:面上項目
  • 項目負責人:朱青
  • 依託單位:中國人民大學
項目摘要,結題摘要,

項目摘要

網路數據服務中搜尋引擎為信息檢索提供方便,但存在急需解決的問題:①面對大量的查詢結果,用戶通常很難快速分辨結果的有效性和可信性,排在前面的結果不一定是質量上乘和可信的,可信性需求尤為迫切。②網路信息是以多種形態存在並相互關聯,各數據資源混合存放,還沒有一個成熟的服務管理軟體有效地自動管理,大多需要半自動將其進行形態分類、形式化封裝,無法進行有效的語義查詢和多態深層查詢,更無法直接得到資源之間的關聯關係,導致數據資源利用率不高。本項目針對開放複雜數據服務環境,對異地異構資源進行透明、有效而統一的管理;依據資源語義,實現數據服務的多態查詢;依據可信知識擴展查詢,保證查詢結果的可信。研究內容:①多態數據資源的物理建模與邏輯組織;②多態查詢與查詢最佳化策略;③可信知識擴展檢索,基於主題、語義和情感傾向分析進行可信評估。旨意通過多態計算快速查詢高可信高價值信息,為雲服務、效用計算提供理論依據。

結題摘要

本項目針對開放複雜數據服務環境,對異地異構資源進行透明、有效而統一的管理。依據資源語義,實現數據服務的多態查詢。依據可信知識擴展查詢,保證多態查詢結果的可信。研究完成了:(1)結合資料庫的高性能和MapReduce的容錯性、擴展性,設計與實現了基於代價高效的大規模多態數據資源集成的系統HyDB。首次實現了新的存儲模型、混合模型下基於代價的查詢最佳化方案、最優計畫搜尋算法。(2)多態數據資源的物理建模與邏輯組織,研究是在混合架構的基礎上提高查詢效率. 由於混合架構中,開銷最大的是利用MapReduce 做連線操作和聚集操作的部分,針對複雜表關係和查詢負載無法做到準確的分析。所以提出混合架構上的劃分建議器,根據代價模型選擇相對負載下代價最小的劃分方式,提高查詢效率。(3)查詢處理與查詢最佳化算法,有效提高查詢效率。我們進行關鍵字的可信實體查詢、基於歷史查詢信息的關鍵字檢索研究,我們提出集成眾包的關鍵字查詢,將人計算與機器計算結合擴展眾包查詢,項目實現可信實體多態查詢與查詢最佳化策略。(4)基於自然語言的情感分析我們進行可信評估與推薦。根據主觀和客觀評論信息,判斷電影的類型,進行情感分析。具體做法是:首先系統利用詞法分析、句法分析解析主觀評論。再則利用SentiWordNet情感詞集和情感詞典分析打分,給出最合適的推薦。(5)系統包括:網頁信息可信判定,可信評估知識的獲取與知識庫的建立。系統通過自然語言處理,評論傾向分析和網頁發布溯源,可以對用戶反饋的觀點、事實陳述信息進行可信評估。(6)我們開發了多維度協同過濾算法支持可信推薦評估。實現可信知識擴展檢索,套用自然語言處理,相似匹配過濾大量噪音信息;基於項目、用戶、主題和語義分析進行可信評估與推薦。

相關詞條

熱門詞條

聯絡我們