《基於文本語境約束的XML商業報告多維分析模型研究》是依託中國科學院大學,由黃敏擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於文本語境約束的XML商業報告多維分析模型研究
- 項目類別:青年科學基金項目
- 項目負責人:黃敏
- 依託單位:中國科學院大學
項目摘要,結題摘要,
項目摘要
針對XML商業報告採用XLink機制進行跨文檔元素關聯、報告中融合大量文本信息對結構化表格進行說明的特性,研究基於文本語境約束的海量XML商業報告的多維分析模型。首先,研究支持跨文檔連結弧的索引構建方法和導航算法,為多維分析模型提供數據獲取機制。其次,通過關鍵字查詢方法獲取關聯的文本語境,進而結合結構化表格的維度值、基於領域本體規則推理從文本中自動抽取實例,形成關注事實數據。通過建立相關度模型,獲取文本與查詢條件相關度、關注事實與文本語境相關度。最後,在事實相關度、語境相關度和商業報告結構化表格維度的基礎上建立維度超立方體,通過定義其數據模型和基礎操作代數實現選擇、投影和聚合等操作,從而解決海量XBRL數據的高效分析處理問題。
結題摘要
針對XBRL商業報告採用XLink機制進行跨文檔元素關聯、報告中融合大量文本信息對結構化表格進行說明的特性,研究海量XBRL商業報告基於語義的融合和數據分析。採用XBRL維度技術,提出基於空超立方體實現非維度化基礎元素的維度化解決方案和基於空維度去除冗餘元素的解決方案,建立多維數據模型。基於語義網技術,提出並實現了基於本體的XBRL語義元模型和知識庫的構建,設計實現了一種基於語義的XBRL數據到OWL數據的轉換方法,具體包括:基於語義網技術構建XBRL財務報告和事實數據語義元模型、 解析XBRL分類標準構建其XML信息集及其生成算法、解析XBRL實例文檔構建實例文檔信息集及其生成算法、設計XBRL分類標準到OWL本體轉換算法、設計XBRL實例文檔到OWL實體的轉換算法。在語義層面實現數據格式的融合。