基於語義的上市公司年報文本信息質量測度方法及套用

中文摘要

上市公司年報文本信息對決策者越來越重要。正確測度年報文本信息質量，是正確理解和使用年報的關鍵。而當前會計學界對上市公司年報文本信息質量的測度，受限於當前以人工手動分析主的測度方法，很難對年報中表述靈活的中文敘述性信息進行語義層面的有效分析和提取。計算語言學的飛速發展，為上市公司年報文本語義信息的分析和處理提供了很好的理論和技術支撐。本項目基於計算語言學理論，構建上市公司年報領域本體，抽取上市年報文本信息規則，基於規則相似度對文本信息質量指標進行計量，建立綜合評價模型，對上市公司年報文本信息質量進行有效測度。本項目提出的測度方法不僅能拓展年報文本信息質量測度的深度和寬度，而且也可實現計算語言技術從通用語言的語法分析到專業領域語言的語義分析的跨越，提高專業領域文本信息的智慧型化處理程度，促進人類高級專業知識的共享。

結題摘要

上市公司披露的信息形式越來越多元化，年報中70%以上的信息都是以非數字形式存在的文本信息。文本信息成為管理決策中的重要信息來源。然而，文本信息不像數字信息，具有模糊、多義，難以測度與量化的特性。基於此，本項目套用計算語言理論與方法，基於財務領域知識，開發設計智慧型化的文本語言測度方法，並套用於管理決策。在上市公司年報文本信息抽取與質量特徵描述方面，本項目採用自主開發的網路爬蟲程式，自動從我國證交所、各上市公司官方網站收集了中國A股上市公司(2695家) 2003~2014年的年報26800份，及相關的財務文本信息630000條。構建了中國上市公司財務會計領域本體庫、中國上市公司財務詞典和中國上市公司財務情感詞典。在上市公司年報文本信息質量測度模型方面，本項目基於計算語言學，基於會計領域文本的領域特徵與其對應的語義特徵，開發了基於語義相似度的文本信息質量測度模型和基於信息熵的文本信息高維度質量約減模型。特別完成了對年報有關“風險信息”和“研發信息”的信息抽取和測度。在上市公司年報文本信息質量套用方面，本項目結合上市公司財務數字信息和資本市場信息，對文本信息披露質量進行驗證，特別完成了對上市公司研發信息，MD&A，風險信息，盈餘管理信息等的質量進行了分析與套用，研究發現，通過分析年報文本信息質量，可最佳化投資決策和公司風險管理決策。本項目取得的研究成果主要表現在三個方面： 1. 自建的資料庫： *中國上市公司年報文本資料庫，抽取了中國A股2695家上市公司2003~2014年的年報文本信息； *中國上市公司財務會計領域詞典，基於會計領域知識和財務報告，構建了包含會計專業術語和核心辭彙及辭彙間基本關係的會計詞典； *分析師報告資料庫，形成中國A股2695家上市公司相關的分析跟蹤報導630000條； *中國財務會計文本情感詞典，利用上市公司年報等渠道獲得的財經語料結合財務知識進行標註，共標註10000條，然後套用機器學習算法，自動習得其他所有年報中出現的情感語料，得到財務會計領域情感詞典。 2. 自主開發的上市公司文本信息分析算法 3. 基於上市公司年報文本信息的管理決策最佳化科研論文17篇，發表在《中國管理科學》，《中國軟科學》，《科研管理》，《系統溝工程》，《International journal of Applied Mathematics》

基於語義的上市公司年報文本信息質量測度方法及套用

基本介紹

中文摘要

結題摘要

相關詞條

熱門詞條