自然語言模糊語義形式化表達、定量分析與套用研究

《自然語言模糊語義形式化表達、定量分析與套用研究》是依託北京理工大學,由史樹敏擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:自然語言模糊語義形式化表達、定量分析與套用研究
  • 依託單位:北京理工大學
  • 項目負責人:史樹敏
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

模糊性是自然語言的特徵之一,而語言理解的模糊本質是以語義為基礎的。作為自然語言深層知識獲取與抽象的核心,模糊語義的理論研究和數學描述是一項值得我們深入探討和解決的關鍵科學問題。本項目著眼於漢語模糊語義形式化表達與定量分析,基於fuzzy logic從理論探索、方法改進和套用支持三個層面開展研究。具體包括:語義模糊性與多義性、歧義性,及概括性的釐清與界定;傳統模糊語義定量研究方法改進與模糊限制成分量化分析;特定問題域下自然語言模糊語義的形式化表達與數學抽象;新型社會媒體(微博)語言環境下,網路短文本模糊語義的形式化描述與語言工程套用探索。語義模糊性是人工智慧、認知科學、計算語言學等諸多學科交叉融合的軸心,作為本項目研究成果的方法和解決方案將擴展漢語模糊語義學和邏輯語義學的經典框架,充實自然語言理解領域的理論內容,並推動其在上述學科領域的智慧型套用,具有很高的學術價值和現實意義。

結題摘要

模糊性是自然語言的特徵之一。語義模糊性是人工智慧、認知科學、計算語言學等諸多學科交叉融合的“軸心”。模糊語義的理論研究和形式化描述是一項值得深入探討的關鍵科學問題。 本項目著眼於自然語言的模糊語義形式化表達、定量分析與套用研究。主要針對漢語、英語和藏語三個語種,圍繞各語種自身特點、結合現有資源情況,基於語言學基礎、fuzzy logic理論及機器學習方法,從理論探索、方法改進和套用驗證三個層面進行研究。具體內容包括:自然語言模糊性現象及規律分析與驗證;漢語模糊限定成分的語法屬性及形式化表達與數學抽象;選取深層語義粒度,漢英雙語MNP形式化描述與識別;拓展建立可重複性研究的問題集,探索開展藏語功能組塊形式化分析與識別;及資源建設、語言特徵建模及其他關鍵技術研究。 本項目釐清了語義模糊性與多義性、歧義性及概括性等語言現象的異同,有助於業界對相關概念的理解。以漢語情感詞為語義模糊性分析重點,根據語言成詞結構特點,分類細化,將情感詞劃分為基礎類和複合類,分別量化其模糊語義。針對基礎情感詞,提出了基於高斯分布的漢語情感詞模糊語義量化方法;針對複合情感詞,著重考慮修飾詞對其情感傾向的影響,提出了融合七種結構形式化表達的多策略的情感傾向強度量化策略,情感詞模糊語義的量化準確率大幅提高。針對資源豐富的英語,根據最大名詞短語自身涵蓋形式化語義的結構屬性,提出了基於半監督學習的英漢雙語最大名詞短語識別方法,利用漢英最大名詞短語的互譯性和識別的互補性,把平行的漢語句子和英語句子看作一個數據集的兩個不同視圖,而不是傳統方法下兩個獨立集,進行雙語協同訓練,顯著提高了識別能力,一定程度上達到了語義分析的目的。針對資源匱乏的現代藏語,結合其語言學理論基礎,依據句法分類標註體系,以功能塊作為研究切入點,並將組塊形式化分析任務細化為功能塊邊界識別和類型標註。提出基於條件隨機場模型以音節為單位的功能組塊邊界識別方法;並將錯誤驅動學習思想引入組塊邊界識別研究,充分探索了不經分詞及詞性標註直接進行藏語語義分析的可行性。 本項目所提出的研究方法和解決方案擴展了模糊語義學和邏輯語義學的經典框架,具有較高的學術價值。在藏漢機器翻譯和面向微博的網際網路內容分析等套用領域的驗證結果充分表明所提出方法和研究架構的有效性與可行性,對於推動不同語種模糊語義形式化表達與量化分析研究具有積極作用和現實意義。

相關詞條

熱門詞條

聯絡我們