自然語言架構

自然語言架構

自然語言是一種信息的編碼方式,自然語言不但信息進行了編碼,同時也對部分的信息的處理程式進行了編碼。因此,自然語言的架構主要包含以下兩個部分:信息部分(數據部分),信息的處理程式程式部分(數據的處理程式部分)。信息部分(數據部分)有可分為:信息的層次結構部分(數據的層次結構部分)和屬性信息的模型部分。信息的處理程式部分分為:用自然語言直接編碼的部分,和暗含在句子結構中的部分。

對自然語言架構的正確理解,能夠指導我們理解和模擬人腦中信息的識別,處理,存儲,分析等一系列和思維相關的活動。

基本介紹

  • 中文名:自然語言架構 
  • 外文名:Architecture of Natural Languages
  • 別名:自然語言的架構
  • 學科分類:計算機科學,語言學
  • 研究對象:研究自然語言是如何對信息進行編碼和處理的。
  • 相關著作:New Approaches for NLU
  • 原作者:張莉敏
數據部分,1. 基本屬性塊,2. 高級屬性塊 ,處理程式部分,1. 結構塊,2. 指針塊,3. 任務塊,屬性空間部分,

數據部分

自然語言中表征數據部分的辭彙,按其所表征的信息集的結構的不同,可以分為屬性塊,屬性空間塊和體詞塊。 其中屬性塊也可根據其對信息的抽象程度,和抽象方式的不同分為:基本屬性塊 Basic Attribute Chunk(描述屬性塊),高級屬性塊 Advanced Attribute Chunk(動詞,度量詞),擴展屬性塊 Extended Attribute Chunk(一種結構上的劃分方式)。參見圖:語言辭彙新分類
自然語言架構
語言辭彙新分類

1. 基本屬性塊

通過人體神經系統信息的基本接收通道進行劃分,可分為顏色屬性,味覺屬性,嗅覺屬性,聽覺屬性,空間定位屬性,時間定位屬性等。 基本屬性塊的辭彙映射了物質,空間和時間這三個人類認識世界的基本維度。
自然語言架構
分布度量詞塊舉例

2. 高級屬性塊

是對已有的基本屬性信息進行統計分析後,而得到抽象特徵。比如:動詞是對某一屬性信息序列進行抽象後,對其抽象特徵進行的文本編碼。度量詞(大,小,多,少等)則是對屬性信息群進行再次分類後,其分類特徵的文本編碼。參見圖:分布度量詞塊舉例

處理程式部分

自然語言中的結構塊(Structure Chunk)和指針塊(Pointer Chunk)是對處理程式部分的直接編碼編碼,句子結構中也隱含了部分的處理程式。自然語言架構中將一段完整的數據處理程式稱為任務塊(Task Chunk)

1. 結構塊

具體的結構塊需要在信息資料庫中進行解釋,此處未展示信息資料庫部分內容,讀者閱讀參考資料,獲得該不分信息。
1.1 定義符號:is. 定義符號後面的詞塊是用來描述和定義定義詞塊之前的詞塊的。參見圖:結構塊辭彙-is
自然語言架構
結構塊辭彙 - is
1.2 集合間的包含關係符號:of, have, 's 等。
1.3 因果關係符號:to, for, because of, so, thus, but ...
1.4 連詞: and, or ...
1.5 標點符號:。,:、,...

2. 指針塊

2.1 實例化指針: the.
2.2 搜尋範圍限定指針: what, where, when, how, which ...
2.3 空間定位指針: in, at, on, above, behind...
2.4 變數指針: I, you, he, she, it, we, they, me, you, him, her, us, them, here, there, this, that, these, those...
2.5 情態空間指針:can(could), may(might), must, need, ought to, shall(should), will(would)...

3. 任務塊

根據句子所表達的任務類型的不同,有以下3種主要任務塊類型。
3.1 數據描述類任務塊, 表現為稱述句,感嘆句和祈使句等形式。
3.2 數據核實類任務塊,通常採用一般疑問句形式。
3.3 數據搜尋類任務塊, 主要採用特殊疑問句形式。

屬性空間部分

屬性空間部分,主要研究各個屬性空間內,其屬性信息的組織形式,變化規律,變化範圍等一系列的問題。自然語言中屬性塊部分的理解,主要依賴於對其所屬屬性空間的各種特性的理解。是自然語言理解的重點和難點部分。

相關詞條

熱門詞條

聯絡我們