自然語言書面理解系統

自然語言書面理解系統是20世紀60年代開始的人和計算機用自然語言書面對話系統。

基本介紹

  • 中文名:自然語言書面理解系統
  • 性質:人和計算機用自然語言書面對話
  • 開始時間:20世紀60年代
  • 代表作品:SHRDLU系統
指人和計算機之間用自然語言書面對話的系統。從20世紀60年代初開始研究,早期使用關鍵字和模式匹配的方法,計算機只能應答有限的、固定格式的輸入句,沒有句法、語義分析和知識推理。70年代初取得突破。70年代中期到80年代初又繼續有所進展。建成的系統較多,各自使用了不同的語法理論和電腦程式。其中有代表性的分述如下。
J.維諾格拉德的語言觀及其SHRDLU系統維諾格拉德於1972年在美國麻省理工學院建成SHRDLU系統,把語言分析和知識推理綜合在一起,在自然語言理解的研究中跨出了重要的一步維諾格拉德認為,人聽到或看到一個句子是運用了全部知識和智力來理解的,包括句法、語義、上下文、主題知識和推理。計算機要理解自然語言也必須具有這些知識並使之相互作用。句法需要解決的問題是“語言究竟是怎樣組織起來表達意義的?”而不是“怎樣分析一個孤立的句子結構?”句法必須跟語義、推理密切配合,語義根據對客觀世界的認識作出推論以指示句法分析。語義學是句法學和邏輯推理之間的橋樑,語義學的目的是研究意義的表達形式。
SHRDLU系統採用韓禮德的“系統語法”,計算機根據句法特徵識別輸入句的態、式、語氣等,按句型逐層分解到詞為止;語義分析和知識推理同時配合,以排除歧義和誤解。獲取語義信息後查詢知識庫,執行指定的操作或作出應答。這個系統貯存 200條英語單詞,能理解較複雜的英語句子。背景是 8塊顏色、形狀、大小各不相同的積木,一個放積木的盒子和一隻機械手,因此一般稱之為“積木世界”。計算機能根據人打字輸入的指令或問題在螢幕上顯示操作或應答。例如根據指令抓起紅色長方形大積木,回答某塊積木之上是否放著某種顏色的積木等。
W.A.伍茲的擴充轉移網路及其LUNAR系統 伍茲於1970年提出 擴充轉移網路(簡稱ATN),1972年在美國BBN 公司建成LUNAR系統。ATN是一種句法分析方法,也是一種計算機處理程式。生成語法缺乏短語結構中的規則和結構之間的直接聯繫;根據轉換規則可能生成的語句又過多,構成“組合爆炸”,而把生成語句的過程顛倒為分析語句的過程困難也不少,因此計算機無法套用。ATN 建立了英語部分句型的有限狀態轉移線路網路,同時設定了某些操作技術,使上下文相關,並能重新組合結構成分包括複寫、添加、刪略、換位等。如此即可套用轉換規則,充分發揮轉換語法的效能。圖1~3是簡化了的擴充轉移網路示意圖。
圖1[句型網路]是句型網路。S是初始態,有兩個走向:句首是名詞短語就轉入狀態,如為助動詞則轉入狀態。又有兩個走向:連線動詞到達,或連線助動詞轉入再連線動詞到是終結態(用斜線表示),句子可在此結束(不及物動詞句),也可再連線NP到達終結態(及物動詞句)。後還可能連線多個介詞短語再回到圖2[名詞短語網路]是名詞短語網路。NP是初始態,也有兩個走向:一條線路以限定詞開始轉入狀態,可連線多個形容詞之後再連線名詞到達終結態,之後還可連線多個介詞短語再回到。另一條線路是專名或代詞,直接到達終結態。圖3[介詞短語網路]是介詞短語網路。PP是初始態,由介詞轉入,連線名詞短語到達終結態。
LUNAR系統貯存英語單詞3500條,主題是查詢阿波羅登月艙帶回的月球泥石採樣的化學成分,為地質學家檢索信息服務。語句輸入,由ATN分析,求出深層結構,憑以解釋語義,並將語義信息編譯成一種謂詞演算查詢語言,檢索資料庫求得答案輸出。例如人問:“有多少種角礫岩含有橄欖石?”機答:“5種。”如再問是哪5種,即列舉該5種樣品的編號LUNAR是第1個面向套用而又設計完善的系統ATN已成為自然語言理解研究中廣泛採用的著名方法,此後建成的不少系統,包括語音理解系統HWIM在內都以 ATN為基礎。
R.C.尚克的概念從屬論及據此建成的諸系統美國學者尚克於1973年提出概念從屬論(簡稱CD),同時在美國斯坦福人工智慧實驗室建成MARGIE系統;1975年尚克和他的同事在耶魯大學建成SAM系統,1978年建成PAM系統,1979年建成FRUMP系統,1980年建成IPP系統。
CD的主要內容是:人腦中存在著某種概念基礎,語言理解的過程就是把語句映射到概念基礎中去的過程。概念基礎具有完善的結構,能根據初始的輸入預期可能的後續信息。要使計算機理解自然語言就必須研究概念結構及其映射規則。句法只起一個指引作用,無需詳細分析。概念結構由概念及其從屬關係構成。常用動詞和形容詞可抽象為少數“語義基元”,表示行為和狀態的基本概念。採用美國C.菲爾莫爾(1929~)的“格語法”,區分 5種格關係。 概念結構用圖像標記法構成 CD表達式,而句中任何隱含的信息都必須在CD表達式中表現出來例如:John eats the ice cream with a spoon(約翰用勺吃冰淇淋)的 CD表達式為:[] 表示施動關係,INGEST表示“攝入”的語義基元。包括“吃 、喝 、吞、咽……”等詞。表示受動關係,O是賓格。表示方向關係,D是方向格。表示工具關係,I是工具格。右端出現語義基元MOVE(移動),右下角出現名詞 mouth(嘴),而句中並無這類詞語,因為用勺不斷把冰淇淋送入口中是本句固有的語義信息。這是CD跟其他析句方法的根本區別,在解釋語句和演繹推理時獲得顯著成效。根據上述,將概念從屬關係編入詞典。語句輸入,由句法指引找出主要動詞和名詞,查詞典獲得解釋。例如輸入Johnate the steak,查 eat條的註解為:[] 代入句中名詞(X代以John,Y代以steak)即可得到理解。
MARGIE系統按照概念從屬論建成,是一個推理和語句解釋的模型,能根據輸入句推論出若干事實,包括原因、結果等例如:輸入“約翰給了瑪麗一些阿司匹林”,計算機即輸出:“約翰相信瑪麗需要阿司匹林。瑪麗病了。”語句解釋即計算機能用其他詞來解釋輸入句。例如輸入:“約翰殺了瑪麗,是掐死的。”輸出則為“約翰扼死了瑪麗。約翰掐住瑪麗,瑪麗死了,因為她不能呼吸”。
此後尚克學派將概念從屬論加以發展,用於篇章分析,提出“模本”、“計畫”、“目的”和“主題”等概念,使計算機能理解簡單的故事。一個模本概述一種日常活動中的標準事件序列,如“餐館模本”包括顧客走進飯館,坐在餐桌前,服務員送選單,顧客點菜,吃飯,付款等。計畫是完成目的的手段,如“去某處”是總目的,完成這一目的的各種方法如騎車、坐公共汽車、開小臥車等是子目的,應列入總目的項下。主題則是背景信息,可據以預期行為的目的,如“愛情主題”隱含彼此保護、避免對方遭受傷害的目的。
SAM 系統根據模本建成,能解釋故事情節,回答問題,進行推論,並作出英語、漢語、俄語、荷蘭語和西班牙語的摘要。例如輸入“約翰走進一家飯館。他坐了下來。他生氣了。他走了。”輸出為:“約翰餓了。他決定到飯館去。他走進一家館子。服務員沒理他。約翰生氣了。他決定離開這家飯館。他走了。”計算機推論約翰離開飯館是由於沒有得到服務。因為“餐館模本”中有服務員送選單一條,而輸入句中無此內容,卻有約翰生氣的句子。
PAM 系統由美國學者R.威林斯基建成,以目的和計畫為理解故事的基礎。也能解釋故事情節,回答問題,作出推論和摘要。但無需模本中的事件序列,只提出目的和計畫。如營救一個被巨龍拖走的人,只在“營救”這個總目的項下列舉若干子目的,包括到達巨龍巢穴和殺死巨龍的各種方法,即可預期下一步的行為。同時能根據主題推論目的,例如輸入“約翰愛瑪麗。瑪麗被巨龍拖走了。” PAM系統即可預期約翰要採取行動營救瑪麗。句中雖無此內容,但據“愛情主題”可作出推論。
尚克學派又進一步研究語言理解和記憶的關係,概括各種具體知識結構為一般經驗,綜合句法、語義、知識、推理為一體,再建成FRUMP和IPP兩個快速閱讀系統。貯存2000多條英語單詞,對輸入故事無需逐字分析,而是跳過某些詞語提取主要信息。目前已能從報刊上摘錄一些新聞故事。
G.亨德雷克斯的LIFER分析法以及據此建成的系統LIFER 分析法由美國學者 G.亨德雷克斯於 1977年在美國斯坦福研究所設計而成,提供了部分英語句型的句法 -語義框架,同時採用N.喬姆斯基的重寫規則和伍茲的ATN 分析輸入句。下圖是3種句型的轉移樹,〈L.T.G〉是 LIFER top grammar 的縮寫,表示初始符:[] 其中〈ATTRIBUTE〉(屬性),〈PERSON〉(人名)等非終結符屬於語義成分。這種將某些語義成分嵌入句型的方法稱為“語義語法”。用戶可自行定義語義成分,構成語句以切合自己的用途,因而任何用戶、任何主題均可套用。例如定義〈PERSON〉={John,Bill,Mary},〈A-TTRIBUTE〉={height,age, tall}, 即可理解輸入句 What is the age of John?(約翰的年齡是多少?)Whatis Mary's height?(瑪麗的身高是多少?)Howtallis Bill? (比爾多高?)
根據 LIFER分析法已建成若干系統,包括醫藥諮詢、作業安排、資源分布等主題。最龐大複雜的是斯坦福研究所的LADDER系統(1977),能聯結美國各地許多計算機的資料庫,用戶無需知道數據貯存在何處及其貯存方式,直接用英語查詢即可得到回答。斯坦福研究所的另一系統 HAWKEYE(1977)則屬於圖像識別和自然語言理解的綜合模型,計算機能根據圖像回答問題。例如指著地圖問:“從這兒到那兒的距離是多少?”
預計80年代自然語言書面理解的研究將在篇章模型和綜合模型兩方面發展,並建立一些套用系統。篇章模型如尚克學派正在進一步研究的故事理解,綜合模型如斯坦福研究所的 HAWKEYE。此外,聯邦德國漢堡大學於1981年建成一個“交通動態對話系統”,由彩色電視輸入動態情景,用德語問答,主題是詢問街上的交通情況。關於漢語書面理解的研究,見漢語書面理解系統。
參考書目范繼淹、徐志敏:《自然語言理解的理論和方法》,載《國外語言學》,1980,第 5期。
A. Barr and E. A. Feigenbaum, The Handbook of Artificial Intellience, Pitman, London, 1981.

相關詞條

熱門詞條

聯絡我們