廣義話題結構

廣義話題結構

廣義話題結構是漢語篇章微觀話題結構的描寫,是理論上和套用上有本質意義的漢語篇章結構單位,為漢語篇章理論研究和套用提供堅實的基礎。

以標點句為基礎,從話題-說明關係的視角出發,漢語篇章具有一種“流水”式的結構,這就是廣義話題結構的流水模型。流水模型以堆疊模型為核心,擴展出節棧模型、逆向堆疊模型(即話題後置模型)、匯流模型(包括單層匯流)和封閉語段模型。在流水模型中可以歸納出話題自足句的成句性(話題自足句的概念可見正文解釋)和話題的不可穿越性這樣的模型的特點,就是從左向右,向下為主,分支匯流,節閘限源,不可穿越。廣義話題結構及其流水規律為漢語篇章的基礎性結構提供了一種可操作高覆蓋的形式模型。

基本介紹

  • 中文名:廣義話題結構
  • 外文名:Generalized Topic Structure
  • 所屬學科:語言學
  • 適用範圍:漢語篇章語法;中文信息處理
  • 交叉學科:語言學;計算機科學;認知心理學
背景和目標,基本概念,標點句,話題結構,廣義話題,堆疊模型和話題自足句,用堆疊模型生成話題自足句,話題的不可穿越性,話題自足句成句性的意義,廣義話題結構流水模型,話題後置和逆向堆疊模型,節棧模型,匯流模型,漢語篇章流水模型的結構特點,

背景和目標

篇章結構包括邏輯語義結構、指代結構、話題結構等範疇。邏輯語義結構表征並列、轉折、因果等邏輯語義關係。指代結構是代詞、名詞、名詞短語、零形式相互之間的共指關係。話題結構有巨觀與微觀兩種。巨觀話題結構表征的是篇章各部分講述內容的大綱,微觀話題結構是近鄰語句對同一個詞語的意思展開說明而形成的結構。捋清微觀話題結構是處理巨觀話題結構、指代結構、邏輯語義結構的基礎。廣義話題結構就是漢語篇章的微觀話題結構的描寫。
廣義話題結構的研究的遠期目標是讓計算機對任何正常的現代漢語篇章的微觀話題結構進行自動處理,進而解決各種實際套用問題。第一步首先要做到對於人可操作。所謂對人的可操作性可以這樣衡量:制定出操作規範,稍有語言學修養的人經過訓練,在較大規模語料庫上進行標註操作,操作結果對於不同的人來說在可控範圍內大致上是一致的。廣義話題結構的研究對漢語篇章語法研究和中文信息處理都有重要意義。
實證性研究證明,廣義話題結構對現代漢語文本具有人的可操作性和語料的高覆蓋性。實證語料包括數十萬字的小說、百科釋文和政府工作報告。其中,小說中包括普通當代小說、現代章回小說和古代白話小說;百科釋文包括生物、地理、歷史事件和人物等題材。使用廣義話題結構結果對每一句進行無遺漏標註,其覆蓋率達到99%。

基本概念

標點句

標點句是廣義話題結構的基本單位。標點句是指逗號、分號、句號、嘆號、問號、直接引語的引號以及這種引號前的冒號所分隔出的詞語串。波折號、刪節號和其他功能的冒號出現得較少,用法比較複雜,需要仔細區分。此外,逗號隔開的熟語等特殊用語不算標點句,如“天父地母,反清復明”並不看成兩個標點句。
例(報紙新聞):
①突然,②他聽到洗手間有流水聲,③警官與特警踢開門,④將洗手間內的人猛地摔倒在地並銬住,⑤經辨認,⑥正是葉成堅。
這是6個標點句的話語片斷。
以標點句為基本單位,而不是以句子或小句為基本單位,有幾個原因。首先,標點句前後有停頓,本身帶語調,其結構受到一定約束,把標點句當作基本單位是很自然的。第二,標點的基本功能之一是表示停頓,停頓正是引出話題、延續話題、更新話題的基本表達手段,所以以標點句為單位研究話題結構正好合適。第三,廣義話題結構要求是可操作、高覆蓋,但漢語的句子或小句不易界定,達不到這個要求。標點句基本上是無歧義的。同一篇漢語文本,不同人點的標點可能有很大不同,這沒關係。這裡的無歧義指對於任何正常地點好了標點的文本,去抓取標點句的時候是機械式的。事實證明,這樣得到的標點句,具有明顯的規律性。

話題結構

例:他在劍橋念文學,是位新詩人,新近回國。(錢鐘書《圍城》)
這個例子中每個標點句都以第1標點句中“他”為話題,對它進行說明,回答“他怎么樣”、“他是什麼人”的問題,組成一個話題結構。這一話題結構可以表示作如下圖式(__表示句首的空格,下同):
他在劍橋念文學,
__是位新詩人,
__新近回國。
其中“他”是話題,後面的部分都是對“他”的說明,共同組成話題結構。為了便於直觀認知,把標點句分行排放,用於說明的標點句的左端縮進到被說明的話題的最後一個字後面。
話題結構定義:如果標點句中的一個成分(包括整個標點句)被另一些標點句談論,則稱前者為話題,後者為它的說明。話題和它的所有說明組成一個話題結構。話題所在標點句中話題後面的部分如果也是談論它的,那么也是它的一個說明。

廣義話題

話題是被談論的對象。從語義上看,除了通常講的事物類和時間、處所類話題外,還擴充進來了狀性、謂性、推理前提等類型的話題,因此稱為廣義話題。廣義話題與其說明所組成的結構稱為廣義話題結構。廣義話題的類型有:
(1)事物話題:包括性狀的主體,行為的施事、受事、工具等。
那書生走進船艙,
_____解開顧黃呂三人的穴道,
_____將四名親兵的屍體拋入運河,
_____重點燈燭。
“那書生”是施事話題,它的說明談論“那書生怎么樣”。
(2)環境話題:包括時間話題和處所話題。
查伊璜到杭州遊玩,
_____一日在一座破廟之中,
_____________________見到有口極大的古鐘,
“在一座破廟之中”是處所話題,“見到有口極大的古鐘”談論“在那座破廟之中怎么樣”;“一日”是時間話題,話題結構“在一座破廟之中……”作為說明,談論“那一日怎么樣”。
(3)狀性話題:狀語性成分,包括介賓短語、連謂結構的前謂語和部分副詞、部分句間連線詞等。
本憲法以法律的形式確認了中國各族人民奮鬥的成果,
________________規定了國家的根本制度和根本任務,
______是國家的根本法,
______具有最高的法律效力。
“以法律的形式”是狀性話題,它們的說明分別談論“以法律的形式怎么樣”。
(4)謂性話題:有兩類。
一類是謂詞性成分做主語或組合式述補結構的述語(後加助詞“得”)。
但我們的母親,
__________都餓得半死,
________________乳房緊貼在肋骨上,
“餓得”是謂性話題,它的說明談論“餓得怎么樣”。
另一類是述賓短語的述語、介賓短語的介詞。
吳六奇決心痛改前非,
_________今後聽從孫長老號令。
將金糕切成一分見方的小丁,
__核桃仁切成小碎塊,
動詞“決心”、介詞“將”是謂性話題,它們的說明分別談論“決心怎么樣”“將什麼怎么樣”。
(5)推理前提
只有推動經濟又好又快發展,
______________________才能築牢國家發展繁榮的強大物質基礎,
______________________才能築牢全國各族人民幸福安康的強大物質基礎,
______________________才能築牢中華民族偉大復興的強大物質基礎。
“只有推動經濟又好又快發展”是推理前提類的話題,後面的標點句談論有了這個前提怎么樣。對於這種類型的廣義話題有明確的限制:這種推理關係必須是一種泛指的規則,從形式上看兩個標點句都沒有主語,但有關聯詞,如“只有……才能……”、“要……只要……”等。

堆疊模型和話題自足句

用堆疊模型生成話題自足句

經過大量語料標註發現,漢語大多數標點句的成分缺失位於標點句首,相當於話題;有少數位於標點句尾部,相當於說明或說明的尾部。補充缺失的話題-說明成分後,通常能夠形成語法通順、語義清楚的句子,稱為話題自足句
廣義話題結構流水模型(堆疊模型)
話題自足句
c1高松年發奮辦公,
c2_____夙夜匪懈,
c3_____精明得真是睡覺還睜著眼睛,
c4___________________戴著眼鏡,
c5______________做夢都不含糊的。
c6_____搖籃也挑選得很好,
c7_________在平成縣鄉下一個本地財主家的花園裡,
c8_________面溪背山。
c9這鄉鎮絕非戰略上必爭之地,
t1高松年發奮辦公,
t2高松年夙夜匪懈,
t3高松年精明得真是睡覺還睜著眼睛,
t4高松年精明得真是睡覺還戴著眼鏡,
t5高松年精明得真是做夢都不含糊的。
t6高松年搖籃也挑選得很好,
t7高松年搖籃在平成縣鄉下一個本地財主家的花園裡,
t8高松年搖籃面溪背山。
t9這鄉鎮絕非戰略上必爭之地,
如果考察上例標點句生成話題自足句的動態過程,則可以看出話題結構遵循堆疊模型。“棧”可以想像為一個倉儲用的長條形貨棧,一頭是棧底,一頭是棧頂。進棧的貨物從棧頂往裡推入,出棧的貨物也從棧頂往外移出。棧底的位置是定死的,棧頂的位置是活的,隨著貨物的進出而不斷伸縮。這裡中說的棧,存放的“貨物”是文本中的詞語,可以想像成水平放置,左端是棧底,右端是棧頂,左端不動,詞語從右端出進。
例如,我們約定一開始棧內容是c1“高松年發奮辦公,”。可以看出來c2“夙夜匪懈,”與c1的關係是:
c1高松年發奮辦公,
c2_____夙夜匪懈,
即“發奮辦公,”和“夙夜匪懈,”談論的是“高松年怎么樣”。此時話題“高松年”留在棧中,從棧頂退掉該話題右邊的詞語串“發奮辦公,”,推入c2,棧內容變成“高松年夙夜匪懈,”,稱作c2的話題自足句,記作t2。再看c3“精明得真是睡覺還睜著眼睛,”和t2的關係是:
t2高松年夙夜匪懈,
c3_____精明得真是睡覺還睜著眼睛,
即“夙夜匪懈”和“精明得真是睡覺還睜著眼睛,”談論“高松年怎么樣”。此時話題“高松年”留在棧中,從棧頂退掉該話題右邊的詞語串“夙夜匪懈,”,推入c3,棧內容變成“高松年精明得真是睡覺還睜著眼睛,”,稱作c3的話題自足句,記作t3。如此類推。
我們把c1的話題自足句t1規定作c1本身,於是每個標點句都有一個對應的話題自足句。話題自足句總是棧內容。一個標點句和它上一個標點句的話題自足句放在一起進行話題-說明關係分析,如後者中有被說明的話題,就把該話題右邊的詞語串從棧中退掉,把新標點句推進去,更新後的棧內容就是新標點句的話題自足句。如後者中沒有被說明的話題,新標點句就應該是話題自足的,此時退掉原來的全部棧內容,把新標點句推進棧,成為新的棧內容,它就是它本身的話題自足句。如此循環往復,使篇章遵循話題結構而延伸。
提出話題自足句的概念,是因為它恰好補全了標點句缺失的且存在於上下文中的全部話題。話題自足句生成的操作過程都是退棧進棧操作,因此這一方法稱作堆疊模型

話題的不可穿越性

從堆疊的操作過程中看出,一個標點句能在字面上補上的話題全部都在它上一個標點句的話題自足句中。因此,在堆疊模型的操作過程中退掉的棧內容不可能再成為後面標點句的話題。這就話題的不可穿越性。如狀性話題的例子:
c1本憲法以法律的形式確認了中國各族人民奮鬥的成果,
c2_________________規定了國家的根本制度和根本任務,
c3______是國家的根本法,
c4______具有最高的法律效力。
如果顛倒標點句的順序,將c2移到c4後面,變成:
c1本憲法法律的形式確認了中國各族人民奮鬥的成果,
c3______是國家的根本法,
c4______具有最高的法律效力,
c2__________________規定了國家的根本制度和根本任務。
此時,如果c2要保持原意,繼續共享"本憲法以法律的形式"作為話題,則”以法律的形式“要穿過c3和c4的文字,被最後的c2共享,稱為話題穿越。
然而顛倒順序後,整個例子細讀下來,c2隻能理解成“本憲法規定了國家的根本制度和根本任務”,無法理解為“本憲法以法律的形式規定了國家的根本制度和根本任務”。可見,漢語母語者的語感並不允許話題穿越,漢語篇章中存在話題的不可穿越性。

話題自足句成句性的意義

話題自足句通常是語法通順、語義清楚的句子。話題自足句及其成句性對於漢語篇章信息處理有重要意義。
據統計,漢語篇章中40%左右的標點句都有話題在其它標點句中。把這些標點句作為完整的句子來處理顯然會嚴重影響漢語信息處理系統的性能。這是漢語長句自動分析和機器翻譯質量極差的主要原因。話題自足句中話題與說明成對出現,結構相對完整,許多上下文信息在話題自足句中已經聚集在一起,僅僅處理話題自足句就可以解決不少涉及局部篇章的問題,自然可以提高套用系統的性能。
同時,由於話題自足句具有成句性,在句法和語義上都可以近似地看成完整的單句,所以可以使用面向單句的方法去處理。在語言本體研究和計算語言學領域,漢語單句的理論和處理方法相對比較成熟。於是,利用話題自足句,漢語篇章分析就可以分成兩步:第一步是把標點句序列轉為話題自足句序列,第二步分析各話題自足句內部結構以及它們之間的關係,包括邏輯語義關係和指代關係等。這種任務分解的方法可以降低漢語篇章處理的難度。

廣義話題結構流水模型

源自堆疊模型的話題自足句有少數不成句的現象,其中大部分可以通過拓展堆疊模型而解決,包括引入逆向堆疊模型、節棧模型和匯流模型。拓展後的模型稱為流水模型。下面分別介紹流水模型的各子模型及其話題自足句。

話題後置和逆向堆疊模型

廣義話題結構流水模型(後置模型)
話題自足句
_╠在府上叨擾多日,
_╠已感盛情,
晚生明日便要北歸了。
晚生在府上叨擾多日,
晚生已感盛情,
晚生明日便要北歸了。
這個例子中前2個標點句都以“晚生”為話題。但是話題沒有出現在這些標點句中,而是出現在後面的標點句的前部。這樣的廣義話題結構的形式模型稱為逆向堆疊模型,也稱作後置模型,話題後置的標點句用“╠”標記。生成話題自足句時,從後面的標點句把後置的話題補充到本標點句首。

節棧模型

廣義話題結構流水模型(節棧模型)
話題自足句
他把帶到銀行里偷空看的書翻開
__‖_________________每個字都認識
__‖_________________沒一句有意義。
__聽見外面跑堂招呼客人的聲音,
__心就直提上來。
他把帶到銀行里偷空看的書翻開
帶到銀行里偷空看的書每個字都認識
帶到銀行里偷空看的書沒一句有意義。
他聽見外面跑堂招呼客人的聲音,
他心就直提上來。
例中第2、3標點句共享的話題是“帶到銀行里偷空看的書”。按照堆疊模型生成的話題自足句應分別是:“他把帶到銀行里偷空看的書每個字都認識,”“他把帶到銀行里偷空看的書沒一句有意義。”但它們都是不通的。這類話題自足句如果去掉共享話題前面的成分“他把”,就都通了,於是需要將堆疊模型擴充為更有普適性的模型,稱之為節棧模型。具體地說即堆疊的內容是分節的,被說明話題左邊有一個節閘(例中用雙豎線表示),後面的標點句的話題自足句只能從節閘算起,不能從棧底開始。節閘右邊的棧節退掉後,左邊的部分又能被共享。堆疊是節棧的特例,是只有一個閘的節棧(閘在棧底)。從非棧底的節閘開始的話題自足句稱為新支句,意指這是原話題自足句的一個新分支。

匯流模型

廣義話題結構流水模型(節棧模型)
話題自足句
狗的『背上,
_____尾巴尖上,
甚至狗的鬍鬚上』都結上一層白霜。
狗的背上都結上一層白霜,
狗的尾巴尖上都結上一層白霜,
甚至狗的鬍鬚上都結上一層白霜。
有的標點句缺少說明或者說明部分不完整,補全話題後仍然不成句,需要等待後續的標點句把說明部分補充完整。這樣的廣義話題結構的形式模型稱為匯流模型。標點句說明不完整的部分用“『…』”標記。“』”後到句末的部分需要接到匯流標記內的各標點句句末,稱為“聚合”部分。上例第1、2標點句說明部分不完整,缺失的說明是第3標點句“』”到句末的部分,即“都結上一層白霜”,把該部分補充到第1、2標點句尾部才能形成它的話題自足句。即“狗的”分出兩支“背上”和“尾巴尖上”,這兩支匯合後又同“甚至狗的鬍鬚上”匯合,一起匯入“都結上一層白霜。”

漢語篇章流水模型的結構特點

從左向右,向下為主,分支匯流,節閘限源,不可穿越

相關詞條

熱門詞條

聯絡我們