《一種結合相似度和圖匹配的老-漢雙語句子對齊方法》是昆明理工大學於2018年3月19日申請的專利,該專利公布號為CN108549629B,專利公布日為2021年6月18日,發明人是周蘭江、李思卓、張建安。
基本介紹
- 中文名:一種結合相似度和圖匹配的老-漢雙語句子對齊方法
- 授權公告號:CN108549629B
- 授權公告日:2021.06.18
- 申請號:2018102256097
- 地址:650093雲南省昆明市五華區學府路253號
- 申請日:2018.03.19
- 發明人:周蘭江; 李思卓; 張建安
- 專利權人:昆明理工大學
國際專利分類號,對比檔案,專利摘要,
國際專利分類號
Int. Cl.
G06F40/211(2020.01)I; G06F40/284(2020.01)I; G06F40/247(2020.01)I; G06F40/58(2020.01)I; G06F40/53(2020.01)I
對比檔案
CN 104360996 A,2015.02.18; US 2015248401 A1,2015.09.03; CN 102855263 A,2013.01.02
SiZhuo Li等.A Word Alignment Algorithm of Laos-Chinese Based on Language Feature.《ICVR 2018》.2018,第102-105頁.; 李思卓等.基於互譯特徵詞對匹配的老⁃ 漢雙語句子.《現代電子技術》.2019,第42卷(第24期),第79-87頁.; 李思卓.基於圖匹配的老-漢雙語平行句對抽取方法研究.《中國優秀碩士學位論文全文資料庫信息科技輯》.2020,(第4期),第I138-580頁.
專利摘要
本發明涉及一種結合相似度和圖匹配的老‑漢雙語句子對齊方法,屬於自然語言處理和機器學習技術領域。本發明首先依據構建的老‑漢雙語詞典計算出寮語和漢語句子的相似度值,然後充分考慮雙語句子長度信息,計算出寮語和漢語句子長度比例值,綜合兩個值計算出寮語和漢語句子相似度值,使得老‑漢雙語句子相似度計算具有較高的可靠性,這樣就能在對齊過程中將相似度較高的寮語和漢語句子進行對齊,簡化句子對齊的流程。本發明能夠有效地從雙語語料庫中挖掘出平行句對,老‑漢雙語句子相似度的計算和二部圖的最佳匹配算法充分結合,能夠有效提高句子對齊的準確率,因此本發明具有一定的研究意義。