《基於圖的統計機器翻譯方法研究》是依託北京航空航天大學,由巢文涵擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於圖的統計機器翻譯方法研究
- 依託單位:北京航空航天大學
- 項目負責人:巢文涵
- 項目類別:青年科學基金項目
- 批准號:61003111
- 申請代碼:F0211
- 負責人職稱:講師
- 研究期限:2011-01-01 至 2011-12-31
- 支持經費:7(萬元)
《基於圖的統計機器翻譯方法研究》是依託北京航空航天大學,由巢文涵擔任項目負責人的青年科學基金項目。
《基於圖的統計機器翻譯方法研究》是依託北京航空航天大學,由巢文涵擔任項目負責人的青年科學基金項目。項目摘要在統計機器翻譯中,除了語料庫的規模之外,如何充分利用語料庫至關重要。典型的機器翻譯方法,其基本假設是:語料庫中的句...
統計機器翻譯(英語:c,簡寫為SMT)是機器翻譯的一種,也是非限定領域機器翻譯中性能較佳的一種方法。統計機器翻譯的基本思想是通過對大量的平行語料進行統計分析,構建統計翻譯模型,進而使用此模型進行翻譯。從早期基於詞的機器翻譯已經過渡到基於短語的翻譯,並正在融合句法信息,以進一步提高翻譯的精確性。產品介紹 G...
《利用機器學習改進統計機器翻譯的研究》是依託清華大學,由劉洋擔任項目負責人的青年科學基金項目。項目摘要 目前,主流的統計機器翻譯方法面臨以下挑戰:翻譯模型難以表示和容納更豐富的與翻譯過程密切相關的知識,訓練算法從真實文本中獲取的翻譯規則數量巨大且質量良莠不齊,以及解碼算法難以在龐大的搜尋空間中高效準確地...
機器翻譯,又稱為自動翻譯,簡稱“機翻、機譯”,是利用計算機將一種自然語言(源語言)轉換為另一種自然語言(目標語言)的過程。它是計算語言學的一個分支,是人工智慧的終極目標之一,具有重要的科學研究價值。同時,機器翻譯又具有重要的實用價值。隨著經濟全球化及網際網路的飛速發展,機器翻譯技術在促進政治、經濟...
《基於深度句法的統計機器翻譯方法研究》是依託東北大學,由肖桐擔任項目負責人的面上項目。中文摘要 統計機器翻譯已經從基於詞的模型發展到基於短語和基於傳統句法的模型。雖然基於傳統句法表示的機器翻譯已經受到很多研究者的關注,但是直接沿用單語句法分析中的句法表示形式,並進行相應的建模已經進入了平台期。如何在機器...
《統計機器翻譯領域自適應關鍵技術研究》是依託哈爾濱工業大學,由曹海龍擔任項目負責人的面上項目。項目摘要 如何提高統計機器翻譯系統的領域自適應能力,是一個具有重大實用價值的科學研究問題。本項目針對人類語言的領域多樣性和動態變化等特點,將從三個主要方面對機器翻譯領域自適應問題展開深入研究。第一,從機器翻譯...
《基於辭彙語義的統計機器翻譯研究》是依託蘇州大學,由熊德意擔任項目負責人的青年科學基金項目。項目摘要 統計機器翻譯經歷了從基於單詞到基於短語和句法的三個不同階段,目前譯文中仍存在詞不達意,長距離語義約束錯誤翻譯等與語義相關的問題。本項目專注於辭彙語義知識,希望通過系統化地研究基於辭彙語義的統計機器翻譯...
本項目預期成果不僅可以為下一代統計句法機器翻譯奠定理論和技術基礎,同時也可以為未來基於深層語義結構信息的統計機器翻譯提供借鑑。結題摘要 本項目研究語言間的結構性差異,從句法級別和篇章級別研究雙語間的差異並對此建模,從而使統計機器翻譯模型更好地處理跨語言句法結構差異性和跨句子篇章結構信息的缺失問題。本...
《基於主題模型的樞軸語言統計機器翻譯研究》是依託廈門大學,由蘇勁松擔任項目負責人的青年科學基金項目。項目摘要 樞軸語言方法能夠克服統計機器翻譯缺乏雙語語料的困境,成為近年來機器翻譯研究和產業化的熱點之一。然而,由於語言的多樣性和稀疏性,目前的樞軸語言建模方法無法充分利用樞軸語言翻譯單元的上下文信息,對最終...
的的機器翻譯模型,以及將該模型在基於短語和基於句法的模型中的集成方法;2、在解碼方面,研究了樹到串句法翻譯規則在層次短語中的有效集成方法;3、在模型訓練方面,研究了基於損失函式強化的句法機器翻譯模型訓練框架;4、在機器翻譯和語言分析支撐平台構建方面,研發了NiuParser系統並升級了NiuTrans開源統計機器翻譯...
自然語言處理的相關研究始於人類對機器翻譯的探索。雖然自然語言處理涉及語音、語法、語義、語用等多維度的操作,但簡單而言,自然語言處理的基本任務是基於本體詞典、詞頻統計、上下文語義分析等方式對待處理語料進行分詞,形成以最小詞性為單位,且富含語義的詞項單元。自然語言處理( Natural Language Processing, NLP)是以...
《基於中心擴展對齊的漢-英統計機器翻譯研究》是依託哈爾濱理工大學,由張春祥擔任項目負責人的青年科學基金項目。項目摘要 本課題研究統計機器翻譯的知識獲取與解碼技術。提出了中心擴展的短語對齊方法,擺脫了漢、英之間語法異構性的制約。同時考慮源語言滿足句法約束和不滿足句法約束的短語翻譯對,以覆蓋更多的語言現象。...
《基於句子語義結構的統計機器翻譯研究》是依託蘇州大學,由李軍輝擔任項目負責人的青年科學基金項目。項目摘要 基於語義的統計機器翻譯(SMT)一直是研究者追求的目標。目前,主流SMT模型(例如短語模型、層次短語模型和樹模型)在翻譯過程中很少利用句子的語義信息。本項目將在前期研究的基礎上,重點研究基於句子語義結構的...
全書分三部分(總計11章),分別討論基礎知識、核心方法和前沿研究。全書首先簡要介紹語言學和機率論基礎知識,然後全面討論各種經典統計機器翻譯模型和系統實現方法,最後深入探討統計翻譯領域的最新進展和研究熱點。對核心方法的論述按照統計機器翻譯模型發展的過程逐步展開:基於詞的模型、基於短語的模型和基於句法樹的模型...
5.5結論127第6章基於深度學習的機器翻譯129 6.1引言129 6.2統計機器翻譯及其面對的挑戰130 6.2.1基本原理130 6.2.2統計機器翻譯所面對的挑戰133 6.3基於組件深度學習的機器翻譯134 6.3.1用於詞對齊的深度學習與基於深度學習的詞對齊134 6.3.2用於翻譯規則機率估計的深度學習137 6.3.3用於短語調序的深度...
隨著網際網路的誕生與興起,新世紀以來,人類所產生的語言文字數據量激增,統計方法因此得到充分套用。谷歌、百度、微軟等網際網路公司紛紛成立機器翻譯研究組,研發了基於網際網路大數據的機器翻譯系統,從而使機器翻譯真正走向實用。自2013年已以來,隨著深度學習在圖像、語音等方面的突破性進展,基於人工神經網路的機器翻譯( ...
機器翻譯是自然語言理解中的一個研究熱點,能有效地促進信息共享,具有廣泛的研究價值和套用前景。由於採用句子為翻譯單位孤立進行翻譯的統計機器翻譯(SMT)系統會導致譯文整體效果不佳,本項目從評測和篇章語義翻譯兩個層面重點開展了三方面工作:(1)構建了衡量文檔級自動評價方法的語料(即金標準),分析了篇章翻譯在...
基於短語的統計機器翻譯(phrase-based statistical machine translation)是2018年公布的計算機科學技術名詞。定義 統計機器翻譯策略之一。翻譯模型中充分考慮了短語及其譯文的統計特性,待譯句子首先被分解成組成短語(短語在這裡通常指任意詞串),再利用這些短語的譯文合成待譯句子的候選譯文並經由統計模型選取最佳譯文輸出...
目前的統計機器翻譯系統獲得同步結構通常需要兩個階段:首先從平行語料中獲得詞對齊信息,然後採用一些啟發式規則獲得可能的同步結構。這種相互獨立的分階段模式和啟發式方法缺乏統計理論依據,造成翻譯系統訓練過程和解碼過程的不一致性。本項目以同步短語樹結構的歸約機制研究為切入點,基於貝葉斯理論,探索翻譯系統的統一...
民族語言資源匱乏,目前統計機器學習為主的方法難以達到理想的翻譯性能,開展面向資源稀缺語言的、以機器翻譯為主的智慧型信息處理研究具有重要理論意義與價值。 本項目深入研究了藏語黏寫、句法功能、長句切分及維語詞綴詞幹切分等難題,開創性研究了藏語語義角色標註,並率先開展了藏語樹庫建設;提出了基於通用規範維語詞幹...
《互譯語言形態非對稱的統計機器翻譯模型構造方法研究》是依託中國科學院合肥物質科學研究院,由李淼擔任項目負責人的面上項目。項目摘要 在統計機器翻譯過程中,由於互譯語言(源語言與目標語言)形態結構不對稱,極易造成譯文錯誤。2005年以來,將語言學形態知識套用於統計機器翻譯的方法引起了國內外學者的廣泛關注,並...
8.1 機器翻譯概述 263 8.1.1 機器翻譯的發展歷程 264 8.1.2 機器翻譯的現狀與挑戰 265 8.2 基於統計的機器翻譯方法 266 8.2.1 任務定義與基本問題 266 8.2.2 IBM 模型Ⅰ 270 8.2.3 IBM 模型Ⅱ 274 8.2.4 IBM 模型Ⅲ 275 8.2.5 IBM 模型Ⅳ 276 8.2.6 IBM 模型Ⅴ 277 8.3 基於神經...