基於大規模語料庫的漢語詞語自動聚類研究

項目摘要

本項目以基於大規模語料庫的漢語字、詞的不同元數尤其是三元以上的同現機率統計為基礎，研究有關漢語詞語自動聚類關鍵技術，包括漢語構詞統計規律、基於上下文的詞語相似度的計算方法、面向大詞表的詞語自動聚類算法，進而構造一個基於類的統計語言模型。本項目的實施對人工智慧、自然語言處理等領域具有重要的科學意義和套用前景。

基於大規模語料庫的漢語詞語自動聚類研究

基本介紹

相關詞條

熱門詞條