TML(Text Mining Language)是一種通用的文本挖掘程式語言, 旨在提供一種簡單通用的途徑,讓用戶能夠對文本中的各種語義目標進行分析和計算。 我們為此設計了這個語言的語法、編譯器、虛擬機和圖形化開發與調試環境,使用戶可以針對任何套用領域輕鬆地進行編程以制定文本挖掘的分析目標、分析範圍和分析手段, 用戶代碼進而會被編譯成位元組碼在虛擬機內高效執行。
基本介紹
- 中文名:TML 一種文本挖掘語言
- 外文名:Text Mining Language
- 作者:孟濤
報告簡介:
TML(Text Mining Language)是一種通用的文本挖掘程式語言, 旨在提供一種簡單通用的途徑,讓用戶能夠對文本中的各種語義目標進行分析和計算。 我們為此設計了這個語言的語法、編譯器、虛擬機和圖形化開發與調試環境,使用戶可以針對任何套用領域輕鬆地進行編程以制定文本挖掘的分析目標、分析範圍和分析手段, 用戶代碼進而會被編譯成位元組碼在虛擬機內高效執行。TML高效地實現了大量實用文本分析技術,包括網路爬蟲、文本抽取、分詞、詞性標註、命名實體抽取、文本分類、情感分析、概念與關係抽取等。這些技術以計算符號和保留詞的形式體現在TML語法中。為了提高TML代碼的運行效率, 我們攻克了位元組碼並發執行和數據分析流水線等技術難題。TML的實現語言為C; 並具有跨平台特性,支持Windows、Linux和MacOS等主流作業系統; TML虛擬機能基於Hadoop等常見分散式存儲系統運行,並能夠以庫、可執行程式、客戶端API(C/Python/Java)等不同形式被調用。
報告人簡介:
孟濤博士,主要從事雲存儲與P2P計算, 文本挖掘與搜尋等領域的技術和產品研發工作。 孟濤於1998年進入北京大學計算機系學習, 2007年在網路所獲得博士學位, 其中於2000年7月至2007年7月間在李曉明教授”天網”課題組從事網頁搜尋技術的研究與開發。孟濤曾在美國Teragram Corporation及SAS Institute任Technical Architect, 從事多語言自然語言處理和文本情感分析等技術研發; 在歸國後曾擔任中科院計算所助理研究員, 從事網路輿情系統相關的技術研發。