人物簡歷
李紀為是90後,本科畢業於北京大學,隨後進入
美國康奈爾大學生物醫學工程系攻讀研究生,之後“半路出家”研究AI,曾在
卡內基梅隆大學自然語言處理組Prof.Eduard Hovy課題組從事情感分析、語義分析等研究工作,博士就讀於史丹福大學計算機學院語言處理組Prof. DanJurafsky課題組從事段落分析、機器翻譯、人工對話生成等研究工作。
主要成就
從生物學轉向全新的人工智慧領域幾乎意味著一切要從頭開始,要獲得史丹福大學計算機學科博士學位,平均年限為5-6年。李紀為創下了一個記錄:3年拿到該學科博士學位,成為該校該專業歷史上用時最短的人。
這期間,他先後在ACL、EMNLP、ICLR等國際頂級會議發表20餘篇論文,是自然語言處理、深度學習領域文章被引用量最高的博士生之一。此外,在劍橋大學學者Marek Rei發布的自然語言處理 2012-2016 年頂級會議作者統計中,李紀為以14 篇頂級會議論文第一作者的數據排名第一。,李紀為已在ACL,EMNLP,ICLR,WWW等國際頂級會議、頂級期刊上,以第一作者身份發表30篇論文。是頂級會議論文第一作者數量排名第一的學者。
2017年12月,李紀為選擇回國創業,與兩名大學同學共同創立了AI 創業公司香儂科技,專注於利用NLP技術提取、分析信息。在斯坦福華人留學生圈子裡,極少有人選擇博士畢業後直接回國,他的決定在當時不啻為“異類”。他坦言這是身為中國人的“家國情懷”,而更深的驅動力則來自國內開放的大環境以及近年來人工智慧領域的飛速發展。公司已經從最初的兩個人發展到如今的團隊,而其中80%以上都是畢業於麻省理工、斯坦福等名校的海歸。
提出Glyce模型,打破13項近乎所有中文自然語言理解(NLP)的世界紀錄,這是中國團隊在計算機理解中文方面取得的一項重要進步。中文是象形文字,字形本身蘊含豐富的語義信息。然而當今中文自然語言處理的方法一般借鑑於西方,主要機制多針對羅馬字母,並不是適合中文象形文字。Glyce模型運用不同歷史時期的中文象形,從周商時期的金文、漢代的隸書、魏晉時期的篆書、南北朝時期的魏碑,以及繁體、簡體中文,還本溯源,將漫長歷史中豐富的中文演變,抽象成機器可以理解的符號,讓機器更好地理解中文語言。 此外,還提出基於中文上下文語義的漢字
光學字元識別(OCR)模型、可替代中文分詞的字級別中文
神經網路模型等。
李紀為博士是最早一批將深度學習(特別是強化深度學習)套用到自然語言處理中的對話系統的探索者之一。提出的基於神經網路的互信息對話模型,顯著地提高了生成式對話系統質量。基於李紀為博士的工作,對話系統中的多輪對話、個性化回答等挑戰得到了一定程度的解決。此外,李紀為博士提出的強化學習、對抗學習對話模型,以及人物個性化對話系統工作,都在學術界、工業界得到了廣泛的套用。包括微軟、谷歌等公司都曾基於其工作發展新的套用。
李紀為提出的用強化學習訓練對話神經網路的方法,展示了強化深度學習可以幫助提高對話系統的對話輪數,以及對話中的詞語多樣性。另外,深度強化學習還可以讓兩個BOT相互對話以產生大量的訓練數據,這可在實際套用中幫助解決一部分數據缺失的問題。
李紀為博士發表的論文包括,“A Diversity-Promoting Objective Function for Neural Conversation Models”,該工作探討了在對話生成任務中的主流模型Seq2Seq減少這種廢話生成的可能性,顯著地提高了生成式對話系統質量。以及“Deep Reinforcement Learning for Dialogue Generation”,則更深入探討了對話系統的上述問題。
李紀為是史丹福大學計算機專業用時最短的博士學位獲得者。
李紀為先後在北京大學、康奈爾大學研習生物學,研究AI實屬“半路出家”。
李紀為2017年12月,成立AI金融公司香儂科技。
主要榮譽
2020年,入選 MIT Technology Review 全球“35歲以下科技創新35人”。
2019年,入選麻省理工“35歲以下科技創新35人”。
2019年,入選財富“40位40歲以下商界精英榜”。
2019年,入選億歐“中國海歸科技創業者100人榜”。
2019年,當選“中國青年科技創業者30人”。
2018年,入選
福布斯中國“30位30歲以下精英榜”。
智源人工智慧研究院青年科學家。
史丹福大學計算機學院歷史上用時最短的博士學位獲得者。
頂級會議論文第一作者數量排名第一。
自然語言處理、深度學習領域文章被引用量最高的博士生之一。
2020年12月11日,擬表彰為第九批“北京市優秀青年人才”。
2022年4月28日,入選AI華人青年學者榜單。
2022年,入選《2022福布斯中國·青年海歸菁英·影響力29人》。
發表作品
A Diversity-Promoting Objective Function for Neural Conversation Models.NAACL 2016.
Adversarial Learning for Neural Dialogue Generation.EMNLP 2017.
A Hierarchical Neural Autoencoder for Paragraphs and Documents.ACL 2015.
A Model of Coherence Based on Distributed Sentence Representation.EMNLP 2014.
A Novel Feature-based Bayesian Model for Query Focused Multi-document Summarization.TACL 2013.
A Persona-Based Neural Conversation Model.ACL 2016.
A Unified MRC Framework for Named Entity Recognition.ACL 2020.
Coreference Resolution as Query-based Span Prediction .ACL 2020.
Deep Reinforcement Learning for Dialogue Generation.EMNLP 2016.
Description Based Text Classification with Reinforcement Learning.ICML 2020.
Dice Loss for Data-imbalanced NLP Tasks.ACL 2020.
Dialogue Learning With Human-In-The-Loop.ICLR 2017.
Do Multi-Sense Embeddings Improve Natural Language Understanding?EMNLP 2015.
Entity-Relation Extraction as Multi-Turn Question Answering.ACL 2019.
Evolutionary Hierarchical Dirichlet Process for Timeline Summarization.ACL 2013.
Glyce: Glyph-vectors for Chinese Character Representation.NIPS 2019.
Is Word Segmentation Necessary for Deep Learning of Chinese Representations?ACL 2019.
Identifying Manipulated Offerings on Review Portals.EMNLP 2013.
Learning through Dialogue Interactions by Asking Questions.ICLR 2017.
Major Life Event Extraction from Twitter based on Congratulations/Condolences Speech Acts.EMNLP 2014.
Neural Net Models for Open-Domain Discourse Coherence.EMNLP 2017.
Recursive Deep Models for Discourse Parsing.EMNLP 2014.
SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection. NIPS 2020.
Sentiment Analysis on the People’s Daily.EMNLP 2014.
TopicSpam: a Topic-Model-Based Approach for Spam Detection.ACL 2013.
Towards a General Rule for Identifying Deceptive Opinion Spam.ACL 2014.
Timeline Generation: Tracking individuals on Twitter.WWW 2014.
Update Summarization Using a Multi-level Hierarchical Dirichlet Process Model.COLING 2012.
Visualizing and Understanding Neural Models in NLP.NAACL 2016.
What a Nasty day: Exploring Mood-Weather Relationship from Twitter.CIKM 2014.
When Are Tree Structures Necessary for Deep Learning of Representations?EMNLP 2015.
Weakly Supervised User Profile Extraction from Twitter.ACL 2014.