《文本挖掘的統計建模》是依託北京大學,由賈金柱擔任項目負責人的面上項目。
基本介紹
- 中文名:文本挖掘的統計建模
- 依託單位:北京大學
- 項目負責人:賈金柱
- 項目類別:面上項目
《文本挖掘的統計建模》是依託北京大學,由賈金柱擔任項目負責人的面上項目。
《文本挖掘的統計建模》是依託北京大學,由賈金柱擔任項目負責人的面上項目。項目摘要文本數據在我們的日常生活中處處可見,如新聞報導/評論,廣告信息,投訴熱線文本,商場/網站購買紀錄等等。文本數據是一個非常豐富而特殊的數據類型...
《DINFO‑OEC文本分析挖掘方法與設備》通過挖掘模型建模,分離業務和自然語言表達的多樣性,降低業務維護投入,提高系統的可維護性。通過基於概念的挖掘方法,提供較高準確率的分析挖掘結果。使用DINFO-OEC非結構化大數據分析挖掘設備,可大大提高分析挖掘的效果。附圖說明 圖1是DINFO-OEC非結構化文本大數據分析挖掘...
本書從算法原理和套用場景兩方面分別對線上文本分析技術進行了介紹:從算法原理的角度,以數據挖掘和機器學習的相關知識為基礎,介紹了以文本建模、文本分類、文本聚類、序列標註為主要任務的文本分析方法,並對當前主流的深度學習方法與文本分析的結合進行了討論。從套用場景的角度,討論了文本分析技術的幾個重要實踐領域...
《文本挖掘與信息檢索概論》是清華大學出版社於2022年出版的書籍,作者是蔡曉妍、楊黎斌、程塨、姚西文、姚超、韓軍偉 內容簡介 文本挖掘與信息檢索是近年來人工智慧領域的熱點研究方向。本書共8章,包括信息檢索概述、信息檢索模型、信息檢索的評價、文本分類技術、文本聚類技術、自動摘要技術、文本推薦技術和網頁連結分析...
第35章 遺傳回歸模型與統計回歸模型 第36章 數據重用:GenIQ模型的強大數據挖掘技術 第37章 數據挖掘技術——離群值的調整 第38章 過擬合的全新解決方案 第39章 回顧:為何校直數據如此重要 第40章 GenIQ模型的定義與套用 第41章 如何為行銷模型選擇最佳變數 第42章 解讀無係數模型 第43章 文本挖掘:...
《文本挖掘商務套用》是一本2021年出版的圖書,由科學出版社出版 內容簡介 文本信息是Web上一類非常重要的信息,裡面包含了大量的商業價值,對於洞察市場、識別創新機會、了解競爭對手、識別利益相關者、改進商品服務、了解消費者並與之價值共創,都具有重要意義。《文本挖掘商務套用》從商學院學生的角度出發,介紹文本知識...
周季蕾,周靜*,李季(2018),“IP劇”的社會化媒體行銷——基於文本挖掘與社會網路分析的研究,現代管理科學,2018第7期,99-102 周靜,周小宇,王漢生(2017),自我網路特徵對電信客戶流失的影響研究,管理科學, 第30卷第5期,28-37 周靜,沈俏蔚,塗平,王漢生(2017),原創還是轉發?基於社交媒體UGC的互動...
利用長k-tuple(k≥30),基於文本挖掘的信息聚類進行初步探索,發現長k-tuple獨有的優勢。 研究得到以下結論: ①基於2-10bp的tuple統計模型能較好地度量不同樣本間的差異程度。對微生物群落能反映外部環境對群落的影響梯度。 ②基於RNA-Seq高通量測序數據有效快速地驗證全基因組的註解信息,為註解信息的評估和完善...
四 情感類統計和關係分析 本章小結 第六章 基於情感本體的微博文本半結構化數據挖掘 引言 第一節 基於情感本體的微博產品評論分析 一 基於TFIDF產品特徵提取 二 基於BMI評價詞提取 三 微博文本影響力計算 四 產品特徵觀點與情感類型和強度 五 產品評論情感值計算 第二節 基於情感本體的微博公眾情感分析 一 相關...
有向圖模型Latent Dirichlet Allocation(LDA)是機率主題建模的經典方法,在文本挖掘、機器視覺和計算生物領域有廣泛的套用。本項目主要研究基於無向超圖(hypergraph)的新型主題模型和基於訊息傳遞的推斷算法,並套用於傳染病傳播機制的建模。擬研究的內容包括:(1)基於超圖的主題建模方法和推導針對大數據的主動訊息傳遞...
3.14 基於辭彙的統計學建模方法 83 3.15 本章小結 86 第4章 文本分類 88 4.1 文本分類的基本概念 88 4.2 文本分類的套用場景 89 4.2.1 文檔有用性判斷 89 4.2.2 口碑情感分析 90 4.2.3 負面信息識別 90 4.2.4 信息檢索 90 4.3 樸素貝葉斯模型 91 4.3.1 貝努利模型 91 4.3.2 多項式...
5.1.1標記的類型與回歸建模101 5.1.2訓練與測試102 5.1.3歸納、直推和演繹學習器102 5.1.4基本模型103 5.1.5分類器中與文本相關的挑戰103 5.2特徵選擇與特徵工程104 5.2.1基尼係數104 5.2.2條件熵105 5.2.3逐點互信息105 5.2.4緊密相關的度量方式106 5.2.5χ2-統計量106 5.2.6嵌入式...
指導老師獎:2022年第八屆全國大學生統計建模大賽湖北賽區研究生組三等獎:基於文本挖掘的廣播劇行業聽眾偏好量化測度。研究生:錢智勇,吳越,徐惠康。指導老師獎:2022年全國第三屆研究生工業與經濟金融大數據建模與計算大賽一等獎。研究生:盧柳陽,方千,嚴慧琳,王雨生。指導老師獎:2022年全國第三屆研究生工業與...
第三部分是農業眾籌效率研究,由第六章“農業眾籌描述文本說服研究”、第七章“農業眾籌評論文本情感干預研究”和第八章“農業眾籌披露平台管理研究”構成。雖然說服研究屬於傳統主題,然而農業眾籌說服機制仍不甚清楚。第六章基於紮根理論對農業眾籌項目描述說服風格建模,識別農業眾籌描述性文本說服“承諾激勵”“信號激勵...
第8章 時間序列和基於Web的數據挖掘 169 8.1 時間序列分析 169 8.1.1 概述 169 8.1.2 線性回歸分析解決時間序列問題 173 8.1.3 神經網路技術解決時間序列問題 175 8.2 基於Web的數據挖掘 176 8.2.1 概述 176 8.2.2 Web文本挖掘 178 8.2.3 Web使用挖掘 179 8.3 多模型分類技術 185 8.3.1 ...
國家自然科學基金面上項目, 文本挖掘的統計建模,主持。國家自然科學基金青年科學項目,稀疏方差分析與稀疏高維貝葉斯網路學習,主持。自然科學基金創新群體項目, 高逼真度試聽系統的理論與方法,參加。科技部重點研發計畫, 大氣污染對呼吸和心血管系統健康影響的早期識別技術,參加 代表性論文 1.Huizhuo Yuan, Jinzhu ...
TF-IDF(term frequency–inverse document frequency)是一種用於信息檢索與數據挖掘的常用加權技術。TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。簡介 TF-IDF是一種統計方法,用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的...
基於Eclipse的開源軟體。 CMapTools:美國佛羅里達大學開發的基於Java的本體編輯器。支持許多格式。 Transinsight:專門為文本挖掘本體(text mining ontologies)而設計的編輯器。 Be Informed Suite:用於構建基於大型本體的應用程式的商品化工具。其中,包括可視化編輯器、推理引擎以及標準格式導出功能。
第1章 文本挖掘概述 1.1 時代背景 1.2 文本挖掘與數據挖掘 第2章 文本預處理 2.1 自然語言處理 2.2 分詞技術 2.3 文本表示 第3章 文本分類 3.1 預測建模 3.2 決策樹分類 3.3 貝葉斯分類 3.4 支持向量機分類 3.5 實踐案例———垃圾簡訊識別 第4章 文本聚類和話題檢測 4.1 概述 4.2 基於...
(19) (主持)面向辭彙功能的學術文本語義識別與知識圖譜構建,國家自科基金面上項目(71473183)2015-2019 (18) (主持)基於語言模型的通用實體檢索建模及框架實現研究,國家自科基金面上項目(71173164/G031401 )2012-2015 (17) (團隊帶頭人)武漢大學首屆“70後學術團隊項目”-信息檢索方法與技術團隊,2010-2012 (16)...
本書以網際網路電商企業為背景,抽象出工作中常見的數據分析問題,利用R語言和統計學列出了詳細的解決方案和過程。本書共9章,前兩章分別為總論和R語言入門知識,之後各章分別介紹了運營指標的建立、指標監控系統、假設檢驗及AB測試、變數篩選技術、用戶畫像系統、尋找優質用戶和文本挖掘等內容。本書涉及到的統計方法有...
據統計,隨著信息化的推進,企業數據以每年約200%的速度增長,其中80%是檔案、郵件和圖片等非結構化的形式,如何有效地利用這些數據,轉化為對企業決策有用的信息,已經成為衡量企業競爭力的重要方面。文本挖掘技術有廣泛的套用領域 典型的文本挖掘任務包括文本的分類、聚類、詞條提取、情感分析、文檔摘要,以及詞條關聯...
15、《普通高中化學課程標準(2017年版)》的文本挖掘(核心,《化學教學》,2019.4,人大複印資料全文轉載)16、《中國STEM教育白皮書》的文本挖掘(核心,《基礎教育》,2019.6)17、社會性科學議題課堂教學模型與課堂評價工具評介(核心,《上海教育科研》,2019.11)18、國際社會性科學議題研究的熱點及啟示(核心,...
哈爾濱工業大學信息檢索研究中心(HIT-CIR) 成立於2000 年9月1日,隸屬於計算機科學與技術學院。信息檢索研究中心主任為劉挺教授,研究人員包括秦兵教授、張宇副教授、車萬翔講師/博士,信息檢索研究中心的研究方向包括文本檢索、文本挖掘、語言分析、跨語言檢索和跨媒體檢索五個方面。中心介紹 哈工大信息檢索研究中心 以...
首先運用網路爬行和半監督機器學習文本挖掘技術進行文獻挖掘和數據融合,採用基因組注釋方法構建初始的代謝網路模板,並採用模板映射方法將其他物種代謝通路映射到大豆物種上。進一步採用流量平衡分析方法和複雜網路理論構造和剖析代謝網路的數學模型,使得模擬的結果更準確。最後採用機器學習方法對所構建的代謝網路進行評估與修正...
本書共 9 章,前兩章分別為總論和 R 語言入門知識,之後各章分別介紹了運營指標的建立、指標監控系統、假設檢驗及 AB 測試、變數篩選技術、用戶畫像系統、尋找優質用戶和文本挖掘等內容。本書涉及到的統計方法有:指標增長幅度量化方法、層次分析法、時間序列模型、基於常態分配的一元離群點檢驗、傅立葉譜分析、...
第2章文本挖掘23 2.1文本挖掘的基本概念23 2.1.1文本挖掘的背景23 2.1.2文本挖掘的概念25目錄計算思維套用實例2.1.3文本挖掘的任務27 2.1.4文本挖掘需要研究的課題29 2.1.5文本挖掘系統的結構31 2.1.6文本挖掘套用概述33 2.2文本挖掘關鍵技術的套用37 2.2.1信息抽取技術套用37 2.2.2文本分類技術...
6、《數據挖掘中統計方法及套用》(課題)2004年獲第七屆全國統計科研優成果二等秀獎 7、《數據挖掘中的統計方法及實踐》(著作)2006年獲第八屆全國統計科研優秀成果二等獎 8、《高級計量經濟學導論》(教材)2010年獲第十屆全國統計科研優秀教材二等獎 9、“全國大學生統計建模”(指導教師)2011年獲得全國大學...
6.5文本屬性 6.51資訊理論 6.5.2自然語言建模 6.5.3文本相似度 6.6文檔預處理 6.6.1文本的辭彙分析 6.6.2去除禁用詞 6.6.3詞幹提取 6.6.4關鍵字選擇 6.6.5同義詞典 6.7組織文檔 6.7.1分燈體系法 6.7.2分眾分類法 6.8文本壓縮 6.8.1基本概念 6.8.2統計方法 6.8.3統計方法:建模 6...