《漢語文本數據挖掘的統計方法》是依託東北師範大學,由郭建華擔任項目負責人的數學天元基金項目。
基本介紹
- 中文名:漢語文本數據挖掘的統計方法
- 項目類別:數學天元基金項目
- 項目負責人:郭建華
- 依託單位:東北師範大學
- 批准號:10826110
- 申請代碼:A0403
- 負責人職稱:教授
- 研究期限:2009-01-01 至 2009-12-31
- 支持經費:10(萬元)
《漢語文本數據挖掘的統計方法》是依託東北師範大學,由郭建華擔任項目負責人的數學天元基金項目。
《漢語文本數據挖掘的統計方法》是依託東北師範大學,由郭建華擔任項目負責人的數學天元基金項目。項目摘要漢語文本的急劇增多使得其有效處理成為政界、管理學界面臨的一個極具挑戰性的問題。自2005年5月始,申請者與長春市政府市長...
文本數據挖掘是通過機器學習、自然語言處理和推理等相關技術或方法,理解、分析和挖掘文本的內 容,從而完成信息抽取、關係發現、熱點預測、文本分類和自動摘要等具體任務的信息處理技術。《文本數據挖掘(第2版)》主 要介紹與文本數據挖掘有關的基本概念、理論模型和實現算法,包括數據預處理、文本表示、文本分類、文本...
數據挖掘的對象可以是任何類型的數據源。可以是關係資料庫,此類包含結構化數據的數據源;也可以是數據倉庫、文本、多媒體數據、空間數據、時序數據、Web數據,此類包含半結構化數據甚至異構性數據的數據源。發現知識的方法可以是數字的、非數字的,也可以是歸納的。最終被發現的知識可以用於信息管理、查詢最佳化、決策支持...
《統計分析與數據挖掘技術》將統計理論與大數據挖掘技術融合起來,讓統計理論更好地服務於大數據時代,對統計理論在大數據時代下的可持續發展和研究做了嘗試。《統計分析與數據挖掘技術》可作為普通高等院校大數據相關專業本科生和研究生的參考教材,也可以作為數據統計分析與數據挖掘技術研究人員的自學教材。圖書目錄 第1篇...
第3章 數據挖掘技術 3.1 引言 3.2 數據挖掘的統計方法 3.2.1 點估計 3.2.2 基於匯總的模型 3.2.3 貝葉斯定理 3.2.4 假設檢驗 3.2.5 回歸和相關 3.3 相似性度量 3.4 決策樹 3.5 神經網路 3.5.1 激勵函式 3.6 遺傳算法 3.7 練習 3.8 參考文獻注釋 第2部分 核心課題 第4章 分類 4....
《試卷質量統計分析與數據挖掘原理、設計與實現》是2019年電子工業出版社出版的圖書,作者是劉通。內容簡介 本書介紹了網際網路環境下文本類型數據的分析方法,探討了當前主流的文本挖掘技術,以及這些技術在商業環境中的具體套用。本書從算法原理和套用場景兩方面分別對線上文本分析技術進行了介紹:從算法原理的角度,以數據...
《數據挖掘算法與套用(Python實現)》是清華大學出版社2020年出版圖書,作者孫家澤 王曙燕 內容簡介 本教材以數據挖掘的經典算法為主線,基礎部分講清楚數據挖掘的過程和經典算法:數據探索、數據預處理、分類與回歸、聚類分析、關聯規則挖掘、偏差檢測等。同時增加實現套用部分,在套用實現部分,以Python作為描述語言,以...
第一節什麼是數據挖掘 第二節基本數據挖掘任務 第三節數據挖掘的過程 第四節數據倉庫與OLAP技術概述 第五節數據挖掘技術的發展 第二章數據挖掘工具 第一節數據挖掘的統計方法 第二節聚類分析 第三節決策樹 第四節相關軟體 第三章呼叫中心中數據倉庫的構建 第一節數據倉庫構建的實施方法及步驟 第二節呼叫中心數據...
2.4.1 創建數據框 2.4.2 訪問數據框 2.5 如何用R的數組、列表組織數據 2.5.1 創建和訪問數組 2.5.2 創建和訪問列表 2.6 R數據對象的相互轉換 2.6.1 不同存儲類型之間的轉換 2.6.2 不同結構類型之間的轉換 2.7 如何將外部數據組織到R數據對象中 2.7.1 將文本數據組織到R對象中 2.7.2 將...
第2章 SPSS數據挖掘系統 17 2.1 數據挖掘概述 17 2.1.1 數據挖掘的含義 17 2.1.2 數據挖掘與OLAP 18 2.1.3 數據挖掘和統計學 18 2.1.4 數據挖掘的目的 19 2.1.5 數據挖掘套用 19 2.1.6 數據挖掘流程 19 2.2 成功的數據挖掘 20 2.2.1 CRISP-DM方法論 21 2.2.2 選擇...
第2章 R的數據組織 2.1 R的數據對象 2.2 創建和訪問R的數據對象 2.3 從文本檔案讀數據 2.4 外部數據的導入 2.5 R數據組織的其他問題 2.6 小 結 第3章 R的數據管理 3.1 數據合併 3.2 數據排序 3.3 缺失數據報告 3.4 變數計算 3.5 變數值的重編碼 3.6 數據篩選 3.7 數據保存 ...
第三章 數據挖掘統計方法綜述 第一節 數據挖掘基本問題界定 第二節 關聯挖掘統計方法綜述 第三節 聚類挖掘統計方法綜述 第四節 分類挖掘統計方法綜述 第五節 回歸挖掘統計方法綜述 第六節 本章小結 第四章 數據挖掘統計方法進一步研究 第一節 特徵描述統計方法研究 第二節 聚類挖掘距離函式和相似係數研究 第三節...
本書通過對漢語水平考試HSK[高等]口試積累的考生口語數據,以及實用漢語水平認定考試(簡稱“C.TEST”)口語面試10多年來保留的部分錄像實考數據進行整理和挖掘,嘗試利用計算機輔助技術來研究較大規模的真實語言表達文本,為後續的專題研究積累了數據資料。在此基礎上,主要運用話語分析、語言測試、第二語言習得等學科...
1.3.3 數據流的其他管理 19 1.3.4 從一個示例看Clementine的使用 21 第2章 Clementine數據的讀入 30 2.1 變數的類型 30 2.1.1 從數據挖掘角度看變數類型 30 2.1.2 從數據存儲角度看變數類型 31 2.2 讀入數據 31 2.2.1 讀自由格式的文本檔案 32 2.2.2 讀Excel電子表...
本書定位於統計分析和數據挖掘的學習者、實踐者和研究者,旨在使讀者理解統計分析原理,熟練操控R軟體,拓展數據套用,提升研究水平。圖書目錄 第1章 關於R 1.1 為什麼選擇R 1.2 如何學習R 1.3 R入門必備 1.4 小 結 第2章 R的數據組織 2.1 R的數據對象 2.2 創建和訪問R的數據對象 2.3 從文本檔案讀...
1.3.2 數據流的基本管理和執行17 1.3.3 數據流的其他管理19 1.3.4 從一個示例看Clementine的使用21 第2章 Clementine數據的讀入30 2.1 變數的類型30 2.1.1 從數據挖掘角度看變數類型30 2.1.2 從數據存儲角度看變數類型31 2.2 讀入數據31 2.2.1 讀自由格式的文本檔案32 2.2.2 ...
數據與練習5 137 第三部分 大數據基本處理方法 第6章 大數據分析基礎套用 140 6.1 大數據的概念 140 6.1.1 大數據的含義 140 6.1.2 大數據套用舉例 141 6.1.3 大數據分析方法 142 6.2 Python文本預處理 144 6.2.1 字元串的基本操作 144 6.2.2 字元串查詢與替換 146 6.3 網路...
(1)實例豐富,經典實用。本書作者為某跨國金融分析公司分析員,具有豐富的統計分析、數據挖掘方面研究經驗。(2)本書實例全部配有操作視頻,詳細的講解,此乃比同類SAS圖書一大優點,幫助讀者提高學習效率和工作效率。目 錄 第1章 數據挖掘概述 1 1.1 數據挖掘簡介 1 1.1.1 數據挖掘的含義 1 1.1.2 數據...
1.3.2 數據流的基本管理和執行 1.3.3 數據流的其他管理 1.3.4 從一個示例看Clementine的使用第2章 Clementine數據的讀入 2.1 變數的類型 2.1.1 從數據挖掘角度看變數類型 2.1.2 從數據存儲角度看變數類型 2.2 讀入數據 2.2.1 讀自由格式的文本檔案 2.2.2 讀Excel電子表格數據 2.2....
第6章多元統計133 6.1描述均值差異的兩樣例t-檢驗 方法133 6.2判斷總體差異的兩樣例 Z-檢驗134 6.3比例均勻性的測試135 6.4多元數據擬合情況的 卡方檢驗137 6.5方差分析138 R語言開發園地141 R參考文獻143 練習143 第7章數據建模準備145 7.1有監督學習與無監督學習145 7.2統計方法與數據挖掘方法146 7....
1.4.1 列表的特性和編輯方法 ……… 14 1.4.2 數據框的創建和基本操作 ……… 18 1.5 R數據檔案的載入和載出 ……… 20 1.5.1 結構化純文本檔案的讀取和輸出 ……… 21 1.5.2 其他檔案的讀取和輸出 ……… 23 1.6 向 R中安裝包 ……… 25 第 2章原始數據的探索與預處理 ……… 29 2...
《中文信息處理叢書:統計自然語言處理(第2版)》全面介紹了統計自然語言處理的基本概念、理論方法和最新研究進展,內容包括形式語言與自動機及其在自然語言處理中的套用、語言模型、隱馬爾可夫模型、語料庫技術、漢語自動分詞與詞性標註、句法分析、詞義消歧、篇章分析、統計機器翻譯、語音翻譯、文本分類、信息檢索與問答...
較為簡單的情況是數據源與數據倉庫使用相同的資料庫,此時可以使用關係型資料庫自帶的資料庫連線功能,這樣就可將數據倉庫伺服器與原系統連線起來,直接進行SQL查詢。另一種情況是當數據源於數據倉庫使用不同關係型資料庫時,就需要先將資料庫中的數據檔案導出成為指定格式的文本檔案或者其他格式的檔案類型,再將得到的...
7.漢語文本數據挖掘的統計方法,國家自然科學基金委員會,C級,2010-01—2010-12。8.漢語文本數據挖掘的統計方法,國家自然科學基金委員會,C級,2009-01—2009-12。科研項目列表(橫向課題):1.長春市市長公開電話項目, 項目經費88萬, 郭建華主持, 郝立柱負責軟體研發.2.哈爾濱市市長公開電話項目, 項目經費...
TF-IDF(term frequency–inverse document frequency)是一種用於信息檢索與數據挖掘的常用加權技術。TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。簡介 TF-IDF是一種統計方法,用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的...
9. 郭建華,郝立柱,趙顯,史寧中,蔡波,白志東,張寶學,陶劍,孔俊,馬文卿,朱文聖,馮國忠. 漢語文本數據挖掘示範. 吉林省科技廳(資助金額:20.0萬元). 執行時間:2010-04-01至2012-12-01.10. 史寧中,耿直,朱仲義,陶劍,張寶學,高巍,鄭術蓉,朱文聖. 套用統計方法研究. 國家自然科學基金委員會(資助金額:150萬元). ...
《學科術語本體構建》試圖借鑑面向字元語言的本體學習系統的功能組成和學習流程,來改變傳統的手工構建本體模式,將數理統計方法、機器學習模型、數據挖掘方法等引入面向漢語非結構化文本的本體學習研究中。筆者致力於釐清構成領域本體的各種元素,探討各本體元素的抽取方法和技術,構建一個具有一定普適性的領域本體學習系統...
完成“全球華語語料庫”網路版字詞檢索系統,完成“語料庫建庫統計一體化軟體”。3. 中文信息處理、信息檢索 從大規模分類語料庫中智慧型挖掘關鍵字及其主題度作為領域知識,完成了一個綜合自動標引系統,集成文本分類、主題詞標引和自動文摘功能。該系統已套用於機械工業研究院等多家機構。在輔助對外漢語教學中,如分領域...
《漢語句法分析的理論、方法的研究及其套用》 2004年7月 解國棟 博士 《統計口語解析方法研究》 2004年7月 陳克利 碩士 《大規模平衡語料庫的收集、分析及文本分類方法研究》 2004年7月 劉丁 碩士 《漢語詞與句子切分技術及機器翻譯評估方法研究》 2005年7月 胡日勒 博士 《口語翻譯知識自動獲取方法研究》 2005年...