內容簡介
本書圍繞股票大數據挖掘技術展開,主要介紹數據挖掘的方法及其在股票大數據上的實戰套用。在1~3章中首先介紹數據挖掘的基本概念、常用算法和工具、大數據炒股、股票時間序列、量化投資、股票數據的獲取等;在4~10章中,每一章根據股票挖掘的不同目標,介紹相關的數據挖掘算法,同時基於對基礎算法的優劣勢分析,提出適用於股票場內實盤交易全景數據分析的新方法,結合新方法在股票挖掘平台上的實現對股票的操作進行實戰解析。具體包括:分類方法及股票買賣點的判斷;相似/相關匹配方法及股票走勢的預測;動態時間規整相似股票判斷與投資組合;馬爾科夫模型與股票盤面強弱狀態的判斷;關聯規則與股票間的延時漲跌聯動;n-gram模型與股票的幅值組合關係;深度學習與循環滾動預測等。
圖書目錄
第1章數據挖掘基礎
1.1數據挖掘概述
1.1.1數據挖掘的過程
1.1.2數據挖掘的任務
1.1.3數據挖掘的套用
1.1.4數據挖掘的存在問題、未來發展和挑戰
1.2常用的數據挖掘算法
1.3數據挖掘工具
1.3.1MATLAB
1.3.2SAS
1.3.3SPSS
1.3.4WEKA
1.3.5R
1.3.6工具的比較與選擇
1.4數據挖掘與雲計算
1.5Mahout分散式框架
1.5.1Mahout簡介
1.5.2Mahout算法集
1.5.3Mahout系統架構
1.5.4Mahout的優缺點
第2章股票大數據挖掘
2.1股票大數據
2.1.1大數據概述
2.1.2大數據的處理
2.1.3大數據炒股
2.2股票預測
2.2.1預測基礎知識
2.2.2股票預測的結構
2.2.3股票預測技術
2.3量化投資
2.3.1什麼是量化投資
2.3.2量化投資的特點
2.3.3量化投資的方法
2.3.4量化投資選股模型
2.3.5多因子選股模型
2.3.6量化模型的建立
第3章股票數據的準備
3.1股票相關數據
3.2數據的獲取源
3.2.1從雅虎獲取歷史交易數據
3.2.2從騰訊獲取實時交易數據
3.2.3從新浪獲取交易數據
3.2.4從網易獲取成交明細數據
3.2.5從巨潮資訊獲取基礎數據
3.2.6多源獲取UGC數據
3.3數據獲取技術
3.3.1網路爬蟲技術
3.3.2HTML解析
3.3.3XML解析
3.3.4JSON解析
3.4數據預處理
3.4.1數據清理
3.4.2數據集成
3.4.3數據變換
3.4.4數據歸約
第4章分類方法與股票買賣點判斷
4.1分類概述
4.2樸素貝葉斯
4.2.1樸素貝葉斯分類算法的概念
4.2.2樸素貝葉斯分類器模型
4.2.3樸素貝葉斯分類器的優缺點
4.2.4樸素貝葉斯分類器的套用
4.2.5擴展的分類器
4.3決策樹
4.3.1決策樹方法介紹
4.3.2屬性選擇的度量方法
4.3.3剪枝技術
4.3.4常用的決策樹分類算法
4.3.5ID3算法
4.3.6C4.5算法
4.3.7CART算法
4.3.8SLIQ算法
4.3.9SPRINT算法
4.3.10PUBLIC算法
4.3.11算法比較
4.4支持向量機
4.4.1最優分類面
4.4.2廣義的最優分類面
4.4.3序列最小最最佳化算法
4.4.4核函式
4.4.5SVM參數最佳化問題
4.4.6SVM分類器
4.5評價指標
4.6基於SVM算法的股票買賣點判斷
4.6.1數據預處理
4.6.2買賣點定義
4.6.3買賣點判斷
第5章匹配方法與股票走勢的預測
5.1目標概述
5.2模式匹配
5.2.1模式匹配概述
5.2.2模式匹配的定義
5.2.3BF算法
5.2.4KMP算法
5.2.5BM算法
5.2.6BMH算法
5.2.7AC算法
5.2.8模式匹配算法總結
5.3常用的相似性度量方法
5.3.1基於距離的度量
5.3.2基於相似/相關的度量
5.3.3其他度量方式
5.4新方法: 相似走勢匹配在股票預測中的套用
5.4.1方法思想
5.4.2相似匹配的計算步驟
5.4.3基於最相似走勢的股票短期走勢預測方法
5.4.4基於多相似股票投票統計的近期漲跌預測方法
5.4.5基於近期預測漲跌幅及其一致性統計的股票推薦方法
5.4.6基於同匹配日期相似走勢的股票預測方法
5.4.7基於強匹配排序的股票趨勢分析與選股方法
5.4.8基於股票預測走勢進行分類和推薦的方法
5.5新方法: 自身歷史相關在股票預測中的套用
5.5.1基於自身歷史相關時間點的股票趨勢預測方法
5.5.2基於自相關排序的股票趨勢分析與選股方法
5.6新方法: 正負相關走勢在股票預測中的套用
5.6.1主要思想
5.6.2計算步驟
5.6.3方法步驟與創新特徵
5.6.4輸出結果示例
5.7新方法: 自定義模式匹配在股票預測中的套用
5.7.1主要思想
5.7.2計算步驟
5.7.3方法步驟與創新特徵
5.7.4輸出結果示例
5.8平台實戰解析: 搜尋相似歷史走勢以替代老司機經驗
第6章相似股票判斷與投資組合
6.1目標概述
6.2DTW動態時間規整算法
6.2.1匹配模式
6.2.2DTW算法原理
6.2.3DTW算法改進
6.3KNN算法
6.3.1KNN算法簡介
6.3.2k值的選擇
6.3.3KNN算法的改進
6.3.4KNN算法的實現
6.4相似股票的判斷和套用
6.4.1新方法: 用於輔助選股的股票分級活躍度計算方法
6.4.2新方法: 基於股票強相關分析的選股推薦方法
6.4.3平台實戰解析
第7章股票盤面強弱狀態的判斷
7.1目標概述
7.2馬爾可夫模型
7.2.1馬爾可夫模型概述
7.2.2馬爾可夫過程
7.2.3馬爾可夫鏈
7.2.4狀態轉移機率
7.2.5馬爾可夫鏈在天氣預報中的套用
7.2.6馬爾可夫鏈在人民幣匯率上的實證分析
7.3隱馬爾可夫模型
7.3.1隱馬爾可夫模型概述
7.3.2隱馬爾可夫的數學模型
7.3.3評估問題與前向算法
7.3.4解碼問題與Viterbi算法
7.3.5觀察序列最大機率問題與BaumWelch算法
7.3.6隱馬爾可夫模型在輸入法中的套用
7.4新方法: 基於狀態轉移的股票長期走勢預測與推薦方法
7.4.1主要思想
7.4.2計算步驟
7.4.3方法步驟與創新特徵
7.4.4平台實戰解析
第8章股票間的延時聯動漲跌規則
8.1目標概述
8.2貝葉斯
8.2.1貝葉斯公式
8.2.2貝葉斯推斷
8.2.3貝葉斯套用
8.3關聯規則挖掘
8.3.1基本概念和模型
8.3.2Apriori算法
8.3.3FPtree頻集算法
8.3.4關聯規則的套用
8.4關聯規則在股票預測中的套用
8.4.1新方法: 基於時態聯動挖掘的股票預測方法
8.4.2新方法: 基於股票間同現統計的股票推薦方法
8.4.3平台實戰解析
第9章股票漲跌的幅值組合關係
9.1目標概述
9.2ngram模型
9.2.1自然語言處理
9.2.2統計語言模型
9.2.3ngram模型簡介
9.2.4ngram模型的數據平滑
9.2.5ngram模型的解碼算法
9.2.6利用ngram糾正中文文本錯誤
9.3新方法: 個股漲跌的幅值組合關係挖掘
9.3.1基於類似n元語法統計的股票預測方法
9.3.2基於類似關聯規則統計的股票預測方法
9.3.3基於局部及全局語法統計的股票推薦方法
9.3.4用於股市運行邏輯理解的強關聯規則挖掘方法
9.3.5平台實戰解析
第10章股票的循環滾動預測方法
10.1目標概述
10.2回歸分析與股票預測
10.2.1回歸分析概述
10.2.2一元線性回歸模型
10.2.3多元線性回歸分析模型
10.2.4線性相關程度測定
10.2.5非線性回歸分析
10.2.6用回歸分析進行股票預測
10.3神經網路與股票預測
10.3.1神經網路的基本原理
10.3.2BP神經網路算法
10.3.3用BP神經網路進行股票預測
10.4深度學習與股票預測
10.4.1深度學習介紹
10.4.2深度學習的理論基礎
10.4.3典型的深度學習模型
10.4.4LSTM遞歸神經網路
10.4.5新方法: 用LSTM網路進行股票預測
參考文獻