大數據質量

大數據質量

《大數據質量》是2017年上海科學技術出版社出版的圖書,作者是蔡莉、朱揚勇。

基本介紹

  • 書名:大數據質量
  • 作者:蔡莉,朱揚勇
  • 出版社:上海科學技術出版社
  • 出版時間:2017年1月1日
  • ISBN:9787547833742
內容簡介,圖書目錄,作者簡介,

內容簡介

數據作為一種基礎性與戰略性資源得到了廣泛認可,數據服務成為很多組織和機構日常運營中必不可少的重要環節。當下,數據質量在理論越來越受到關注,不僅是制約數據產業發展的關鍵問題,也是大數據套用研究中繞不開的重大問題。《大數據質量》匯集了國內外數據質量研究的經典理論、技術和方法,以及新的前沿發展趨勢;首先介紹了傳統數據質量研究的各種代表性成果,並在此基礎上,分析大數據時代下數據質量面臨的挑戰,並詳細介紹基於大數據的數據質量相關技術的實現;最後,通過一個實際案例,提出一套完整的大數據質量解決方案。

圖書目錄

第1章理解數據質量1
●1.1數據質量問題2
1.1.1數據質量帶來的影響2
1.1.2影響數據質量的因素4
●1.2數據質量概述7
1.2.1數據質量定義7
1.2.2大數據時代數據質量面臨的挑戰8
●1.3數據質量與信息質量10
1.3.1從數據質量到信息質量的發展歷程11
1.3.2數據質量與信息質量的區別與聯繫12
參考文獻14第2章數據質量標準17
●2.1ISO 8000國際標準18
2.1.1ISO 8000的歷史與現狀18
2.1.2ISO/TS 8000100系列概述20
2.1.3ISO/TS 8000100主數據質量22
2.1.4ISO 22745: 2010概述24
●2.2地理信息質量標準ISO 1910028
2.2.1地理信息數據質量31
2.2.2地理信息數據質量評價33
●2.3統計數據質量標準35
2.3.1國際統計數據標準概述35
2.3.2IMF的數據公布通用標準(GDDS)36
2.3.3IMF的數據公布特殊標準(SDDS)38
●2.4科學數據質量標準39
2.4.1科學數據標準規範39
2.4.2科學數據質量框架43
參考文獻44第3章數據分類及數據模型47
●3.1數據類型及分類48
3.1.1數據類型48
3.1.2數據分類49
●3.2結構化數據模型51
3.2.1概念模型51
3.2.2邏輯模型53
●3.3半結構化和非結構化數據模型56
3.3.1XML語言57
3.3.2半結構化數據模型——數據和數據質量(D2Q)模型67
3.3.3非結構化數據模型——四面體模型71
參考文獻79第4章數據質量相關技術81
●4.1數據集成82
4.1.1數據倉庫的基本概念82
4.1.2數據倉庫的體系架構83
4.1.3數據倉庫的元數據87
●4.2數據剖析89
4.2.1數據剖析的方法89
4.2.2數據剖析實例92
●4.3數據清潔95
4.3.1數據清潔概述95
4.3.2“髒”數據的來源96
4.3.3數據清潔的原理與框架97
4.3.4數據清潔工具100
4.3.5大數據環境下的數據清潔102
●4.4數據溯源105
4.4.1數據溯源的基本概念105
4.4.2數據溯源的分類106
4.4.3數據溯源模型107
4.4.4數據溯源的方法109
4.4.5數據溯源的套用111
4.4.6大數據溯源111
參考文獻115第5章數據質量評估121
●5.1數據質量維度122
5.1.1數據質量維度定義122
5.1.2常用的數據質量維度123
5.1.3其他的數據質量維度126
5.1.4質量維度度量127
●5.2數據質量評估框架130
5.2.1DQAF框架131
5.2.2AIMQ框架133
5.2.3DQA框架136
●5.3數據質量評估方法137
5.3.1定性評估137
5.3.2定量評估138
5.3.3綜合評估140
●5.4數據質量評估案例——媒體信息可信度質量評估152
5.4.1背景概述152
5.4.2媒體信息可信度評價指標體系153
5.4.3媒體信息可信度的綜合評價模型154
5.4.4實驗過程及結果分析160
參考文獻163第6章數據質量管理167
●6.1質量管理168
6.1.1質量管理髮展歷程168
6.1.2全面質量管理170
●6.2數據質量管理概述171
6.2.1數據質量管理方法172
6.2.2數據質量知識庫管理173
6.2.3MIT全面數據質量管理175
●6.3數據質量管理團隊建設176
6.3.1任命首席數據官177
6.3.2建立數據質量管理團隊178
●6.4質量管理成熟度模型179
6.4.1信息質量管理成熟度模型180
6.4.2數據質量管理成熟度模型181
參考文獻184第7章位置大數據中的質量研究187
●7.1概述188
7.1.1位置大數據的來源188
7.1.2位置大數據的套用領域196
●7.2位置大數據面臨的質量問題198
7.2.1GPS軌跡數據的質量問題198
7.2.2簽到數據的質量問題199
7.2.3手機定位數據的質量問題200
7.2.4智慧型公交IC卡數據的質量問題201
7.2.5OSM地圖數據的質量問題202
●7.3位置大數據的質量評估模型203
7.3.1GPS軌跡數據的質量評估模型203
7.3.2簽到數據的質量評估模型205
7.3.3手機定位數據的質量評估模型206
7.3.4OSM地圖數據的質量評估模型207
7.3.5基於雲平台的位置大數據質量評估系統211
●7.4位置大數據質量控制214
7.4.1位置大數據清潔214
7.4.2位置大數據質量控制215
7.4.3OSM地圖數據質量保證217
參考文獻221

作者簡介

蔡莉,副教授,雲南大學軟體學院系主任,中國計算機學會西南網路與MIS專委會委員,昆明市儀器儀表學會理事。在軟體學院工作期間,主持國家自然科學基金、教育部、雲南省科技廳和教育廳等多項數據挖掘和數據質量的科研項目;同時,在國內外重要期刊和會議上發表40餘篇論文,多篇被SCI和EI檢索。出版教材2部,擁有3個軟體著作權,並獲得過多個教學成果獎勵。
朱揚勇,復旦大學教授、博士生導師,數據科學研究中心主任、上海市政府信息化專家委員會專家。致力於數據科學與技術、數據挖掘及其套用等領域。主持過國家自然科學基金、國家863項目、上海市科委重點等多項數據挖掘領域的研究課題。

相關詞條

熱門詞條

聯絡我們