實感互動:人工智慧下的人機互動技術

《實感互動:人工智慧下的人機互動技術》是2018年機械工業出版社出版的圖書。

基本介紹

  • 中文名:實感互動:人工智慧下的人機互動技術
  • 出版時間:2018年7月1日
  • 出版社:機械工業出版社
  • ISBN:9787111597827
內容簡介,圖書目錄,作者簡介,

內容簡介

過往的科幻現已成真,在人工智慧時代現在我們與計算機、手機和娛樂設備的互動正在經歷革命性的變化,基於觸摸、手勢、語音和視覺的自然人機互動正在逐漸替代使用鍵盤、滑鼠和遊戲手柄等的互動。顯示設備也從單純的顯示設備轉變為提供更具吸引力和沉浸式體驗的雙向互動設備。本書將深入講解基於觸摸、手勢、語音和視覺等自然人機互動領域的技術、套用和未來趨勢。
本書適合從事人機互動領域工作的研究、設計、開發人員,相關專業師生,以及人工智慧時代下對人機互動未來發展趨勢有濃厚興趣的人士閱讀。

圖書目錄

原書序
原書前言
第1章 互動式顯示的感知、理解與自然
人機界面1
 1.1 引言1
 1.2 人類感知和理解3
 1.3 人機界面技術7
  1.3.1 過往的輸入裝置7
  1.3.2 觸控式互動技術9
  1.3.3 聲控互動10
  1.3.4 視控互動12
  1.3.5 多模態互動15
 1.4 “真實”3D互動顯示探索17
 1.5 結語19
 參考文獻19
第2章 觸覺感知22
 2.1 引言22
 2.2 觸控技術簡介23
  2.2.1 觸控螢幕24
  2.2.2 按大小和套用對觸控技術進行分類25
  2.2.3 按材質和結構分類的觸控技術27
  2.2.4 按檢測物理量分類的觸控技術27
  2.2.5 按感知能力分類的觸控技術28
  2.2.6 觸控技術的未來29
 2.3 觸控技術的歷史29
 2.4 電容式觸控技術32
  2.4.1 投射電容式觸控技術(編號1) 32
  2.4.2 表面電容式觸控技術(編號2) 39
 2.5 電阻式觸控技術43
  2.5.1 模擬電阻式觸控技術(編號3) 43
  2.5.2 數字多點電阻式觸控技術(編號4) 48
  2.5.3 模擬多點電阻式觸控技術(編號5) 49
 2.6 聲波觸控技術51
  2.6.1 表面聲波觸控技術(編號6) 51
  2.6.2 聲學脈衝識別觸控技術(編號7) 53
  2.6.3 色散信號技術觸控技術(編號8) 56
 2.7 光學觸控技術57
  2.7.1 傳統紅外線觸控技術(編號9) 57
  2.7.2 多點觸控紅外技術(編號10) 61
  2.7.3 攝像光學觸控技術(編號11) 63
  2.7.4 玻璃光學觸控技術(平面散射檢測)(編號12) 68
  2.7.5 視覺光學觸控技術(編號13) 69
 2.8 嵌入式觸控技術72
  2.8.1 外嵌互電容式(編號14) 74
  2.8.2 混合互電容式(編號15) 74
  2.8.3 內嵌互電容式(編號16) 76
  2.8.4 內嵌式光感(編號17) 77
 2.9 其他觸控技術79
  2.9.1 壓力感測(編號18) 79
  2.9.2 組合觸控技術81
 2.10 結語82
 2.11 附錄82
 參考文獻83
第3章 用戶界面中的聲控式互動技術88
 3.1 引言88
 3.2 語音識別91
  3.2.1 語言的本質91
  3.2.2 聲學模型和前端模式92
  3.2.3 使語音對齊隱馬爾科夫模型(HMM)的過程93
  3.2.4 語言模型93
  3.2.5 探索:以每秒1000個單詞完成填字遊戲95
  3.2.6 訓練聲學和語言模型96
  3.2.7 為特定說話人識別系統調整發聲和語音模型96
  3.2.8 “標準”系統外的其他系統97
  3.2.9 性能98
 3.3 語音識別的深度神經網路98
 3.4 硬體最佳化100
  3.4.1 低電量喚醒運算101
  3.4.2 特定運算的硬體最佳化101
 3.5 穩健語音識別的信號強化技術102
  3.5.1 穩健語音識別102
  3.5.2 單通道噪聲抑制102
  3.5.3 多通道噪聲抑制104
  3.5.4 噪聲消除104
  3.5.5 回音消除104
  3.5.6 波束形成105
 3.6 聲音生物計量106
  3.6.1 引言106
  3.6.2 聲音生物計量面臨的挑戰106
  3.6.3 聲音生物計量的新研究領域107
 3.7 語音合成107
 3.8 自然語言理解110
  3.8.1 混合主導對話111
  3.8.2 預設和填值技術的局限113
 3.9 多輪對話管理116
 3.10 規劃和推理119
  3.10.1 技術挑戰119
  3.10.2 語義分析和語篇表達120
  3.10.3 語用學121
  3.10.4 對話管理協作122
  3.10.5 規劃和再規劃122
  3.10.6 知識呈現與推理123
  3.10.7 監控123
  3.10.8 推薦閱讀文獻124
 3.11 問題解答124
  3.11.1 問題分析125
  3.11.2 尋找相關信息125
  3.11.3 解答與依據126
  3.11.4 呈現答案126
 3.12 分散式語音互動架構126
  3.12.1 分散式用戶界面127
  3.12.2 分布的語音及語言技術128
 3.13 結語129
 參考文獻130
第4章 視覺感測與肢體動作互動技術136
 4.1 引言136
 4.2 圖像技術:2D和3D 137
 4.3 姿勢互動140
 4.4 結語146
 參考文獻147
第5章 實時3D感測與結構光技術149
 5.1 引言149
 5.2 結構化圖案彙編150
  5.2.1 2D偽隨機彙編151
  5.2.2 二進制結構化彙編152
  5.2.3 多進制彙編153
  5.2.4 連續正弦相位彙編154
 5.3 結構光系統校準157
 5.4 數字條紋投射(DFP)技術下的3D感測示例160
 5.5 實時3D感測技術162
  5.5.1 數字光處理(DLP)技術的原理162
  5.5.2 實時3D數據採集164
  5.5.3 實時3D數據處理與可視化165
  5.5.4 實時3D感測實例166
 5.6 人機互動套用的實時3D感測166
  5.6.1 實時3D面部表情捕捉及其人機互動的意義167
  5.6.2 實時3D身體部分姿勢捕捉及其人機互動的意義167
  5.6.3 人機互動意義的總結168
 5.7 最新發展169
  5.7.1 實時3D感測與自然2D彩色紋理捕捉169
  5.7.2 超高速3D感測171
 5.8 結語173
 參考文獻173
第6章 實時立體3D成像技術178
 6.1 引言178
 6.2 背景179
 6.3 立體匹配算法的結構181
  6.3.1 匹配成本計算182
  6.3.2 匹配成本聚合183
 6.4 特徵分類184
  6.4.1 深度估計密度184
  6.4.2 最佳化策略185
 6.5 實施平台的分類186
  6.5.1 僅用CPU的方法187
  6.5.2 GPU提速的方法187
  6.5.3 硬體執行(FPGA,ASIC) 188
 6.6 結語190
 參考文獻190
第7章 飛行時間法3D成像技術194
 7.1 引言194
 7.2 飛行時間法3D感測194
 7.3 脈衝飛行時間法196
 7.4 持續飛行時間法196
 7.5 計算方法197
 7.6 精度199
 7.7 局限性與改進200
  7.7.1 時差測距的挑戰200
  7.7.2 理論局限200
  7.7.3 距離混疊201
  7.7.4 多徑與散射202
  7.7.5 功率分配與最佳化202
 7.8 飛行時間法攝像組件203
 7.9 標準值203
  7.9.1 光的功率範圍203
  7.9.2 背景光205
 7.10 技術發展最新水平206
 7.11 結語207
 參考文獻207
第8章 凝視跟蹤208
 8.1 引言和研究動機208
 8.2 眼睛210
 8.3 眼動儀212
  8.3.1 眼動儀的種類212
  8.3.2 角膜反射法214
 8.4 反對和障礙216
  8.4.1 人為方面216
  8.4.2 室外套用217
  8.4.3 校準217
  8.4.4 精度217
  8.4.5 點石成金(MidasTouch)問題218
 8.5 凝視互動研究218
 8.6 凝視指向219
  8.6.1 解決點石成金問題219
  8.6.2 精度問題的對策220
  8.6.3 滑鼠指向和凝視指向對比221
  8.6.4 滑鼠和凝視協調222
  8.6.5 凝視指向反饋224
 8.7 凝視姿勢224
  8.7.1 凝視姿勢的概念224
  8.7.2 姿勢檢測算法225
  8.7.3 執行凝視姿勢的人類能力226
  8.7.4 凝視姿勢字母表226
  8.7.5 姿勢從自然眼動中分離227
  8.7.6 凝視姿勢的套用228
 8.8 作為情境的凝視229
  8.8.1 活動識別229
  8.8.2 閱讀檢測231
  8.8.3 注意力檢測232
  8.8.4 套用凝視情境233
 8.9 展望233
 參考文獻234
第9章 感知用戶界面的多模態輸入237
 9.1 引言237
 9.2 多模態互動類型237
 9.3 多模態界面238
  9.3.1 觸控輸入238
  9.3.2 3D姿勢245
  9.3.3 眼動跟蹤和凝視249
  9.3.4 面部表情250
  9.3.5 腦機接口251
 9.4 多模態集成策略252
  9.4.1 框架式集成253
  9.4.2 合併式集成254
  9.4.3 程式性集成254
  9.4.4 符號/統計集成254
 9.5 多模態互動的可用性問題255
 9.6 結語256
 參考文獻257
第10章 生物計量學中的多模態互動:技術與可用性挑戰262
 10.1 引言262
  10.1.1 身份確認動機262
  10.1.2 生物計量學263
  10.1.3 多模態生物計量學的套用特徵263
  10.1.4 2D和3D人臉識別264
  10.1.5 多模態案例研究266
  10.1.6 適應於盲人對象267
  10.1.7 本章結構268
 10.2 對移動生物計量平台的套用剖析268
  10.2.1 面部分析268
  10.2.2 語音分析271
  10.2.3 模型適應272
  10.2.4 數據融合273
  10.2.5 移動平台實施274
  10.2.6 MoBio資料庫和協定275
 10.3 案例研究:為視覺缺陷者進行可用性研究276
  10.3.1 頭部姿勢變化對性能的影響276
  10.3.2 用戶互動模組:頭部姿勢質量評估278
  10.3.3 用戶-互動模組:音頻反饋機制280
  10.3.4 視覺缺陷者的可用性測試282
 10.4 討論與結語284
 參考文獻285
第11章 邁向“真實的”3D互動顯示器287
 11.1 引言287
 11.2 生物視覺的起源289
 11.3 光場成像294
 11.4 邁向“真實的”3D視覺顯示300
 11.5 與3D顯示屏上的視覺內容互動308
 11.6 結語310
 參考文獻311
附錄 縮略語313

作者簡介

Achintya K.Bhowmik博士曾是英特爾公司大商業部門——PC部分的負責人,現為英特爾公司感知運算部門技術總監,他負責領導研發基於自然人機互動技術和視覺計算技術的下一代解決方案。這些技術包括視覺感知、語音識別、生物感測、沉浸式顯示、多模態用戶界面與套用等。
Achintya K.Bhowmik博士出版和發表過多本著作與多篇論文,獲得過27項授權專利,他是IEEE的高級成員,同時也在加利福尼亞大學聖克魯茲分校教授移動感測和計算機視覺課程。

相關詞條

熱門詞條

聯絡我們