資料庫
資料庫是指長期存儲在
計算機內有
組織的、可共享的數據集合。資料庫中的
數據按一定的數據模型組織、描述和存儲,具有較小的冗餘度、較高的數據獨立性和易擴展性,並可為各種用戶共享。醫學資料庫是指醫療機構對各種醫療數據的積累貯存系統。醫療資料庫紀錄著個人基本數據及病歷數據,具有極高的研究價值,可作為公共衛生與臨床研究的素材,對整個社會有許多正面的貢獻。由於醫療資料庫紀錄著個人基本數據及病歷數據, 數據敏感度高,若資料庫外泄,因個人隱私受侵犯所帶來的損失也會提高。
基本結構
醫學資料庫即醫療資料庫,基本結構分三個層次,反映了觀察資料庫的三種不同角度。
以
內模式為
框架所組成的資料庫叫做物理資料庫;以
概念模式為框架所組成的數據叫概念資料庫;以
外模式為框架所組成的資料庫叫用戶資料庫。
它是資料庫的最內層,是物理存貯設備上實際存儲的數據的集合。這些數據是
原始數據,是用戶加工的對象,由內部模式描述的
指令操作處理的位串、字元和字組成。
它是資料庫的中間一層,是資料庫的整體
邏輯表示。指出了每個數據的邏輯定義及數據間的邏輯聯繫,是存貯記錄的集合。它所涉及的是資料庫所有對象的邏輯關係,而不是它們的物理情況,是
資料庫管理員概念下的資料庫。
它是用戶所看到和使用的資料庫,表示了一個或一些特定用戶使用的數據集合,即
邏輯記錄的集合。
數據保護方法
從技術角度而言,大數據的隱私保護主要還是依賴於傳統數據隱私保護的一些密碼學技術,而醫療數據因為其特殊性對隱私保護技術的要求也有別與其它的系統。針對這些主要將需要保護的內容聚焦於以下幾點,並結合目前已有的技術手段,進行討論:
隱私匿名
在患者診療檔案中,往往會以患者的姓名、身份證號碼等作為患者的唯一標識,但是這些信息本身就應該是隱私保護的內容,所以需要在不影響信息準性的前提情況下對這些信息進行匿名保護。童雲海等提出了一種隱私保護數據發布中身份保持的匿名方法,在數據發布中先刪除身份標識準備,然後對準標識數據進行處理,在保持隱私的同時進一步提高了信息有效性,並採用概化和有損連線兩種實現方式。可以看出標識匿名隱私保護,主要都是採取在保證數據有效性的前提下損失一些數據屬性,來保證數據的安全性,目前大部分的技術均採用了這種方式。但是在目前患者電子診療信息互動的過程中,信息的損失可能會影響正常流程的運行。在很難同時兼顧可用性與安全性的前提下,需要一種針對醫院及區域性平台運作特點的算法,來找到可用與安全的折中點。
分級保護
以一份完整的診療檔案為例,其構成應當包含了各種信息,如患者基本信息、診斷信息、醫囑信息、檢驗檢查信息、藥品信息、收費信息、主治醫生信息等等。這些信息在隱私保護中都有著不同的權重,如果一概而論對所有信息都採用高級別的保護手段,會影響實際運作的效率,同時也是對資源的浪費。但如果只對核心信息進行保護,也會造成隱形泄露的問題。如只對檢驗報告進行保護,那么檢驗數據的泄露可以也容易的推導出檢驗報告的結果。所以需要建立一套數據的分級制度,對於不同級別的信息採用不同的保護措施,但由於涉及不同的系統和運作方式,制定一套完善分級制度有相當的難度,同時還涉及到了以下的訪問許可權的控制。
隱私保護
醫療系統中隱私保護的難點還在於參與的人員節點多,導致了潛在的泄露點也多。訪問控制技術可以對不同的人員設定不同的許可權來限制其訪問的內容,這其實就包括了數據分級的問題。如財務部門的人員應該只能訪問相關的收費信息而不能訪問醫生的診斷信息。而目前大部分的訪問控制技術均是基於角色的訪問控制,更夠很好的控制角色能夠訪問的內容以及其相應的操作。但是規則的設定與許可權的分級的實現手段比較複雜,無法通過統一的規則設定來進行統一的授權,許多情況下需要對角色的特殊情況進行單獨設定,也不便與進行整體的管理和調整。需要對規則引進行進一步的研究在適應醫療領域實際套用的需要。
通過以上對於不同問題不同技術手段的分析可以看出,在醫療大數據領域技術手段還不能很好的滿足實際套用的需求。同時需要建立一套適用於醫療大數據領域的完整隱私保護體系,在醫療數據的存儲環節、訪問環節、套用環節等形成系統性的保護。而在構建隱私保護體系時,除了相關技術,更套用完善制度保障。
已存案例
國際生物醫學文獻文摘資料庫(Medline):該資料庫由美國國家醫學圖書館編輯,收錄了1966年至今收錄的全球3700多種重要國際醫學期刊近 1000萬篇文獻摘要,全面準確地反映了當代國際生物醫學水平,在全球醫學界有著重要影響,幾乎所有醫藥科研單位、醫院,大專院校圖書館都有收藏, 是醫學界較權威的資料庫。該資料庫專業水平較高, 採用國際流行的檢索方式檢索,雖然文獻多,信息 量大,但依然檢索快,是國內醫學界了解國際醫學 水平的主要視窗之一。
Lippincott Williams & Wilkins電子期刊全文資料庫(LWW): 該資料庫的提供者是世界享有盛譽的醫學文獻出版商,該公司出版的期刊大多為醫 學核心期刊,其臨床醫學及護理學期刊尤為特出。 該資料庫收錄了235種醫學期刊,其中154種為核 心刊(90%為英、美核心刊),約150種刊被ISI收錄, 且影響因子較高。回溯期至1993年。
國際醫學期刊全文資料庫:該資料庫收錄了 1994年以來國際上著名的醫學刊物355餘種全文,涉及醫學各個學科,大部分是國際醫學學會各個分 會的年鑑、年報刊物,能比較全面地概括了國際生 物醫學界的研究動態,及時準確地反映國際醫學研 究的水平,是國內醫學界了解國外醫學水平的主要 信息源。所有文獻均是英文,並附帶有圖像、數據 和表格。
臨床醫學事實資料庫(micro medex):該資料庫提供實時且正確的藥物信息、疾病信息、毒物信 息、傳統醫學信息,以及對患者的衛生教育信息等, 廣受全球90多個國家,9000多個醫療組織機構醫療 人員的信賴。
OVID醫學全文期刊資料庫(journals@ovid full Text): 該資料庫由世界知名的醫學資料庫提供商——美國OVID TeChnologieS公司提供。OVID公司目前提供MEDLINE等二次文獻資料庫,並可連結其自身擁有的和多家出版社的全文電子期刊: 60多個出版商出版的生物醫學電子期刊1000餘種, 其中回溯年份可至1993年,被SCI收錄的期刊超過 300種; 近40個出版商出版發行的160多種以臨床醫學為主的電子圖書。OVID的Journals@ovid資料庫目前共有1000種醫學電子期刊全文,分為4個醫 學核心期刊專集、2個護理專集、1個精神衛生專集、1 個心臟病學專集及 Lippincott Williams & Wilkins(LWW)出版商的209種醫學期刊專集。
PubMed資料庫: 該資料庫是美國國家醫學圖書館(NLM)所屬的國家生物技術信息中心(NCBI)開發的Internet生物醫學信息檢索系統,位於美國國立衛生研究院(NIH)的平台上。該資料庫可以在MEDLINE和Pre-MEDLINE的900萬條文獻中進行檢索。
荷蘭醫學文摘資料庫(EMBase): 該資料庫是由國際著名出版公司Elsevier Science編輯出版的大型生物醫學及藥學文獻書目資料庫。EMBase收錄 了1980年以來世界70多個國家(以歐美為主)出版的 5000多種期刊的醫藥文獻題錄和文摘,其中,藥物 信息的比重較大。累計文獻量達610萬篇,並以每年42萬篇的速度遞增,65%以上的文獻有英文摘要。 該庫報導文獻的速度較快,涉及的主要學科領域有: 生物學、藥學、醫學及心理學等。資料庫更新周期為月更新。