《天然活性小分子抗腫瘤靶點譜研究中大數據的統計分析》是潘蓄林為項目負責人,雲南大學為依託單位的地區科學基金項目。
基本介紹
- 中文名:天然活性小分子抗腫瘤靶點譜研究中大數據的統計分析
- 項目負責人:潘蓄林
- 依託單位:雲南大學
- 項目類別:地區科學基金項目
項目摘要,結題摘要,
項目摘要
隨著化學、生物技術的快速發展,抗腫瘤數據的獲得變得快捷和便宜,使天然活性小分子抗腫瘤靶點譜的研究進入統計建模和數據分析時代。而傳統的統計方法在處理天然活性小分子抗腫瘤靶點譜中出現的大量的混雜數據、高維數據、缺失數據、複雜數據、測量錯誤、異常值、相依及高維離散數據時使傳統研究出現較大的偏差。本項目圍繞天然活性小分子抗腫瘤靶點譜研究的大數據,運用統計的理論和方法研究不同來源的複雜數據及異常值和測量誤差的統計方法,降低系統誤差;研究高維或超高維數據樣本協方差矩陣逆協方差矩陣特徵值的不一致性及糾偏方法並構建天然活性小分子抗腫瘤靶點譜的網路結構;研究稀疏或近似稀疏條件下高維非參數和半參數模型的變數選擇方法,對基因通路、活性指標、蛋白通路及代謝通路中的關鍵變數進行研究,選出靶點分子;研究非獨立條件下如何控制大規模統計檢驗的虛假髮現比例,控制檢驗的精度。項目研究將推動複雜生物數據統計模型的研究與發展。
結題摘要
本研究從Pubmed及Cochrane資料庫中檢索有關天然活性小分子倍半萜內酯、細胞毒活性及抗炎活性為關鍵字,從400多篇英文文獻中得到倍半萜內酯的活性數據,使用分層模型消除不同來源數據的隨機性,最後選取了58個倍半萜內酯,使用Web Dragon分子計算軟體得到分子描述符。從KEGG Brite、 BRENDA、 SuperTarget及 Drugbank四個資料庫提取到已知的藥物與靶點相互作用的數據,得到445個酶、210個離子通道、223個GPCR和54個核受體,對應的相互作用為2926、1476、635和90。基於高維稀疏貝葉斯Lasso方法、非參數的貝葉斯潛變數分類模型(LCA)、非參數的高維agent-based模型、非負矩陣分解方法對從不同來源的天然活性小分子倍半萜內酯及藥物靶點資料庫Catalyst、KEGG Brite、 BRENDA、 SuperTarget及 Drugbank對天然活性小分子抗腫瘤靶點譜進行研究。發現:(1)在貝葉斯Lasso模型進行變數選擇時,調節參數的選擇具有非常重要的作用,在對天然活性小分子倍半萜內酯具有抗腫瘤活性的1600個結構特徵的選擇時,得到調節參數的路徑,挑出最佳化的調節參數得到回歸係數的稀疏結構,選出10多個結構指標和抗腫瘤相關的指標,得到參數的後驗分布,計算得到參數的估計及置信區間,表明其抗腫瘤活性主要是含有特殊的內酯結構;(2)針對非參數的貝葉斯潛變數分類模型(LCA)的標籤切換問題,選出最優的約束條件。用AIC、BIC、DIC及調整BIC解決模型的擬合優度問題使用採集的數據進行了實證分析,然後對Catalyst、KEGG Brite、 BRENDA、 SuperTarget及Drugbank靶點資料庫中的重要靶點進行潛變數分析,找到靶點之間的共同特徵;(3)使用高斯過程模型擬合高維agent-based模型,基於貝葉斯後驗的分布對控制變數進行最佳化,對複雜的代謝通路進行了初步的研究,提出了倍半萜內酯可能的代謝通路及相關的靶點譜;(4)將活性小分子與靶點相互作用矩陣分解成活性小分子相似矩陣(U)和靶點譜相似矩陣(V)的乘積,基於貝葉斯統計推斷得到U和V的後驗分布,然後對一些新的活性小分子其可能的靶點譜進行預測,發現新的靶點譜。