《用於縱向組學數據統計分析的GEE-TGDR算法的開發和套用》是依託吉林大學,由田肅岩擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:用於縱向組學數據統計分析的GEE-TGDR算法的開發和套用
- 項目類別:青年科學基金項目
- 項目負責人:田肅岩
- 依託單位:吉林大學
項目摘要,結題摘要,
項目摘要
特徵選擇算法在縱向組學數據分析中的套用遠遠落後於它在橫向組學數據的數據分析當中的套用。在此,我們旨在開發一種新型的適用於縱向組學數據的特徵選擇算法:GEE-TGDR。 基於GEE-TGDR結合閾值梯度下降調整法(TGDR)和廣義估量方程(GEE)兩種成熟穩定的數學模型,我們預期它將繼承這兩個模型的特色和優勢。對此我們除了理論的推算外,更多地是利用模擬數據和實例進行驗證。後期我們還會推出一系列配套的R軟體包,從而使GEE-TGDR算法的推廣套用成為可能。GEE-TGDR在臨床研究中,特別是診斷和預後研究中意義重大。它的成功開發及推廣套用促進制定“個體化用藥”方案的可能,從而最佳化治療效果,節約醫療成本,提高病患的存活率和生活質量。
結題摘要
針對使用常用的縱向數據分析手段,如廣義估計方程(GEE)對複雜的縱向組學數據進行特徵選擇的統計算法為數不多的現象,我們提出了結合GEE方法與閾值梯度下降調整法(TGDR)來開發一種專門處理這類問題的新型統計方法,即GEE-TGDR 算法。此算法挑選與縱向因變數(如:不同時間點患者對藥物是否有反應)密切相關的基因,並估算這些基因的線性係數,從而給出預測法則(即最終的統計模型)來預測個體在不同時間點或段所屬的類別。 本課題的主要目標就是來開發像GEE-TGDR一樣能夠處理因變數和/或自變數為縱向數據的這類特徵選擇算法,並將其加以套用和推廣。目前我們成功地實現了GEE-TGDR算法的編程,並通過使用模擬數據對程式的正確性進行了評估和初步探討了算法的優缺點。而後,我們將GEE-TGDR算法和相關算法進行了比較來進一步探討和總結GEE-TGDR算法的特性, 此分析表明GEE-TGDR算法在預測能力和模型穩定性等方面均優於所考慮的相關算法。並且我們還對TGDR算法和坐標下沉方法進行了比較,結果表明TGDR算法得到的基因標識物(gene signature)的預測能力、模型穩定性和生物學角度的詮釋均優於使用坐標下沉方法得到的基因標識物。但是坐標下沉方法在運算效率方面則具有很大的優勢,它在消耗了遠少於TGDR算法的計算時間的情況下,同樣具備著較為滿意的預測能力。鑒於TGDR算法和坐標下沉方法具有互為補充的優點,如何聯合使用這兩種方法來進一步完善GEE-TGDR算法是我們現在急需解決的問題。 以GEE-TGDR算法為代表的這類特徵選擇算法在臨床診斷和預後研究中具有重要的科學意義:在算法識別出的特徵變數的基礎上,科研人員可以進行實驗來驗證它們是否是潛在的生物標誌物(biomarker),一經驗證後醫療人員就可以根據這些標誌物來開發低成本、高靈敏度和高特異度的診斷方法,從而增大高通量技術成為疾病診斷和檢測手段的可能性;這些算法使預測不同患者對藥物的反應和在什麼時間點/段有所反應成為了可能,從而有助於臨床醫生制定個體化治療方案來節約醫療成本、挽救病患的生命和提高他們的生活質量。