定量結構活性關係
定量結構活性關係(quantitativestructure-activityrelationship,QSAR)研究是化學計量學中的一個重要分支,是套用最為廣泛的藥物設計方法,旨在通過合理的數理統計方法建立起一系列化合物的生理活性或某種性質(如藥物的毒性、藥效學性質、藥物代謝動力學參數與生物利用度等)與其理化性質參數或者結構參數(包括二維分子結構參數、三維分子結構參數等)之間的定量關係。然後通過這些定量關係猜測化合物的相應特性,指導設計者有目的性地對生理活性物質進行結構改造,從而大大縮短高性能化合物的研發周期,節約研發成本。
定量構效關係是在傳統結構關係的基礎上,結合物理化學中常用的經驗方程數學方法出現的,其理論歷史可以追溯到1868年Crum-Brown和Fraser提出的Crum-Brown方程。該方程認為化合物的生理活性可以用化學結構的函式來表示,但是並沒有建立明確的函式模型。1900年前後,Overton和Meyer等提出了麻醉作用的類脂學說,即化學結構各異的麻醉劑其活性隨著脂-水分配係數增加而增加的現象,這可能是最早提出的化合物生理活性和物理化學性質之間的定量分配關係模型。但是,最早可以實施的定量構效關係方法是Hansch等人在哈密頓方程(Hammetfunction,計算取代苯甲酸解離常數的經驗方程)以及改進的塔夫托方程(Taftequation,計算脂肪族酯類化合物水解反應速度常數的經驗方程)的基礎上於1962年提出的Hansch方程。隨著之後計算機技術的發展和多變數解析技術的引入,定量構效關係研究迅速發展起來。目前,它已經在藥物化學、生物化學、環境化學以及化學生物等眾多領域得到了廣泛的套用。尤其是在藥物化學領域,二維定量構效關係的出現,使人們對構效關係的認識從傳統的定性水平上升到定量水平。在Hansch方法的指導下,人們成功地設計了諾氟沙星等喹諾酮類抗菌藥。而近年來化學計量學在其理論與方法學方面的發展,又將定量構效關係帶入了更高水平的研究階段。
計算和選擇分子結構描述
計算和選擇分子結構描述符是定量構效關係研究的重要組成部分。近年來,隨著計算機硬體及軟體的高速發展,我們已經很容易通過計算機輔助分子設計(computer-aidedmoleculardesign,CAMD)軟體得到化合物的分子結構描述符,例如結構和統計分析的全面描述符(comprehensivedescriptorsforstructuralandstatisticalanalysis,CODESSA),MaterialStudio,Cerius2軟體等等,均能在短時間內提供大量的關於分子電性的、立體的、拓撲的、幾何的、理化性質的等較為全面的參數。儘管我們能輕鬆獲得眾多的分子結構描述符,但並不是所有的描述變數都能提供與化合物的活性相關的信息。當描述變數包含了相同或者是類似的信息時,將可能引起變數的共線性問題。多餘的變數(無信息變數和高相關性變數)將嚴重影響QSAR模型的預測能力。變數選擇可以在一定程度上解決以上問題。依據變數選擇的標準,化學計量學的許多傳統算法可用於QSAR的變數選擇。但近年來,QSAR的變數選擇中備受關注的還是眾多新發展起來的最佳化算法,例如:逐步回歸(stepwiseregression),廣義模擬退火(generalizedsimulatedannealing),遺傳算法(geneticalgorithms,GAs)[56-60],進化算法(evolutionaryalgorithms,EAs),粒子群最佳化算法(particleswarmoptimization,PSO)及蟻群算法(antcolonyoptimization,ACO)等。其中,GAs,EAs,PSO和ACO是模擬生物體系的最佳化算法。這些不同的最佳化搜尋算法與不同的回歸算法相結合可用來解決各種變數選擇問題。依據分子描述符與已知的化合物活性建立合理、適用的回歸預測模型是QSAR研究的另一重點。QSAR的回歸建模方法主要包括線性建模與非線性建模兩大類。其中多元線性回歸(multiplelinearregression,MLR)和偏最小二乘回歸(partialleastsquaresregression,PLSR)是普遍採用的兩種線性回歸方法。因為化合物的活性高低是由多種因素促成的,很多情況下,各種因素又相互作用,使得分子結構與活性之間的相關關係在簡單線性描述時達不到理想的效果。因此,很多非線性算法也被用於QSAR研究。典型的非線性算法應屬人工神經網路(artificialneuralnetwork,ANN)。ANN因為具有很強的非線性擬合能力而在很多領域備受青睞。但ANN的局限性在於極其容易陷入過擬合以及局部最優,在某種程度上限制了它的實際使用。支持向量機(SVM)[12,13]是繼模式識別和神經網路研究之後機器學習領域的研究新熱點。由於該方法既能用於解決線性問題,也能用於解決非線性問題,且具有較好的推廣能力,能夠有效的避免ANN常出現的過擬合、局部最優現象。近年來SVM引起了化學計量學家的注意並廣泛套用於QSAR研究中。相對於ANN和SVM,分類與回歸樹(classficationandregressiontrees,CARTs)所建模型更易被理解和接受。該方法同樣也被廣泛用於QSAR研究。各種回歸建模方法在QSAR領域的研究和套用在豐富QSAR的基礎理論體系的同時,也極大地提高了QSAR研究在各個領域中的套用價值。