基本概念
經典的Tobit 模型是James Tobin在分析家庭耐用品的支出情況時對Probit 回歸進行的一種推廣(Tobit一詞源自Tobin’S Probit),其後又被擴展成多種情況,Amemiya將其歸納為Ⅰ型到Ⅴ型Tobit模型。標準的Ⅰ型Tobit回歸模型如下:
式(1)中,
是潛在應變數,
潛變數大於0時被觀察到,取值為
,小於等於0時在0處截尾,
是自變數向量,
是係數向量,誤差項
獨立且服從常態分配:
。該模型也可以作如下簡化表達:
用最小二乘法估計含有截尾數據的模型參數會產生偏差,且估計量是不一致的。在一定假設下可通過最大似然法估計其參數。
Tobit模型的最大似然估計
當Tohit模型的誤差項滿足正態性和方差齊性時,即式(1)中,
,潛變數
滿足經典線性模型假定,服從具有線性條件均值的等方差常態分配。在該假設條件下,Tobit模型中對於正值即
,給定x下y的密度與給定x下
的密度一樣;對於
的觀測值,由於u/a服從標準常態分配並獨立於丁,則
因此如果
是來自總體的一次隨機抽取,則在給定
下
的密度為:
式中,
是標準正態密度函式。從中得到每個觀測i的對數似然函式:
通過將上式對i求和,就可以得到容量為n的一個隨機樣本的對數似然函式,即
該式由兩部分組成,一部分對應於沒有限制的觀測值,是經典回歸模型部分;一部分對應於受到限制的觀測值。這是一個非標準的似然函式,它實際上是離散分布與連續分布的混合。通過對上式極大化,就可以得到
和
的最大似然估計值。該對數似然函式的求解比較棘手,因為Tobit 模型的對數似然函式對原參數
和
不是全局凹的(global concavity)。對該似然函式進行再參數化,可使得估計過程更為簡單,並且再參數化後的對數似然函式是全局凹的。令
和
對數似然函式變為
對上式極大化,由於Hessian矩陣始終是負正定的,所以不管初始值是什麼,只要疊代過程有一個解,則這個解就是似然函式的全局最大化解。套用牛頓法求解時較為簡單,且收斂速度快,得到
和
的估計量後,再利用
和
求得原參數估計量。這些估計量的漸近協方差矩陣可以從估計量
中得到。
Tobit模型的半參數估計
Tobit模型最大似然估計的一致性依賴於其潛變數模型中誤差項的正態性和方差齊性,在誤差項存在序列相關(serial correlation)的情況下最大似然估計仍可以保持一致性,但其異方差和非常態分配會導致
和
的不一致估計。檢驗Tobit模型中誤差項是否服從常態分配的方法有Hausman檢驗、拉格朗日乘數檢驗和條件矩檢驗等。不滿足常態分配時可選用替代的其他分布,如指數分布、對數常態分配和威布爾分布。但是假定一些其他的特定分布並不能有效的解決問題而且有可能使問題更糟,此時可採用一些穩健的半參數方法。
刪失最小絕對離差估計CLAD(censored least absolute deviations)是Tobit模型的一種半參數估計方法,該方法假定
的中位數為0,即
,這也意味著
,如果額外假設誤差項有關於0為中心的對稱分布,那么條件中位數和均數就是一致的。對於經典線性模型,最小絕對離差估計LAD(Least Absolute Deviations)通過最小化誤差項的絕對值之和來獲得回歸係數的估計值(最小一乘估計)。在Tobit 模型中只能觀測到截取的因變數y所以要對經典的LAD估計作一些改進。對任何連續隨機變數Z,可以通過選擇合適的b作為Z 分布的中位數從而最小化函式,
。如果
的中位數是回歸自變數和未知參數的已知函式
,那么
的樣本條件中位數可以通過選擇適當的
來獲得,而這個
使得函式
在
處最小化。對於截取回歸模型來說,很容易證明
的中位數函式
,所以CLAD估計的目標函式為
由於該函式是連續的,最小值總是存在,但最小化可能產生不唯一的
值。CLAD估計具有一致性,並且有漸近的常態分配,由於最小化的函式不是連續可微的,所以該估計量的計算較複雜。Buchinsky 建議用疊代線性規划算法ILPA(the iterative linear programming algorithm)來獲得CLAD 的估計量。由於CLAD 估計允許誤差項可以為更廣泛的分布,包括非對稱分布,當Tobit模型的某些有關分布的假設不成立時,,蒙特卡羅模擬證據表明它表現良好,對異方差也穩健。Deaton指出當有異方差性時,小樣本情況下,CLAD估計有大的標準差,而似然估計在小樣本中儘管有偏倚,但它的標準差較小。所以對於小樣本來說似然估計是比較好的,而CLAD估計隨著樣本含量的增大比較適用。
Tobit模型回歸係數的含義
在實際套用中,Tobit 回歸係數的解釋和一般線性模型的歸係數不同。它與Tobit模型中三個重要的條件期望(conditional expectation)
有關,具體應該是哪個解釋取決於實際套用的目的,將這些條件期望對協變數進行求導後就是想要得到的
邊際效應(marginal effects)。
Tobit模型的假設檢驗
在Tobit 模型中可以用似然比檢驗檢驗回歸係數,既適合單個自變數的假設檢驗又適合多個自變數的同時檢驗。
似然比檢驗基於不受約束模型和受約束模型的對數似然函式之差。其思想是,由於似然估計最大化了對數似然函式,所以去掉變數一般會導致一個較小的對數似然函式值。對數似然函式值的下降程度是否大到足以斷定去掉的變數是重要的,可以通過似然比統計量和一系列臨界值做出判斷。似然比統計量是對數似然值之差的2倍即
為不受約束模型即含有待檢因素的Tobit 模型的對數似然值,
為受約束模型即不包含待檢因素的Tobit 模型的對數似然值。似然比統計量在
下服從漸近
分布,自由度為待檢參數的個數q。
以上介紹中將截尾點設為0,這並不使得該模型失去一般性,事實上截尾臨界點可以為
,
可以對所有的i 都是一樣的,但在多數情況下隨著i的特徵而變化,並且
既可以從左邊截尾也可以從右邊截尾還可以兩邊同時截尾。事實上,當誤差項指定為生存時間經常服從的指數分布且為右刪失時,起源於計量經濟學中的Tobit模型就是醫學統計學領域常用的生存分析中的一種加速失效模型(accelerated failure model)。