高頻交易數據研究

數據誤區

在明晰金融高頻數據概念的同時，我們發現很多文獻對高頻與超高頻這兩個概念混同使用，高頻、超高頻與低頻之間的界限也較為隨意。事實上，根據數位訊號處理的相關理論，設若頻率小於某個臨界值，會出現混疊現象，進而無法真實還原序列所要傳達的信息。為此，需要從更嚴格的意義上對低頻數據、高頻數據與超高頻數據做出界定和辨析，進而從統計學理論和方法的角度來審視金融高頻數據挖掘的內容和方法，這一方面有利於明確統計方法的套用現狀和所面臨的困難；另一方面可以引起統計學界對金融高頻數據挖掘的廣泛關注，也有利於統計學方法研究的進一步拓展和深入。
此外，不少文獻認為金融高頻數據僅僅是加細了取樣間隔，增加了樣本容量，因而包含了比以往更多的信息。然而事實上並非取樣頻率越高就越精確，因為取樣頻率越高也越容易受到微結構噪聲（microstructurenoise）的影響。需要注意，對金融高頻數據的建模方法不同於低頻，比如ARCH模型族在金融高頻數據中基本無法使用；超高頻數據與高頻數據的研究方法也有質的區別，比如超高頻數據取樣間隔不等距且隨機，而多數統計計量方法都是針對固定等距情形而設計的。但是目前國內對金融（超）高頻數據的研究多集中在引入國外模型做套用實證分析，對研究方法的探討並不多。

統計方法

單從數據處理的角度來看，低頻數據似乎可以看作是對高頻數據的抽樣。在抽樣理論中，用一個點代表它所屬的“層”是可以接受的，而事實上日內高頻數據似乎更應該理解為“群”，因為群間有相似的統計特徵（如“U”型分布），群內異質性較大（如開盤和收盤交易量較大，而中間時段交易量小）。所以需要對高頻數據的日內效應進行更為細緻的統計觀察和分析，進而探索其中的微結構。
以波動率的研究為例，金融研究領域的很多模型都是為刻畫波動的時變性、聚集性、非對稱性和長記憶性等特徵提出的，然而這些模型大都無法直接套用於高頻數據，與低頻數據採用ARCH模型族討論波動不同的是，高頻數據主要採用已實現波動率（realizedvolatility）來對波動率進行測量，通過波動率來深入分析和研究交易的內在機制。這方面主要集中在對市場微觀結構理論的探討。與時間序列模型強調數據的統計性質所不同的是，微結構模型（marketmicrostructure）更多地關注市場行為，著意於交易的細節，如交易價格的形成過程、代理人的行為、交易成本、交易機制等。狹義地來講，微結構模型旨在考察市場參與者的潛在需求如何轉化為交易價格和交易量的過程。儘管這部分內容與金融高頻數據分析緊密相關，但從數據挖掘角度的深入研究並不多。這樣就有必要從統計學理論和方法的角度來審視金融高頻數據挖掘的內容和方法。

數據差異

金融工程理論通常採用幾何布朗運動（theGeometricBrownianMotion）來刻畫價格波動，但研究發現，金融高頻交易數據不再像低頻數據那樣遵循布朗運動。那么二者僅僅是頻率上的差別嗎？研究表明，高頻與低頻的區別僅僅是噪聲層面的：在低頻數據里，噪聲可以被忽略;然而在高頻交易數據里，噪聲是顯著的。這就好像是在較小的尺度上（如短期）可能犯錯，導致出現一個凸點，但是在較大的尺度上（如長期），這個凸點可能就被“磨圓”了。
所以，不同尺度下，可以有截然不同的結論，“橫看成嶺側成峰，遠近高低各不同”，從系統論的角度看，我們必須承認，不同層次（類別）有不同層次（類別）的規律（除了無特徵尺度的“自相似”，它在不同的尺度上表現出相似或統計相似的性質）。比如研究了微觀個體的行為，並不可以簡單加總去推斷群體的行為;研究了短期的行為，也不可以妄斷長期。應該注意，這裡本身並不涉及推斷問題，不能用這個層次的觀察來推斷另一個層次，推斷應該是在同一個層面（尺度的，包括外推和橫向比較。比如，由可獲得的樣本推斷未知總體，它僅僅是數量上的策略。

高頻交易數據研究

數據誤區

統計方法

數據差異

抽樣研究

數據本質

相關詞條

熱門詞條