抽樣數據方式

抽樣數據方式

在收集數據過程中,絕大多數情況下,並不採取普查的方式獲取總體中所有樣本的數據信息,而是以各類抽樣方法抽取其中若干代表性樣本來進行數據獲取和分析。在獲得待分析數據集後,需要再次通過抽樣技術選取出訓練集和測試集,以便比較選擇出最優的挖掘算法。抽樣數據方式簡單來說是指通過抽樣技術選出數據符合分析模型要求或算法要求的方式。

基本介紹

  • 中文名:抽樣數據方式
  • 外文名:Sampled Data Mode
  • 學科:計算機科學
  • 目的:選出符合要求的數據
  • 方法:隨機、整體、分層、留出
  • 套用:數據分析
方法介紹,抽樣,抽樣數據方式,

方法介紹

數據分析是一類統計方法,其主要特點是多維性和描述性。有些幾何方法有助於揭示不同的數據之間存在的關係,並繪製出統計信息圖,以更簡潔的解釋這些數據中包含的主要信息。其他一些用於收集數據,以便弄清哪些是同質的,從而更好地了解數據。數據分析可以處理大量數據,並確定這些數據最有用的部分。
在數據分析中,抽樣是指:從全部數據中選擇部分數據進行分析,以發掘更大規模數據集中的有用信息。例如,假設有一片占地 100 英畝且其中樹木分布非常均勻的區域,如果您要估算該區域的樹木數量,則可以統計一英畝的樹木數量,然後用所得數值乘以 100,或者統計半英畝的樹木數量,然後用所得數值乘以 200,從而得出可準確代表整個 100 英畝區域樹木數量的結果。抽樣數據方式簡單來說是指通過抽樣技術選出數據符合分析模型要求或算法要求的方式。

抽樣

概述
在統計學中,抽樣(Sampling)是一種推論統計方法,它是指從目標總體(Population,或稱為母體)中抽取一部分個體作為樣本(Sample),通過觀察樣本的某一或某些屬性,依據所獲得的數據對總體的數量特徵得出具有一定可靠性的估計判斷,從而達到對總體的認識。
機率抽樣方法
簡單隨機抽樣(simple random sampling),也叫純隨機抽樣。從總體N個單位中隨機地抽取n個單位作為樣本,使得每一個容量為樣本都有相同的機率被抽中。特點是:每個樣本單位被抽中的機率相等,樣本的每個單位完全獨立,彼此間無一定的關聯性和排斥性。簡單隨機抽樣是其它各種抽樣形式的基礎。通常只是在總體單位之間差異程度較小和數目較少時,才採用這種方法。
系統抽樣(systematic sampling),也稱等距抽樣。將總體中的所有單位按一定順序排列,在規定的範圍內隨機地抽取一個單位作為初始單位,然後按事先規定好的規則確定其他樣本單位。先從數字1到k之間隨機抽取一個數字r作為初始單位,以後依次取r+k、r+2k……等單位。這種方法操作簡便,可提高估計的精度。
分層抽樣(stratified sampling)。將抽樣單位按某種特徵或某種規則劃分為不同的層,然後從不同的層中獨立、隨機地抽取樣本。從而保證樣本的結構與總體的結構比較相近,從而提高估計的精度。
整群抽樣(cluster sampling)。將總體中若干個單位合併為組,抽樣時直接抽取群,然後對中選群中的所有單位全部實施調查。抽樣時只需群的抽樣框,可簡化工作量,缺點是估計的精度較差。
方便抽樣(Convenience Sampling)。調查者以自己方便的方式抽取偶然得到的樣本,最典型的方便抽樣是“街頭攔人法”。方便抽樣的優點是易於實施,代價較小,缺點是樣本代表性差,有很大的偶然性。
定額抽樣(Quota Sampling)。調查者先將總體按某種特徵劃分成不同的組,然後在配額內以主觀判斷選定樣本作為研究對象。定額抽樣和分層抽樣的相同之處是對總體進行分組,不同之處是分層抽樣按機率原則在層內抽選樣本,而定額抽樣選取樣本是主觀的。定額抽樣的優點是能夠縮小抽樣範圍,減少抽樣成本,缺點是確定額度困難,需多次探索。
判斷抽樣(Judgement Sampling)。研究人員根據調查目的和主觀經驗,從總體中選擇最具代表性的樣本。判斷抽樣的優點是可以用於總體難以確定的研究對象,缺點是受研究人員的主觀傾向性影響大,一旦主觀判斷失誤, 則易引起較大的抽樣偏差。
滾雪球抽樣(Snowball Sampling)。先選取若干符合特徵的樣本構成最初的調查對象,然後依靠他們提供新的調查對象,隨著調查的推進,樣本如同滾雪球般由小變大,滾雪球抽樣方法的優點是能夠很方便地找到被調查者,用於探索性研究,缺點是樣本之間必須存在聯繫且願意保持和提供這種聯繫。

抽樣數據方式

通常,可通過實驗測試來對學習器的泛化誤差進行評估並進而做出選擇,測試樣本是從樣本真實分布中獨立同分布抽樣而得,測試集應該儘可能與訓練集互斥,即測試樣本儘量不在訓練集中出現,未在訓練過程中使用。
留出法(hold-out)
方法:直接將數據集D劃分為兩個互斥的集合,訓練集合S和測試集合T,在S上訓練模型,用T來評估其測試誤差。注意:訓練/測試集的劃分要儘可能保持數據分布的一致性,避免因為數據劃分過程引入額外的偏差而對最終結果產生影響。
缺點與改進:單次使用留出法得到的估計往往不夠穩定可靠,在使用留出法時,一般要採用若干次隨機劃分、重複進行實驗評估後取平均值作為留出法的評估結果
實際運用:實際中一般將大約2/3~4/5的樣本用於訓練,剩餘樣本用於測試。
交叉驗證法(cross validation)
方法:先將數據集D劃分為k個大小相似的互斥子集.每個子集Di都儘可能保持數據分布的一致性,即從D中通過分層採樣得到 .然後每次用k-1個子集的並集作為訓練集,餘下的那個子集作為測試集,這樣就可以獲得k組訓練/測試集,從而可以進行k次訓練和測試,最終返回的是這k個測試結果的均值。
實際運用:一般而言k的取值為10,常用的還有5、20等
自助法
問題引出:我們希望評估的是用D訓練出來的模型,但是留出法和交叉驗證法中,由於保留了一部分樣本用於測試,因此實際評估的模型所使用的訓練集比D小,這必然會引入一些因訓練樣本規模不同而導致的估計偏差,為此提出自助法。
方法:它以自助採樣(bootstrap sampling)為基礎.給定包含m個樣本的數據集D,我們對它進行採樣產生數據集 D′:每次隨機從D中挑選出一個樣本,將其拷貝放入D′, 然後再將該樣本放回初始數據集D中,使得該樣本在下次採樣時仍有可能被採樣到;這個過程重複執行m次後,我們就得到可包含m個樣本數據的數據集D′,這就是自助採樣的結果.樣本在m次採樣中始終不被採到到機率為
由此可知通過自助採樣,初始數據集D中約有36.8%的樣本未出現在採樣數據集D′中。於是我們可將D′ 用作訓練集,D∖D′用作測試集。
優缺點:自助法在數據集較小,難以有效劃分訓練/測試集時很有用,但是,自助法改變了初始數據集的分布,這會引入估計偏差,所以在數據量足夠時,一般採用留出法和交叉驗證法。

相關詞條

熱門詞條

聯絡我們