檔案全文
能力驗證結果的統計處理和能力評價指南
本檔案為 CNAS-GL02《 能力驗證結果的統計處理和能力評價指南》 的第二版,代替 CNAS-GL02: 2006《 能力驗證結果的統計處理和能力評價指南》。與 CNAS-GL02: 2006 相比,檔案的主要變化如下:——增加前言、目次、術語和定義。
——增加定性計畫和半定量計畫指定值的確定方法和能力
評價方法。
——增加對明顯錯誤結果的處理方法。
——增加定量計畫能力評定標準差的確定方法。
——增加以能力比分數的平均值評價參加者能力可能存在的問題。
——增加長期監測能力的方法。
——附錄 A 調整為檢測計畫常用穩健統計方法,增加穩健統計方法算法 A 和算法S, 原數據分布的內容移至正文, 相關示例移至附錄 B。——附錄 B 調整為能力
驗證計畫結果示例,包含檢測和校準能力驗證計畫結果示例。對校準能力驗證計畫,以 200 mg 砝碼校準能力驗證計畫結果,代替 1 伏直流電壓標準實驗室間比對結果,並增加製作結果圖示的新方法。
能力驗證結果的統計處理和能力評價指南範圍
1.1 本檔案為能力驗證結果的統計處理和能力評價提供指南。
1.2 本檔案適用於 CNAS 的能力驗證, 也可為其他機構組織能力驗證提供參考。
規範性引用檔案
下列檔案中的條款通過引用而成為本檔案的條款。以下引用的檔案,註明日期的,僅引用的版本適用;未註明日期的,引用檔案的最新版本(包括任何修訂)適用。CNAS-RL02 能力驗證規則CNAS-GL03 能力驗證樣品均勻性和穩定性評價指南GB/T 27043 合格評定 能力驗證的通用要求( ISO/IEC 17043, IDT)GB/T 28043 利用實驗室間比對進行能力驗證的統計方法( ISO 13528, IDT)GB/T 6379 測量方法與結果的準確度(正確度和精密度)( ISO 5725, IDT)ISO/IEC 指南 98-3
測量不確定度 第 3 部分:測量不確定度的表示指南ISO/IEC 指南 99: 2007 國際計量學辭彙 基礎和通用概念及相關術語IUPAC 技術報告 分析化學實驗室能力驗證國際協定
術語和定義
CNAS-RL02、 GB/T 27043、 GB/T 28043、 ISO/IEC 指南 99 界定的術語和定義適用於本檔案。為方便使用,重複列出以下術語和定義:
3.1
實驗室間比對 interlaboratory comparison按照預先規定的條件,由兩個或多個實驗室對相同或類似的物品進行測量或檢測的組織、實施和評價。
3.2 能力驗證 proficiency testing利用實驗室間比對,按照預先制定的準則評價參加者的能力。
3.3 指定值 assigned value對能力驗證物品的特定性質賦予的值。
3.4 能力評定標準差 standard deviation for proficiency assessment根據可獲得的信息,用於評價能力驗證結果分散性的度量。注 1:標準差只適用於比例尺度和定距尺度的結果。注 2:並非所有的能力驗證計畫都根據結果的分散性進行評價。
3.5 z 比分數 z-score 由能力驗證的指定值和能力評定標準差計算的實驗室偏倚的標準化度量。註: z 比分數有時也稱為 z 值或 z 分數。
3.6 離群值 outlier一組數據中被認為與該組其他數據不一致的觀測值。註:離群值可能來源於不同的總體,或由於不正確的記錄或其他粗大誤差的結果。
3.7 穩健統計方法 robust statistical method對給定機率模型假定條件的微小偏離不敏感的統計方法。
3.8 測量審核 measurement audit一個參加者對被測物品(材料或製品)進行實際測試,其測試結果與參考值進行比較的活動。註:測量審核是對一個參加者進行“一對一”能力評價的能力驗證計畫。
統計處理和能力評價
4.1 總則能力驗證的結果可以以多種形式出現,並構成各種統計分布。分析數據的統計方法應與數據類型及其統計分布特性相適應。 分析這些結果時,應根據不同情況選擇適用的統計方法。各種情況下優先使用的具體方法,可參見 GB/T 28043。對於其他方法,只要具有統計依據並向參加者進行了詳細描述,也可使用。 無論使用哪一種方法對參加者的結果進行評價,一般包括以下幾方面內容:(a)指定值的確定;(b)能力統計量的計算;(c)能力評定。必要時,考慮能力驗證物品的均勻性和穩定性對能力評定的影響。 能力驗證物品均勻性和穩定性的評價方法見 CNAS-GL03《能力驗證樣品均勻性和穩定性評價指南》、GB/T 28043 和 IUPAC 技術報告。
4.2 統計設計4.2.1 應根據數據的特性(定量或定性,包括順序和分類)、統計假設、誤差的性質以及預期的結果數量,制定符合計畫目標的統計設計。在統計設計中應考慮下列事項:(a) 能力驗證中每個被測量或特性所要求或期望的準確度(正確度和精密度)以及
測量不確定度;(b) 達到統計設計目標所需的最少參加者數量;當參加者數量不足以達到目標或不能對結果進行有意義的統計分析時,應將評定參加者能力的替代方法的詳細內容提供給參加者;(c) 有效數字與所報告結果的相關性,包括小數位數;(d) 需要檢測或測量的能力驗證物品數量,以及對每個能力驗證物品或每項測定的檢測、校準或測量的重複次數;(e)用於確定能力評定標準差或其它評定準則的程式;(f)用於識別和(或)處理離群值的程式;(g)只要適用,對統計分析中剔除值的評價程式;(h)只要適當,與設計相符的目標和能力驗證輪次的頻率。
4.2.2 在缺少統計設計所需的可靠信息時, 可通過開展先期
實驗室間比對來獲得。
4.3 指定值及其不確定度的確定
4.3.1 指定值的確定有多種方法,以下列出最常用的方法。 在大多數情況下,按照以下次序,指定值的不確定度逐漸增大。(a)已知值 —— 根據特定能力驗證物品配方(如製造或稀釋)確定的結果;(b)有證參考值 —— 根據定義的檢測或測量方法確定(針對定量檢測);(c)參考值 —— 根據對能力驗證物品和可溯源到國家標準或國際標準的標準物質/標準樣品或參考標準的並行分析、測量或比對來確定;(d)由專家參加者確定的公議值 —— 專家參加者(某些情況下可能是參考實驗室)應當具有可證實的測定被測量的能力,並使用已確認的、有較高準確度的方法,且該方法與常用方法有可比性;(e)由參加者確定的公議值 —— 使用 GB/T 28043 和 IUPAC 國際協定等給出的統計方法, 並考慮離群值的影響。 例如,以參加者結果的穩健平均值、中位值(也稱為中位數)等作為指定值。附錄 A 給出了由參加者結果確定指定值的常用穩健統計方法。
4.3.2 對上述每類指定值的不確定度,可參照 GB/T 28043 等所描述的方法進行評定。此外, ISO/IEC 指南 98-3 中給出了確定不確定度的其它信息。
4.3.3 指定值的確定應確保公平地評價參加者,並儘量使檢測或測量方法間吻合一致。只要可能,應通過選擇共同的比對小組以及使用共同的指定值達到這一目的。
4.3.4 對定性數據[也稱為“分類的”或“定名的”值]或半定量值[也稱為“順序的”值],其指定值通常需要由專家進行判斷或由製造過程確定。某些情況下,可使用大多數參加者的結果(預先確定的比例,如 80%或更高)來確定公議值。該比例應基於能力驗證計畫的目標和參加者的能力和經驗水平來確定。
4.3.5 離群值可按下列方法進行統計處理:(a)明顯錯誤的結果,如單位錯誤、小數點錯誤、 計算錯誤或者錯報為其他能力驗證物品的結果,應從數據集中剔除, 單獨處理。這些結果不再計入離群值檢驗或穩健統計分析。 明顯錯誤的結果應由專家進行識別和判斷。(b)當使用參加者的結果確定指定值時,應使用適當的統計方法使離群值的影響降到最低,即可以使用穩健統計方法或計算前剔除離群值。(c)如果某結果作為離群值被剔除,則僅在計算總計統計量時剔除該值。但這些結果仍應當在能力驗證計畫中予以評價,並進行適當能力評定。
4.3.6 需考慮的其他事項(a)理想情況下,如果指定值由參加者公議確定, 應當有確定該指定值正確度和檢查數據分布的程式。 例如, 可採用將指定值與一個具備專業能力的實驗室得到的參考值進行比較等方法確定指定值的正確度。通常, 常態分配是許多數據統計處理的基礎。常態分配的特點是單峰性、對稱性、有界性和抵償性。作為一個能力驗證計畫的結果,由於參加者的測試方法、測試條件往往各不相同,而且能力驗證結果的數量也是有限的,所以在許多情況下能力驗證的結果呈偏態分布。 對能力驗證的結果只要求近似常態分配, 儘可能對稱, 但分布應當是單峰的,如果分布中出現雙峰或多峰,則表明參加者之間存在群體性的系統偏差,這時應研究其原因,並採取相應的措施。例如,可能是由於使用了產生不同結果的兩種檢測方法造成的雙峰分布。在這種情況下,應對兩種方法的數據進行分離,然後對每一種方法的數據分別進行統計分析。數據直方圖或核(Kernel)密度圖可以顯示結果的分布情況。(b)應當有依據不確定度來判斷指定值是否可接受的準則。在 GB/T 28043 和 IUPAC國際協定中給出了該準則,該準則是基於限定指定值不確定度對能力評定的影響而建立的,即: 準則限定了由於指定值的不確定度而使參加者得到一個不可接受的評估結果的可能性。
4.4 能力統計量的計算
4.4.1 定量結果
4.4.1.1 能力驗證結果通常需要轉化為能力統計量,以便進行解釋和與其他確定的目標作比較。其目的是依據能力評定準則來度量與指定值的偏離。所用統計方法可能從不做任何處理到使用複雜的統計變換。註:“能力統計量” 也稱為“性能統計量” 。
4.4.1.2 能力統計量對參加者應是有意義的。因此,統計量應適合於相關檢測,並在某特定領域得到認同或被視為慣例。
4.4.1.3 按照對參加者結果轉化由簡至繁的順序,定量結果的常用統計量如下:(a) 差值
D,(b)百分相對差
D%,(c) z 比分數(d)
z'比分數(e)比分數
4.4.1.4 需要考慮的其它事項
(a)通過參加者結果與指定值之差完全可以確定參加者的能力,對於參加也是最容易理解的。差值也稱為“實驗室偏倚的估計值(b)百分相對差不依賴於指定值的大小,參加者也很容易理解。(c)對於高度分散或者偏態的結果、順序回響量、數量有限的不同回響量,百分位數是有效的。但該方法仍應慎用。(d)根據檢測的特性,優先或需要使用變換結果。例如,稀釋的結果呈現幾何尺度,需做對數變換。
4.4.2 定性結果和半定量結果
4.4.2.1 對於定性結果和半定量結果,如果套用統計方法,必須與結果的特性相適應。對定性數據[也稱之為“分類”數據],可採用直接將參加者結果與指定值進行比較的技術。如果兩者相同,則結果是可接受的;如果不相同,可由專家判斷參加者結果是否滿足預期用途。某些情況下,可審查參加者的結果,並確定該能力驗證物品不適於評估,或者指定值不正確。
4.4.2.2 用於定性數據的技術也適用於半定量結果[也稱為“順序”結果]。順序結果包括很多類型,例如,回響為等級或排序、感官評價,或化學反應強度(如 1+, 2+,3+,等)。有時,這些回響結果由數字表示,如, 1=差, 2=不滿意, 3=滿意, 4=良好,5=優秀。
4.4.2.3 對順序數據,即使結果以數值表示,計算常規的總計統計量是不合適的。因為這些數值並不是基於區間尺度,也就是說,客觀意義上, 1 和 2 間的差可能與 3 和4 間的差並不相同,因而不能解釋其平均值和標準差的意義。因此,對半定量結果使用諸如 z 比分數的統計量是不合適的。特定的統計量,如秩或
順序統計量,對順序數據是可以使用的。
4.4.2.4 描述出(或作圖表示)所有參加者結果的分布,以及每一類結果的數量或百
4.4.3 合成的能力比分數當對一個特定被測量使用了一個以上能力驗證物品或有一組相關被測量時,可根據一輪能力驗證計畫中兩個或兩個以上的結果評定參加者的能力。這樣可以對參加者能力進行全面評定。 採用圖方法,如堯敦( Youden)圖或曼德爾( Mandel's) h 統計量圖等, 也是解釋參加者能力的有效工具( 參見 GB/T 28043)。儘量不使用能力比分數的平均值,因為這將掩蓋對一個或多個能力驗證物品的較差的檢測或測量能力,而這正是需要調查的。最常用的合成的能力比分數是可接受結果的數量(或百分比)。
4.5 能力評定
4.5.1 初始能力
4.5.1.1 應根據能力度量方式制定能力評定準則,用於能力評定的方式如下:(a)專家公議,由顧問組或其他有資格的專家直接確定報告結果是否與預期目標相符合;專家達成一致是評估定性測試結果的典型方法。(b)與目標的符合性,根據方法性能指標和參加者的操作水平等預先確定準則。(c)用統計方法確定比分數,其準則應當適用於每個比分數
4.5.1.2 只要可能,應當使用 GB/T 28043 和 IUPAC 國際協定所描述的圖形來顯示參加者能力(如直方圖,誤差條形圖,順序 z 比分數圖, 堯敦圖等)。這些圖可用來顯示:(a)參加者結果的分布;(b)多個能力驗證物品結果間的關係;(c)不同方法所得結果分布的比較。
4.5.1.3 有時, 能力驗證計畫中某些參加者的結果雖為不滿意結果,但可能仍在相關標準或規範規定的允差範圍之內,鑒於此, 在能力驗證計畫中, 對參加者的結果進行評價時,通常不作“合格” 與否的結論,而是使用“滿意/不滿意” 或“離群” 的概念
4.5.1.4 當利用測量審核對參加者的結果進行判定時,可利用 En值或參照相關技術標準(包括統計技術方面的標準)進行判定,附錄 C 給出了相應的統計方法信息。
4.5.2 長期監測能力
4.5.2.1 能力驗證計畫可包含長期監測能力的程式。該程式可以使參加者能觀測到其能力的變動,是否呈現趨勢性的變化或不一致的結果,以及隨機變化。
4.5.2.2 圖形方法有助於理解數據分析結果,如傳統的“休哈特”控制圖。數據列表和總計統計量可以提供更詳細信息。用來評定能力的能力比分數, 如 z 比分數,可用於繪製這些圖和表。其它示例和圖形工具可參見 GB/T 28043 等。4.5.2.3 用參加者結果統計得到的標準差作為能力評定標準差時,由於參加者群體的變化及其對比分數的未知影響,長期監測能力時應當謹慎。通常,由於參加者逐漸熟悉能力驗證計畫或者方法得到改進,實驗室間標準差會隨時間而減小。即便參加者本者本身的能力沒有變化時,也會導致 z 比分數的明顯變大。
附錄
附錄A
檢測能力驗證計畫常用穩健統計方法
A.1 總則由能力驗證計畫參加者的結果確定指定值和能力評定標準差,是檢測能力驗證計畫常用的方法。通常,可以採用經典方法,用格拉布斯( Grubbs)準則等統計方法剔除離群值後計算平均值和標準差,以平均值和標準差作為指定值和能力評定標準差;也可採用穩健統計方法,穩健統計方法不需要用統計方法剔除離群值。例如, 使用中位值和標準化四分位距法、 GB/T 28043 推薦的算法 A 和算法 S,計算中位值或穩健平均值作為指定值,計算標準化四分位距、 穩健標準差或標準差的穩健聯合值作為能力評定標準差。本附錄描述了由參加者的結果確定指定值和能力評定標準差的常用穩健統計方法。
A.2 算法 A算法 A 來自 GB/T 6379.5。套用此算法計算得到數據平均值和標準差的穩健值。穩健性是估計算法的特點,而不是其產生的估計值的特點,因此嚴格來說,稱由此算法計算的平均值和標準差是穩健的是不確切的。然而,為避免使用繁瑣的術語,“穩健均值”和“穩健標準差”應理解為利用穩健算法計算的總體均值和總體標準差的均值估計。
A.3 算法 S算法 S 用於計算標準差(或極差),可推出標準差或極差的穩健聯合值。 算法 S與算法 A 類似,疊代若干次後最終獲得標準差或極差的穩健估計值W*。
A.4 中位值和標準化四分位距法中位值和標準化四分位距法是一種簡單的穩健統計方法。套用此法計算得到數據總體均值和總體標準差的估計值——中位值( med) 和標準化四分位距( NIQR) 。 中位值和標準化四分位距是數據集中和分散的度量, 與平均值和標準差相似。中位值是分布中間位置的一個估計。 標準化四分位距等於四分位距( IQR) 乘以因子 0.7413。 四分位距是高四分位數和低四分位數的差值。 對一組由小到大排列的數據,居於中間位置的數據為中位值, 有一半的數據高於它,一半的數據低於它;居於下四分之一位置的數據為下四分位數或低四分位數( Q1),該組數據的四分之一低於 Q1, 四分之三高於 Q1; 居於上四分之一位置的數據為上四分位數或高四分位數( Q3),該組數據的四分之一高於 Q3, 四分之三低於 Q3。在大多數情況下 Q1和 Q3通過數據值之間的內插法獲得。
附錄B
能力驗證計畫結果示例
B.1 總則本附錄給出了檢測能力驗證計畫和校準能力驗證計畫結果示例。其他的更多示例,可參見 GB/T 28043 等。
B.2 檢測能力驗證計畫能力驗證計畫可以設計為使用單一樣品,有時,為了查找造成結果偏離的誤差原因,也可以採用樣品對。樣品對可以是完全相同的均一樣品對,也可以是存在輕微差別的分割水平樣品對。均一樣品對,其結果預期是相同的。分割水平樣品對,其兩個樣品具有類似水平的被測量,其結果稍有差異。對雙樣品設計能力驗證計畫,可按照附錄 A 的方法對結果進行統計處理, 統計處理是基於結果對的和與差值。以中位值和標準化四分位距法為例。假設結果對是從樣品對 A 和 B 兩個樣品中獲得的。首先按下式計算每個參加者結果對的標準化和(用S表示)和標準化差(用D表示)
通過計算每個參加者結果對的標準化和以及標準化差,可以得出所有參加者的S和D的中位值和標準化四分位距,即 med( S)、 NIQR( S)、 med( D)、 NIQR( D)。根據所有參加者的S和D的中位值和 NIQR, 可以計算兩個z比分數,即實驗室間z比分數(ZB)和實驗室內z比分數(ZW)
ZB和ZW的判定準則同z 比分數。ZB主要反映結果的系統誤差,ZW主要反映結果的隨機誤差。 對於樣品對,ZB≥3 表明該樣品對的二個結果太高,ZB≤-3 表明其結果太低, Z>≥3表明其二個結果間的差值太大。表 B1 為鉛精礦中 Cu 的測定結果和統計處理結果。 樣品 A 和 B 為一對分割水平樣品。 表 B1 中給出了結果數、中位值、 NIQR、穩健變異係數(穩健 CV)、最小值、最大值和極差等統計量。
B.3 校準能力驗證計畫
在校準能力驗證計畫中,常使用En值來評定某一參加者的每一個單獨結果。En值並不表明哪個參加者的結果最接近指定值,它只表明其測量結果是否符合參加者聲稱的不確定度。因此,報告了小的不確定度的參加者,可能和在非常低水平(即較大的不確定度)上工作的參加者具有一個相似的En 值。在一系列相似的測量中, 當考慮En的絕對值明顯大於 1 的結果時, 宜評價參加者出具的所有結果,觀察是否存在一個系統偏離(例如En值始終是正值或負值)。
附錄C
測量審核結果的評定
C.1 總則本附錄介紹了測量審核結果的幾種評定方式。 對測量審核結果, 可根據參加者、測量方法及測量物品的具體情況,選用合適的方式進行評價。
C.2 測量審核結果的評定方式
C.2.1 按n 值評定按 4.4.1.3 中的式( 6) 計算En值。若En的絕對值小於等於1則判定參加者的結果為滿意,否則判定為不滿意。利用En值評定參加者結果,其前提是參加者必須能正確評定測量不確定度。如果參加者不能正確評定其測量不確定度,則無法使用該方法。
C.2.2 按臨界值( CD 值)評定當用於測量的標準方法提供有可靠的重複性標準差和復現性標準差時,可採用本方法對測量審核結果進行判定。