《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》是北京大學於2012年7月10日申請的專利,該專利的申請號為2012102385531,公布號為CN102737135A,授權公布日為2012年10月17日,發明人是田永鴻、姜夢林、黃鐵軍。
《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》包括以下步驟:預處理步驟,從查詢視頻中提取出格式一致的視覺關鍵幀和音頻幀;變形識別步驟,判定所述查詢視頻經受的變形的類別,並將它傳遞給該類別對應的級聯檢測器鏈;檢測步驟:級聯檢測器鏈中的檢測器依次處理查詢視頻,直到某個檢測器判定它為拷貝,或者所有檢測器全部判定它為非拷貝,在某一個檢測器內部,首先利用一種視覺特徵或音頻特徵檢索查詢視頻的視覺關鍵幀或音頻幀,然後利用時域金字塔匹配TPM將幀層次的檢索結果整合為視頻層次的拷貝檢測結果。該發明可以準確、快速地鑑定查詢視頻是否是給定參考視頻庫的拷貝,在數字著作權管理、廣告跟蹤、視頻內容過濾等領域都有重要的套用。
2016年12月7日,《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》獲得第十八屆中國專利優秀獎。
(概述圖為《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》摘要附圖)
基本介紹
- 中文名:基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統
- 公布號:CN102737135A
- 授權日:2012年10月17日
- 申請號:2012102385531
- 申請日:2012年7月10日
- 申請人:北京大學
- 地址:北京市海淀區中關村頤和園路5號
- 發明人:田永鴻、姜夢林、黃鐵軍
- Int.Cl.:G06F17/30(2006.01)I
- 代理機構:北京市商泰律師事務所
- 代理人:毛燕生
- 類別:發明專利
專利背景,發明內容,專利目的,技術方案,改善效果,附圖說明,技術領域,權利要求,實施方式,榮譽表彰,
專利背景
截至2012年7月,隨著經濟文化發展和技術進步,全球影視行業一直穩步增長。僅2011年,中國電影票房就超過131億人民幣,較2010年增長28.93%,而全球電影總票房更是創下326億美元的新高。影視產業已經成為很多國家的支柱產業之一,比如美國的影視產業僅在2009年就創造了1370億美元的產值,提供了220萬個工作崗位。
在影視資源日益豐富的同時,隨著視頻複製和網路傳輸技術的發展,盜版視頻也愈加泛濫。據統計(截至2012年7月),全球超過23%的網際網路流量用於傳輸侵犯智慧財產權的內容,其中大部分為盜版影視節目。如此大規模的盜版視頻嚴重危害了影視作品創作者和廣大消費者的利益。僅在2005年,盜版電影就導致全球電影產業損失了約205億美元。同時,視頻盜版問題也引發了越來越多的法律糾紛,比如Viacom媒體公司就曾於2007年起訴YouTube播放盜版視頻,並索賠10億美元。視頻盜版問題正引起全社會的關注,各個國家紛紛出台相應法規打擊盜版,比如美國通過了《反網路侵權與盜版法案》,大力制裁提供盜版視頻的網站。
打擊盜版視頻,保護數字著作權,已經成為社會各界的共識。但是爆炸式增長的視頻數量給著作權保護帶來了巨大的困難。2012年1月的統計數據表明,每分鐘上傳到YouTube的視頻長度已超過60小時。面對海量視頻內容,傳統的人工審查制度顯然力不從心,必須依靠自動的數字著作權管理DRM(Digital Rights Management)技術。
截至2012年7月,DRM技術主要包括加密(Encryption)、數字水印(Digital Water marking)和基於內容的拷貝檢測CBCD(Content-Based Copy Detection)。其中,加密是指將他人容易理解的明文信息編碼成難以理解的形式。2012年7月前,基於加密的DRM技術有諸多缺陷:成熟的文本加密技術不能直接套用於視頻數據;不同的DRM系統使用不同的加密方法,導致系統缺乏互用性和兼容性;加密技術限制了合法用戶的使用權,妨礙了大眾獲得著作權失效的視頻內容;加密技術大大增加了發布數字視頻的成本;加密技術面臨模擬陷阱(Analog Hole),即可以通過模擬方式翻錄視頻,然後重新數位化以繞過加密保護。數字水印是指向數字作品中嵌入特定信號,該信號可以被檢測或提取出來,從而對作品的著作權進行認定。數字水印同樣面臨諸多挑戰:嵌入的水印不夠健壯,難以抵禦如壓縮之類的變形;嵌入水印會導致視頻質量下降;數字水印不具備完備性,即任何人都可以向視頻中加入自己的水印;數字水印同樣面臨模擬陷阱。上述問題限制了加密技術和數字水印在視頻著作權保護中的套用,作為兩者的替代方案,基於內容的拷貝檢測吸引了越來越多的關注。
所謂拷貝(Copy),是指從一段參考視頻(Reference Video)經過某些音視頻變形(Audio-Visual Transformation)後得到的視頻。這裡的“參考視頻”可以看作受到著作權保護的原始視頻,比如影視節目,“拷貝”可以看作盜版視頻,“音視頻變形”是指在製作拷貝的過程中有意或無意加入的修改,比如在電影院偷錄電影時會引入噪聲和顏色失真。基於內容的拷貝檢測CBCD(Content-Based Copy Detection),是指對於給定的參考視頻庫(Reference Video Data Base)和任意查詢視頻(Query Video),通過分析查詢視頻的內容來判斷它是否包含來自參考視頻庫的拷貝片段,如果是的話,還要找出該片段在查詢視頻和參考視頻庫中的位置。
拷貝檢測可以有效克服基於加密和數字水印的DRM技術的缺陷。但是,拷貝檢測也面臨一系列技術難點。首先,拷貝視頻可能經受了某些音視頻變形,比如模糊、Gamma變換等質量下降,甚至是畫中畫、插入模式等內容改變(如圖1所示),這使得從拷貝視頻和原始的參考視頻中提取出不變的音視頻特徵(Audio-Visual Feature)變得困難,即要求特徵具有很高的健壯性(Robustness)。其次,有一些非拷貝查詢視頻(Non-Copy Query)與參考視頻非常相似(如圖2所示),為了準確地排除這些查詢視頻,需要特徵具有很高的區分性(Discriminability)。再次,實際套用中的參考視頻庫規模很大,比如一家大型電影公司的所有電影,為了快速比對查詢視頻和參考視頻,需要特徵具有很高的緊緻性(Compactness)。最後,對於基於關鍵幀和索引的拷貝檢測方法,需要合適的時域投票方法(Temporal Voting Approach)將幀層次的檢索結果轉化為視頻層次的拷貝檢測結果。為了解決上述難點,2012年7月前拷貝檢測方法主要關注音視頻特徵、時域投票和多特徵融合三個方面。
音視頻特徵:2012年7月前的音視頻特徵可以分成局部視覺特徵、全局視覺特徵和音頻特徵三類。局部視覺特徵描述了一幀圖像中的局部區域,或連續多幀圖像中的時空立方體,比如SIFT(Scale Invariant Feature Transform)、SURF(SpeededUpRobustFeatures)和STIP(Space-Time Interest Points),等等。全局視覺特徵描述了一幀或連續多幀圖像的整體統計信息,比如顏色直方圖(Color Histogram)和序數度量(Ordinal Measure)。音頻特徵描述了視頻音軌的時域和/或頻域統計信息,比如健壯音頻哈希(Robust Audio Hashing)和MFCC(Mel-Frequency Cepstral Coefficients)。
當前的音視頻特徵都不是“包打天下”的,即沒有一種特徵能夠抵禦所有音視頻變形。總體來說,局部視覺特徵對部分內容改變的視覺變形(Partial Content-Altered Visual Transformation)具有較好的健壯性,因為當圖像或視頻中的部分區域被改變時,仍然能夠從未被改變的區域提取出不變的局部特徵。但是對於一些內容保持的視覺變形(Content-Preserved Visual Transformation),比如模糊和加噪,局部視覺特徵的健壯性不如全局視覺特徵。此外,局部視覺特徵的時空代價遠高於全局視覺特徵。全局視覺特徵與局部視覺特徵具有鮮明的互補性,它對於內容保持的視覺變形具有較高的健壯性,並且具有緊緻性高、匹配速度快的優點。全局視覺特徵的缺點在於對部分內容改變的視覺變形不夠健壯,比如當視覺關鍵幀中最暗的區域被一個很亮的電視台標誌擋住的時候,它的序數度量就會發生很大的改變。音頻特徵能夠很好地抵禦內容保持的音頻變形(Content-Preserved Audio Transformation),並且也具有緊緻性高、匹配速度快的優點。但是音頻特徵對於內容改變的音頻變形(Content-Altered Audio Transformation),比如混合語音,仍然不夠健壯。
時域投票:利用一種視覺特徵或音頻特徵,可以為查詢視頻的視覺關鍵幀或音頻幀找到最相近的參考視頻的視覺關鍵幀或音頻幀。然而拷貝檢測需要的是為一個查詢視頻找到最相近的參考視頻,這就引入了時域投票(Temporal Voting)的問題。時域投票可以利用視頻的時域特性檢測經過嚴重變形的拷貝,同時排除與參考視頻相似的非拷貝,因此對於拷貝檢測系統非常重要。2012年7月前已經有多種時域投票方法。霍夫變換(Hough Transform)是一種適用於所有音視頻特徵的時域投票模型,它的出發點是:兩個視頻之間相互匹配的視覺關鍵幀或音頻幀應該是對齊的,即所有匹配具有相似的時間差。幾何一致性匹配(Geometrically Consistent Matching)以及時空驗證(Spatio-Temporal Verification)都是針對局部視覺特徵的時域投票模型,兩者的出發點都是:限制查詢視頻和參考視頻的特徵匹配符合某個全局變換模型(Global Transform Model)。基於維特比算法的幀融合(Viterbi-based Frame Fusion)也是一種適用於所有音視頻特徵的時域投票模型,該方法將時域投票過程轉化為隱馬爾科夫模型(Hidden Markov Models)的解碼問題,並利用一個修改的維特比算法(Viterbi Algorithm)進行快速求解。
上述幾種時域投票方法都存在一定的問題。霍夫變換對幀層次匹配施加了很強的時域一致性約束,雖然能較好地排除非拷貝,但也容易漏掉一些經過嚴重變形的拷貝;幾何一致性匹配和時空驗證都是為局部視覺特徵設計的,在計算全局變換模型時需要使用局部視覺特徵的位置等信息,因此不適用於全局視覺特徵和音頻特徵;基於維特比算法的幀融合使用的模型複雜,計算速度慢。
多特徵融合方法:如前所述,2012年7月前還沒有“包打天下”的特徵,因此越來越多的拷貝檢測方法開始利用多種特徵,即使用幾個相互獨立的檢測器(Detector),每個檢測器利用一種特徵得到一個單獨的拷貝檢測結果,最後將幾個檢測器的結果融合成為最終的拷貝檢測結果。競爭型結果融合模型就是一個典型的例子,該模型將幾個檢測器的結果進行競爭,勝出的作為最終結果。重排序型結果融合模型類似於元搜尋引擎中使用的重排序(Re-ranking)策略,即每個檢測器分別返回若干個與查詢視頻最相似的參考視頻,對這些參考視頻進行合併同時重新計算相似度,取相似度最高的參考視頻作為最終結果。校驗型結果融合模型將幾個檢測器的結果相互校驗,若保持一致則成為最終結果,否則採用額外的方法重新計算。分工型結果融合模型首先對查詢視頻進行變形識別,根據它經受的變形調用相應的檢測器進行處理。
上述結果層融合方法雖然都取得了比單一檢測器好的效果,但仍然存在一定的問題。對競爭型、重排序型和校驗型融合方法來說,因為要執行所有檢測器,所以處理時間至少是各個檢測器的運行時間之和,檢測效率低下。分工型融合方法每次只需要執行一個檢測器,相對於使用單一檢測器來說,僅僅增加了變形識別的時間;但是它的總體性能嚴重依賴於變形識別的效果,對於經受複雜變形的查詢視頻,變形識別很可能失敗,這時系統會選擇不合適的檢測器,影響檢測效果。
發明內容
專利目的
《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》針對較大規模、包含複雜變形的視頻拷貝檢測問題,提出了一種基於變形敏感的軟級聯TSSC(Transformation-Sensitive Soft Cascade)模型的視頻拷貝檢測方法及系統。
技術方案
一種基於變形敏感的軟級聯模型的視頻拷貝檢測方法,包括以下步驟:
預處理步驟,從查詢視頻中提取出格式一致的視覺關鍵幀和音頻幀;
變形識別步驟,判定所述查詢視頻經受的變形的類別,並將它傳遞給該類別對應的級聯檢測器鏈;
檢測步驟,所述級聯檢測器鏈中的檢測器依次處理所述查詢視頻,直到其中一個檢測器判定它為拷貝,或者所有檢測器判定它為非拷貝。每個檢測器首先利用一種視覺特徵或音頻特徵檢索查詢視頻的視覺關鍵幀或音頻幀,然後利用時域金字塔匹配TPM(Temporal Pyramid Matching)將幀層次的檢索結果整合為視頻層次的拷貝檢測結果。
所述預處理步驟用於從格式千差萬別的視頻中提取出格式一致的視覺關鍵幀和音視幀。預處理的第一步是提取視覺關鍵幀,第二步是提取音頻幀,第三步是針對特定的變形進行額外的處理。
作為預處理方案的優選,《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》的實施例針對畫中畫和左右翻轉變形,採取了額外處理。
所述變形識別步驟將音視頻混合變形分成若干類別,並根據查詢視頻的音頻幀和視覺關鍵幀的分類結果來判定查詢視頻經受的變形的類別。其中,對音視頻混合變形進行分類的依據有兩點:第一,各個類別具有較大的類間差異和較小的類內差異,可以被有效地區分開。第二,同一個類別中的變形可以被相同的級聯檢測器鏈處理。
作為變形識別方案的優選,《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》的實施例將音視頻混合變形分為三類,第一類指“包含音頻,並且經受內容保持的音頻變形”,第二類指“靜音或經受內容改變的音頻變形,並且經受內容保持的視覺變形”,第三類指“靜音或經受內容改變的音頻變形,並且經受內容改變的視覺變形”。該發明利用WASF特徵來判斷視頻是否是靜音的,利用WASF特徵與支持向量機SVM來判斷視頻是否經受了內容改變的音頻變形,利用稠密彩色SIFT詞袋(Dense Color SIFT Bag-of-Words,DCSIFTBoW)特徵與SVM來判斷視頻是否經受了內容改變的視覺變形。
所述檢測器通過處理查詢視頻的視覺關鍵幀或音頻幀,來判定查詢視頻是否是給定參考視頻庫的拷貝。在某一個檢測器內部,首先利用一種視覺特徵或音頻特徵檢索查詢視頻的視覺關鍵幀或音頻幀,得到最相似的參考視頻的視覺關鍵幀或音頻幀,然後利用時域金字塔匹配TPM將這些幀層次的檢索結果整合為視頻層次的拷貝檢測結果。
所述視覺特徵和音頻特徵有多種,每一種特徵對應一個檢測器。具體說來,應該包含一種局部視覺特徵,用於抵禦內容改變的視覺變形(Content-Altered Visual Transformation),比如攝錄、畫中畫和後處理;應該包含一種全局視覺特徵,用於抵禦內容保持的視覺變形(Content-Preserved Visual Transformation),比如壓縮、Gamma變換和加噪;還應該包含一種音頻特徵,用於抵禦內容保持的音頻變形(Content-Preserved Audio Transformation),比如MP3壓縮和多帶擴展。
作為特徵的優選,《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》的實施例採用了一種局部視覺特徵DCSIFTBoW,一種全局視覺特徵DCT,以及一種音頻特徵WASF。
所述TPM用於將幀層次的檢索結果整合為視頻層次的拷貝檢測結果。TPM包含以下步驟:第一步,對幀層次匹配集合進行霍夫變換,得到若干視頻匹配的假設,每個假設指明了一個查詢視頻片段和一個參考視頻片段。第二步,對於第一步中得出的每一個假設,將其中指定的查詢視頻片段和參考視頻片段分割為越來越精細的子段,並在多個粒度上計算視頻之間的相似度。在每一個粒度上,只有位於對應子段的幀層次匹配被保留下來,並參與相似度的計算。各個粒度上的相似度的加權和構成最終的視頻相似度,每一個假設及對應的相似度就構成了一個視頻匹配。第三步,從第二步計算出的視頻匹配中挑選出相似度最大的那一個作為最終輸出,並根據它的相似度判定查詢視頻是否為拷貝:若相似度大於等於某個預先設定的閾值,則判定它是拷貝視頻。
所述級聯檢測器鏈有多條,每一條鏈處理一類音視頻混合變形。構造級聯檢測器鏈的依據有兩點:第一,要充分利用各個檢測器對不同變形的健壯性。第二,要保留一定的冗餘處理能力,以應對變形識別錯誤的情況。
作為級聯檢測器鏈的優選,《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》的實施例為第一類和第二類變形構建了一個快速的級聯檢測器鏈,其中包含WASF檢測器和DCT檢測器,為第三類變形構建了一個健壯的級聯檢測器鏈,包含WASF檢測器、DCT檢測器以及DCSIFT檢測器。
所述級聯檢測器鏈包含一個相似度閾值向量,其中每一個閾值對應一個檢測器,用於判定查詢視頻是否是拷貝。所述TSSC模型使用閾值學習算法,自動為級聯檢測器鏈選擇出最優的相似度閾值向量。
所述閾值學習算法定義了檢測器在一個訓練視頻集上的錯誤率,用於衡量檢測器在訓練視頻集上的檢測效果。所述錯誤率是檢測器在所有訓練視頻上的檢測代價的加權和。訓練視頻的權重是不同的,而且可以根據視頻重要性的變化進行調整。檢測代價與檢測器使用的相似度閾值有關,對於相同的視頻匹配,不同的閾值會導致不同的拷貝判定結果,繼而導致不同的檢測代價。因此,對於給定的檢測器和訓練視頻集,錯誤率取決於檢測器使用的相似度閾值以及訓練視頻的權重分配。
所述閾值學習算法的依據有兩點:第一,最優閾值應該在減少假正檢FP(False Positive)和減少假負檢FN(False Negative)之間取得合適的折衷,為此需要在一系列閾值上計算檢測器的錯誤率,閾值的取值範圍是檢測器為所有訓練視頻返回的視頻匹配的相似度,與最小錯誤率相對應的相似度就被選作最優閾值。第二,後面的檢測器應該重點關注前面的檢測器檢測錯誤的訓練視頻,從而充分發揮檢測器之間的互補性。為此,在執行後面的檢測器時,要修改訓練視頻的權重,使得之前被正確檢測的視頻的權重減小。
一種基於變形敏感的軟級聯模型的視頻拷貝檢測系統,包括以下模組:
預處理模組,從查詢視頻中提取出格式一致的視覺關鍵幀和音頻幀;
變形識別模組,判定所述查詢視頻經受的變形的類別;
多個檢測器模組,每個檢測器首先利用一種視覺特徵或音頻特徵檢索查詢視頻的視覺關鍵幀或音頻幀,得到幀層次匹配的集合,然後利用時域金字塔匹配TPM處理幀層次匹配的集合,得到一個視頻匹配;
TSSC模組,根據變形識別結果以及用戶的配置,調用一組檢測器模組依次處理查詢視頻,直到其中一個檢測器判定它為拷貝,或者所有檢測器判定它為非拷貝;
用戶配置與結果展示模組,允許用戶選擇系統使用的預處理操作和檢測器,並將拷貝檢測結果展示給用戶。
每一個檢測器模組包括以下子模組:
幀層次檢索子模組,利用一種視覺特徵或音頻特徵檢索查詢視頻的視覺關鍵幀或音頻幀,得到最相似的參考視頻的視覺關鍵幀或音頻幀,查詢視頻的視覺關鍵幀或音頻幀與檢索到的參考視頻的視覺關鍵幀或音頻幀構成幀層次匹配的集合;
時域金字塔匹配TPM子模組,利用時域金字塔匹配TPM處理幀層次匹配的集合,得到與查詢視頻最相似的參考視頻,以及兩者的相似度,查詢視頻與返回的參考視頻構成一個視頻匹配。
改善效果
1、利用預處理排除了視頻格式不同造成的影響;在保持視頻主要的視覺內容的同時丟棄了大部分視頻幀,降低了幀層次檢索的時空代價;通過針對畫中畫和翻轉變形的額外處理,提高了拷貝檢測效果。
2、挑選了多種互補的音視頻特徵,每種特徵都能有效抵禦一類變形,通過TSSC模型對這些特徵進行結果層融合,可以抵禦絕大部分變形。
3、利用TPM將幀層次的檢索結果整合為視頻層次的拷貝檢測結果。TPM充分利用了視頻的時域特性,提高了拷貝檢測效果,並且模型簡單,計算快速。
4、利用變形識別判斷出查詢視頻經受的變形的類別,並為每一類變形“量身訂做”了一條級聯檢測器鏈,充分利用多個檢測器的互補優勢,大大提高了拷貝檢測效果。
5、對於絕大部分查詢視頻,TSSC模型只需要執行一到兩個非常快速的檢測器,僅僅對於少數經受複雜變形的查詢視頻,TSSC模型才需要執行慢速的檢測器。總體說來,TSSC模型節省了大部分處理時間,大大提高了拷貝檢測速度。
6、TSSC模型利用閾值學習算法,自動選擇最優的相似度閾值。這樣一方面充分發揮了檢測器之間的互補特性,使系統達到最優的檢測效果和速度,另一方面避免了人工調整閾值的麻煩,提高了系統的通用性。
7、《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》可以準確、快速地鑑定查詢視頻是否是給定參考視頻庫的拷貝,在數字著作權管理、廣告跟蹤、視頻內容過濾等領域都有重要的套用。
附圖說明
圖1是拷貝視頻經受的視覺變形示例:中心是原始的參考視頻,周圍是拷貝視頻;
圖2是與參考視頻非常相似的非拷貝查詢視頻示例:(a)是在不同的球隊在同一個冰球場打球,(b)是不同的嘉賓接受同一個主持人採訪;
圖3是基於變形敏感的軟級聯模型的視頻拷貝檢測方法的流程圖;
圖4是變形識別過程的流程圖;
圖5是檢測器的框架;
圖6是利用DCSIFTBoW特徵檢索視覺關鍵幀的過程;
圖7是DCT特徵的能量子帶分布;
圖8是WASF特徵提取過程;
圖9是TPM預處理過程示意圖;
圖10是一個L=2的TPM的示例;
圖11是基於變形敏感的軟級聯模型的視頻拷貝檢測系統的框架。
技術領域
《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》提供了一種基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統,可以準確、快速地鑑定查詢視頻是否是給定參考視頻庫的拷貝,在數字著作權管理、廣告跟蹤、視頻內容過濾等領域都有重要的套用。該發明屬於計算機網路技術領域。
權利要求
1.一種基於變形敏感的軟級聯模型的視頻拷貝檢測方法,其特徵在於包括以下步驟:預處理步驟,從查詢視頻中提取出格式一致的視覺關鍵幀和音頻幀;變形識別步驟,判定查詢視頻經受的變形的類別,並將它傳遞給該類別對應的級聯檢測器鏈;所述變形識別步驟具體為:利用WASF特徵來判斷查詢視頻是否是靜音的,利用WASF特徵與支持向量機SVM來判斷查詢視頻是否經受了內容改變的音頻變形,利用DCSIFTBoW特徵與SVM來判斷查詢視頻是否經受了內容改變的視覺變形;其中:所述WASF特徵提取過程如下:從每個90毫秒的音頻字中提取出一個12維的指紋,然後將一個音頻幀所包含的198個音頻字的指紋拼接起來,得到一個2,376維的向量,最後將這個高維向量降維到72維;所述DCSIFT BoW特徵提取過程如下:首先隨機選擇出10,000,000個參考視頻的描述子,利用KMeans算法將其聚成800個簇,之後每一個描述子都可以量化為一個簇ID,特徵的位置、尺度和主方向也依次量化為4、2和16個格子,擴展後的視覺詞典包含800×4×2×16=102,400個視覺單詞,每一個視覺關鍵幀可以表示為一系列視覺單詞的集合;檢測步驟,級聯檢測器鏈中的檢測器依次處理所述查詢視頻,直到其中一個檢測器判定它為拷貝,或者所有檢測器判定它為非拷貝,每個檢測器首先利用一種視覺特徵或音頻特徵檢索查詢視頻的視覺關鍵幀或音頻幀,然後利用時域金字塔匹配TPM將幀層次的檢索結果整合為視頻層次的拷貝檢測結果;每一個檢測器執行以下檢測步驟:幀層次檢索步驟,利用一種視覺特徵或音頻特徵檢索查詢視頻的視覺關鍵幀或音頻幀,得到最相似的參考視頻的視覺關鍵幀或音頻幀,查詢視頻的視覺關鍵幀或音頻幀與檢索到的參考視頻的視覺關鍵幀或音頻幀構成幀層次匹配的集合;時域金字塔匹配TPM步驟,利用時域金字塔匹配TPM處理幀層次匹配的集合,得到與查詢視頻最相似的參考視頻,以及兩者的相似度,查詢視頻與返回的參考視頻構成一個視頻匹配;所述時域金字塔匹配TPM步驟具體為:
第一步,對幀層次匹配集合進行霍夫變換,得到若干視頻匹配的假設,每個假設指明了一個查詢視頻片段和一個參考視頻片段;
第二步,對於第一步中得出的每一個假設,將其中指定的查詢視頻片段和參考視頻片段分割為子段,並在多個粒度上計算視頻之間的相似度,在每一個粒度上,只有位於對應子段的幀層次匹配被保留下來,並參與相似度的計算,各個粒度上的相似度的加權和構成最終的視頻相似度,每一個假設及對應的相似度就構成了一個視頻匹配;
第三步,從第二步計算出的視頻匹配中挑選出相似度最大的那一個作為最終輸出,並根據它的相似度判定查詢視頻是否為拷貝:若相似度大於等於某個預先設定的閾值,則判定它是拷貝視頻。
2.根據權利要求1所述的一種基於變形敏感的軟級聯模型的視頻拷貝檢測方法,其特徵在於所述檢測步驟,級聯檢測器鏈上的檢測器依次處理查詢視頻,每一個檢測器返回與查詢視頻最相似的參考視頻及相似度,若相似度大於等於某個預先設定的閾值,則判定查詢視頻是拷貝,並終止運行,否則執行下一個檢測器;僅當所有檢測器全部判定查詢視頻為非拷貝時,系統才會接受它為非拷貝視頻。
3.根據權利要求2所述的一種基於變形敏感的軟級聯模型的視頻拷貝檢測方法,其特徵在於使用閾值學習算法,自動為級聯檢測器鏈選擇出最優的相似度閾值向量;每一個相似度閾值對應一個檢測器,用於判定查詢視頻是否是拷貝。
4.根據權利要求3所述的一種基於變形敏感的軟級聯模型的視頻拷貝檢測方法,其特徵在於所述閾值學習算法定義了檢測器在一個訓練視頻集上的錯誤率;對於給定的檢測器和訓練視頻集,所述錯誤率取決於檢測器使用的相似度閾值以及所有訓練視頻的權重。
5.根據權利要求3所述的一種基於變形敏感的軟級聯模型的視頻拷貝檢測方法,其特徵在於所述閾值學習算法在為一個檢測器挑選最優閾值的時候,將閾值設定為一系列值並分別計算檢測器的錯誤率,與最小錯誤率相對應的閾值就被選作最優閾值;閾值的取值範圍是檢測器為所有訓練視頻返回的視頻匹配的相似度的集合。
6.根據權利要求3所述的一種基於變形敏感的軟級聯模型的視頻拷貝檢測方法,其特徵在於所述閾值學習算法在為一個檢測器挑選出最優閾值之後,會減小該檢測器檢測正確的訓練視頻的權重;權重減小的程度取決於檢測器的最小錯誤率,最小錯誤率越小,權重減小的程度越大。
7.一種基於變形敏感的軟級聯模型的視頻拷貝檢測系統,其特徵在於包括以下模組:預處理模組,從查詢視頻中提取出格式一致的視覺關鍵幀和音頻幀;變形識別模組,判定所述查詢視頻經受的變形的類別;所述變形識別模組具體為:利用WASF特徵子模組來判斷查詢視頻是否是靜音的,利用WASF特徵子模組與支持向量機SVM子模組來判斷查詢視頻是否經受了內容改變的音頻變形,利用DCSIFTBoW特徵子模組與SVM子模組來判斷查詢視頻是否經受了內容改變的視覺變形;其中:所述WASF特徵子模組用於提取WASF特徵:從每個90毫秒的音頻字中提取出一個12維的指紋,然後將一個音頻幀所包含的198個音頻字的指紋拼接起來,得到一個2,376維的向量,最後將這個高維向量降維到72維;所述DCSIFTBoW特徵子模組用於提取DCSIFTBoW特徵:首先隨機選擇出10,000,000個參考視頻的描述子,利用KMeans算法將其聚成800個簇,之後每一個描述子都可以量化為一個簇ID,特徵的位置、尺度和主方向也依次量化為4、2和16個格子,擴展後的視覺詞典包含800×4×2×16=102,400個視覺單詞,每一個視覺關鍵幀可以表示為一系列視覺單詞的集合;多個檢測器,每個檢測器首先利用一種視覺特徵或音頻特徵檢索查詢視頻的視覺關鍵幀或音頻幀,得到幀層次匹配的集合,然後利用時域金字塔匹配TPM處理幀層次匹配的集合,得到一個視頻匹配;TSSC模組,根據變形識別結果以及用戶的配置,調用一組檢測器依次處理查詢視頻,直到其中一個檢測器判定它為拷貝,或者所有檢測器判定它為非拷貝;每一個檢測器包括以下子模組:幀層次檢索子模組,利用一種視覺特徵或音頻特徵檢索查詢視頻的視覺關鍵幀或音頻幀,得到最相似的參考視頻的視覺關鍵幀或音頻幀,查詢視頻的視覺關鍵幀或音頻幀與檢索到的參考視頻的視覺關鍵幀或音頻幀構成幀層次匹配的集合;時域金字塔匹配TPM子模組,利用時域金字塔匹配TPM處理幀層次匹配的集合,得到與查詢視頻最相似的參考視頻,以及兩者的相似度,查詢視頻與返回的參考視頻構成一個視頻匹配。
所述時域金字塔匹配TPM子模組包括:
第一模組,對幀層次匹配集合進行霍夫變換,得到若干視頻匹配的假設,每個假設指明了一個查詢視頻片段和一個參考視頻片段;
第二模組,對於第一模組中得出的每一個假設,將其中指定的查詢視頻片段和參考視頻片段分割為越來越精細的子段,並在多個粒度上計算視頻之間的相似度,在每一個粒度上,只有位於對應子段的幀層次匹配被保留下來,並參與相似度的計算,各個粒度上的相似度的加權和構成最終的視頻相似度,每一個假設及對應的相似度就構成了一個視頻匹配;第三模組,從第二模組計算出的視頻匹配中挑選出相似度最大的那一個作為最終輸出,並根據它的相似度判定查詢視頻是否為拷貝:若相似度大於等於某個預先設定的閾值,則判定它是拷貝視頻;用戶配置與結果展示模組,允許用戶選擇系統使用的預處理操作和檢測器,並將拷貝檢測結果展示給用戶。
實施方式
一種基於變形敏感的軟級聯模型的視頻拷貝檢測方法,其整體流程參見圖3。其中,預處理操作包括以下步驟:
步驟11:提取視覺關鍵幀;《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》按照每秒3幀的頻率,等間隔地提取視覺關鍵幀。每秒3幀的採樣率可以在保持視頻主要視覺內容的同時丟棄大部分視頻幀,節約了視覺幀檢索的時空代價。
步驟12:提取音頻幀;為此,首先要將視頻的音軌分割成90毫秒的音頻字,相鄰音頻字之間有60毫秒的重疊,然後,連續198個音頻字構成一個6秒長的音頻幀,相鄰音頻幀共用178個音頻字,即有5.4秒的重疊。
步驟13:對於查詢視頻,採取了額外的預處理措施,以便更好地應對畫中畫和左右翻轉變形;具體說來,利用二維霍夫變換來檢測兩組平行線,繼而檢測和定位出畫中畫的區域;對於包含畫中畫的視頻,要分別對整個視覺關鍵幀和畫中畫部分進行檢測,只要有一個結果判定它是拷貝,就確認它是拷貝;此外,為應對潛在的左右翻轉變形,所有判定為非拷貝的查詢視頻都要翻轉過來重新進行拷貝檢測。
變形識別模組將音視頻混合變形分為三類,第一類指“包含音頻,並且經受內容保持的音頻變形”,第二類指“靜音或經受內容改變的音頻變形,並且經受內容保持的視覺變形”,第三類指“靜音或經受內容改變的音頻變形,並且經受內容改變的視覺變形”。變形識別過程參見圖4,包括以下步驟:
步驟21:從查詢視頻的音頻幀中提取WASF特徵,WASF特徵提取過程參見步驟61。若某一個WASF特徵向量全部由0組成,則說明對應的音頻幀是靜音的。如果超過10%的音頻幀是靜音的,則判斷該視頻是靜音的;如果查詢視頻是靜音的,則執行步驟23,否則執行步驟22。
步驟22:將查詢視頻的WASF特徵依次送入一個支持向量機SVM(Support Vector Machine),判斷對應的音頻幀是否經受了內容改變的音頻變形。通過對所有音頻幀的結果進行投票,判斷該視頻是否經受了內容改變的音頻變形。如果查詢視頻沒有經受內容改變的音頻變形,則判定它屬於第一類變形,並終止變形識別過程;否則執行步驟23。
步驟23:對查詢視頻進行畫中畫檢測,如果包含畫中畫,則判定它屬於第三類變形,並終止變形識別過程;否則執行步驟24。
步驟24:從查詢視頻的視覺關鍵幀中提取DCSIFTBoW特徵,DCSIFTBoW特徵提取過程參見步驟41;將這些特徵依次送入第二個SVM,判斷對應的視覺關鍵幀是否經受了內容改變的視覺變形。通過對所有視覺關鍵幀的結果進行投票,判斷該視頻是否經受了內容改變的視覺變形。如果查詢視頻經受了內容改變的視覺變形,則判定它屬於第三類變形,否則判定它屬於第二類變形。終止變形識別過程。
《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》採用的檢測器的框架參見圖5,檢測過程包括:
步驟31:在離線處理階段,從所有參考視頻的視覺關鍵幀(音頻幀)中提取某種視覺特徵(音頻特徵),然後存儲在合適的索引結構中。
步驟32:在查詢階段,檢索查詢視頻的視覺關鍵幀(音頻幀)。為此,首先使用步驟31中的特徵提取方法,從查詢視頻的視覺關鍵幀(音頻幀)中提取出特徵,然後在參考特徵索引中進行搜尋,為每一個查詢視頻的視覺關鍵幀(音頻幀)找出最相似的KF個參考視頻的視覺關鍵幀(音頻幀),得到一個幀層次匹配的集合FM,其中包含一系列幀層次匹配:
(1)
其中,q和r分別表示查詢視頻和參考視頻的ID,t(q)和t(r)分別表示查詢視頻的視覺關鍵幀(音頻幀)和參考視頻的視覺關鍵幀(音頻幀)的時間戳,fs表示兩個視覺關鍵幀(音頻幀)的相似度;fm表示q位於t(q)時刻的視覺關鍵幀(音頻幀)匹配上了r位於t(r)時刻的視覺關鍵幀(音頻幀),兩幀之間的相似度為fs。KF代表為每個查詢視頻的視覺關鍵幀(音頻幀)檢索出的最相似的參考視頻的視覺關鍵幀(音頻幀)的數目,其取值範圍是5≤KF≤100,《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》的實施例使用KF=20。
步驟33:在查詢階段,對幀層次匹配集合FM進行時域金字塔匹配TPM(Temporal Pyramid Matching),得到最相似的視頻層次匹配:
(2)
其中,q和r分別表示查詢視頻和參考視頻的ID,t(q)和t(q)表示查詢視頻q中的拷貝片段的起止時間戳,t(r)和t(r)表示該拷貝片段對應的參考視頻r中的片段的起止時間戳,vs表示查詢視頻q與參考視頻r的相似度。vm(q)表示q的片段[t(q),t(q)]匹配到了r的片段[t(r),t(r)],兩個視頻之間的相似度為vs。
然後,根據vs和一個預先設定的相似度閾值θ判定查詢視頻是否為拷貝,若vs≥θ,則輸出:
(3)
表明q是r的拷貝,簡記作C(q,r)。其中公式(3)中各個參數的含義與公式(2)相同。否則輸出:
(4)
表明q不是拷貝。
《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》利用三種互補的音視頻特徵,即DCSIFTBoW、DCT和WASF,構建了三個相互獨立的檢測器dCSIFT、dDCT和dWASF,每個檢測器都按照步驟31~33進行拷貝檢測。
利用DCSIFTBoW特徵檢索視覺關鍵幀的過程參見圖6,其過程包括:
步驟41:在離線處理階段,從所有參考視頻的視覺關鍵幀中提取出稠密彩色SIFT(Dense Color SIFT,DCSIFT)特徵,量化為詞袋BoW(Bag-of-Words)表達方式,並存儲在倒排索引中。
具體地,DCSIFT與傳統SIFT的區別在於稠密(Dense)和彩色(Color)。所謂稠密,是指拋棄了SIFT的興趣點檢測模組,轉而使用多尺度稠密採樣(Multi-Scale Dense Sampling)將圖像劃分為多個區域,將其中的單色區域拋棄後,為剩下的每個區域計算一個局部特徵。所謂彩色,指的是描述子並不是從灰度圖像中提取的,而是從LAB彩色圖像的3個通道中提取,然後拼接在一起。
具體地,《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》使用最佳化的BoW方法對DCSIFT特徵進行量化,並使用倒排索引存儲量化後的DCSIFTBoW特徵。由於向量量化會削弱描述子的區分性,該發明考慮了特徵的位置、尺度和主方向信息,以彌補描述子量化時損失的區分性。具體說來,首先隨機選擇出10,000,000個參考視頻的描述子,利用KMeans算法將其聚成800個簇,之後每一個描述子都可以量化為一個簇ID。特徵的位置、尺度和主方向也依次量化為4、2和16個格子。於是,擴展後的視覺詞典(VisualVocabulary)包含800×4×2×16=102,400個視覺單詞(Visual Word)。每一個視覺關鍵幀可以表示為一系列視覺單詞的集合,簡稱為詞袋BoW(Bag-of-Words)。為了加快特徵匹配,使用倒排索引來存儲所有參考視頻的DCSIFTBoW特徵。
步驟42:在查詢階段,利用相同的特徵提取與量化方法,從查詢視頻的視覺關鍵幀中提取出DCSIFTBoW特徵,並對參考視頻庫的DCSIFTBoW倒排索引進行搜尋,得到幀層次匹配的集合FM。
利用DCT特徵檢索視覺關鍵幀的過程包括:
步驟51:在離線處理階段,從所有參考視頻的視覺關鍵幀中提取出DCT特徵,並存儲在局部敏感哈希LSH(Locality Sensitive Hashing)中。
具體地,DCT特徵是根據相鄰圖像塊的DCT係數的關係計算出來的,其過程包括:
1.將圖像轉變為灰度圖,並歸一化為64×64像素;
2.將圖像等分為64個子塊,子塊編號為0~63,每個子塊包含8×8個像素;
3.對每一個子塊進行離散餘弦變換DCT(Discrete Cosine Transform),得到8×8的係數矩陣;
4.計算出每個係數矩陣的前4個子帶的能量,前4個子帶的編號為0~3,分布如圖7所示;
5.根據相鄰子塊的子帶能量的大小關係,生成一個256維的特徵F256:
(5)
(6)
其中ei,j表示第j個圖像塊的第i個子帶的能量,fi,j表示DCT特徵中的一個維度,F256表示一幅圖像的DCT特徵。
DCT特徵採用漢明距離(Hamming Distance)進行相似度計算。DCT特徵可以有效地抵禦內容保持的視覺變形,並且具有緊緻性好、提取與檢索速度快的優點。
步驟52:在查詢階段,利用相同的特徵提取方法,從查詢視頻的視覺關鍵幀中提取出DCT特徵,並對參考視頻庫的DCTLSH進行搜尋,得到幀層次匹配的集合FM。
利用WASF特徵檢索音頻幀的過程包括:
步驟61:在離線處理階段,從所有參考視頻的音頻幀中提取出WASF特徵,並存儲在一個LSH中。
具體地,WASF特徵的全稱為加權音頻譜平滑度(Weighted Audio Spectrum Flatness),該特徵首先利用人類聽覺系統HAS(Human Auditory System)函式對音頻譜進行加權,然後再計算MPEG-7描述子——音頻譜平滑度ASF(Audio Spectrum Flatness),使得特徵更加符合HAS的外耳和中耳模型。
WASF特徵的提取過程可以概括地說,首先按照圖8所示的流程,從每個90毫秒的音頻字中提取出一個12維的指紋,然後將一個音頻幀所包含的198個音頻字的指紋拼接起來,得到一個2,376維的向量,最後將這個高維向量降維到72維,就是一個音頻幀的WASF特徵。
WASF特徵採用歐式距離(Euclidean Distance)進行相似度計算。WASF特徵可以有效地抵禦內容保持的音頻變形,並且具有提取與檢索速度快的優點。
步驟62:在查詢階段,利用相同的特徵提取方法,從查詢視頻的音頻幀中提取出WASF特徵,並對參考視頻庫的WASFLSH進行搜尋,得到幀層次匹配的集合FM。
時域金字塔匹配TPM(Temporal Pyramid Matching)將金字塔匹配核(Pyramid Match Kernel)套用於一維的時域空間,利用幀層次匹配的集合FM,在多粒度上計算視頻之間的相似度。其過程包括:
步驟71:預處理,得到一系列假設。對FM進行二維霍夫變換,其中第一個維度代表參考視頻的ID,第二個維度代表查詢視頻的視覺關鍵幀(音頻幀)與參考視頻的視覺關鍵幀(音頻幀)之間的時間差δt=t(q)-t(r),參考視頻ID與時間差δt兩兩組合得到一個二維直方圖,其中的每一個格子(Bin)代表一個查詢視頻的潛在匹配<r,δt>。霍夫變換的過程就是將FM中的每個fm劃分到相應的格子中,然後統計每個格子中的fm,將它們的相似度fs累加起來作為該格子的相似度bs,最終挑選出相似度最高的Kb個格子,Kb的取值範圍是5≤Kb≤20,《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》的實施例使用Kb=10。對於每一個格子<r,δt>,從FM中挑選出與之相符的第一個和最後一個幀層次匹配,從而完成對拷貝片段的定位,得到一個可能的假設(Hypothesis):
(7)
(8)
其中,公式(7)和(8)中各個參數的含義與公式(2)相同。h(q)表示q的片段[t(q),t(q)]匹配到了參考視頻r的片段[t(r),t(r)]。預處理過程如圖9所示。
步驟72:對步驟71得到的各個假設分別進行時域金字塔匹配TPM,得到一系列視頻匹配。對於給定假設h(q),TPM將它分割成越來越精細的子段,並在多個粒度上計算視頻之間的相似度,如圖10所示。具體說來,TPM在第0,1,…,L層上分別進行時域匹配,L的取值範圍是1≤L≤5,《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》的實施例使用L=3。在第l層上,視頻片段[t(q),t(q)]和[t(r),t(r)]都被等分為D=2個時域子段TS(TemporalSegment),分別記作ts1(q),…,tsD(q)和ts1(r),…,tsD(r),只有位於對應子段的幀層次匹配被保留下來並參與視頻相似度的計算。在第l層上的視頻相似度vs按照如下方式計算:
(9)
(10)
其中,表示第l層上、第i個時域子段的相似度,nf表示[t(q),t(q)]中的視覺關鍵幀(音頻幀)的數目,歸一化因子1/nf確保vs不受視頻片段長度的影響。最終的視頻相似度是各層上的相似度的加權和:
(11)
其中,第0層的相似度權重設定為2,第l層(l=1,…,L)的相似度權重設定為2。這些相似度權重滿足兩個條件:第一,越低層的相似度權重越小,這反應了對稀疏層次上的匹配的懲罰;第二,所有權重的和為1,這保證了vs的取值範圍是[0,1]。利用TPM計算出一個假設h(q)的相似度之後,就得到一個視頻匹配:
(12)
其中,公式(12)中各個參數的含義與公式(2)相同。vm(q)表示查詢視頻q的片段[t(q),t(q)]匹配到了參考視頻r的片段[t(r),t(r)],兩個視頻之間的相似度為vs。
步驟73:後處理,輸出拷貝檢測結果。從Kb個視頻匹配中挑選出相似度最高的一個,作為最終匹配,並根據它的相似度vs和預先設定的閾值θ判定q是否為拷貝。若vs≥θ,則輸出C(q,t(q),t(q),r,t(r),t(r)),表明q是r的拷貝,簡記作C(q,r)。否則輸出,表明q不是拷貝。
變形敏感的軟級聯TSSC(Transformation-Sensitive Soft Cascade)模型如圖3所示。TSSC為第一類和第二類音視頻混合變形構建了一個快速的檢測器鏈<dWASF,dDCT>,為第三類音視頻混合變形構建了一個健壯的檢測器鏈<dWASF,dDCT,dDCSIFT>。整個TSSC模型可以表示為:
(13)
TSSC進行拷貝檢測的過程如下:
步驟81:利用如11~13所示的預處理步驟,從查詢視頻q中提取出視覺關鍵幀和音頻幀,並針對畫中畫和左右翻轉變形進行額外處理。
步驟82:利用如21~24所示的變形識別步驟,將查詢視頻q劃分到某一個音視頻混合變形類別m(m∈{1,2,3})中。
步驟83:第m條鏈上的檢測器依次處理q,直到某個檢測器判定它為拷貝,或者全部檢測器一致判定它為非拷貝。其中Nm表示第m條鏈上的檢測器的數目,dm,n表示第m條鏈上的第n個檢測器。具體地說,dm,1首先處理q並返回最相近的參考視頻rm,1,若兩者的相似度vsm,1大於等於某個預先設定的閾值,則系統立刻判定q是rm,1的拷貝,並終止運行,否則將執行檢測器dm,2。這個過程持續下去,直到Nm個檢測器全部運行完畢。僅當Nm個檢測器全部判定q為非拷貝時,系統才會接受q為非拷貝視頻。
TSSC中的每個檢測器都有一個相似度閾值,用於判定查詢視頻是否為拷貝。檢測器dm,n的相似度閾值記作θm,n所有檢測器的閾值構成一個矩陣。TSSC利用一個閾值學習算法,自動挑選出最優的相似度閾值矩陣,其中與的區別在於:前者是通過機器學習選擇出的最優相似度閾值,而後者是人工設定的相似度閾值。具體到圖3所示的實施例,需要學習的最優閾值矩陣可以表示為:
(14)
為了學習最優閾值,首先需要定義檢測器在一個訓練視頻集上的錯誤率。閾值學習的目標就是為每一條級聯檢測器鏈選擇出最優閾值向量,使其在訓練視頻集上的錯誤率達到最低。
對於給定的訓練視頻q、檢測器d及相似度閾值θ,假設d返回的視頻匹配為,q對應於θ的檢測代價記作c(q,θ),其計算方法概括如下:
(1)當q的確是拷貝視頻時,不妨假設真實結果為,則:
a.當d判定q為拷貝,即vs≥θ時:若vm(q)包含了正確的參考視頻片段,即,並且與有重疊時,則vm(q)是一個真正檢TP(True Positive),c(q,θ)被設為0;若vm(q)包含了錯誤的參考視頻片段,則它同時造成了一個假正檢FP(FalsePositive)和一個假負檢FN(False Negative),c(q,θ)被設為cFP+cFN,其中cFP與cFN分別代表對一個FP和一個FN的懲罰;
b.若d判定q為非拷貝,即vs<θ時,則vm(q)是一個FN,c(q,θ)被設為cFN;
(2)當q為非拷貝視頻時:
a.若d判定q為拷貝,則vm(q)是一個FP,c(q,θ)被設為cFP;
b.若d判定q為非拷貝,則vm(q)是一個真負檢TN(TrueNegative),c(q,θ)被設為0。
上述規則可以概括為:
(15)
其中,表示q的確是拷貝,T(vm(q))表示vm(q)中包含了正確的參考視頻片段。<CFP,CFN>是根據現實需要設定的,《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》實施例中設定為<2,0.2>,因為在著作權保護等套用中,一般說來,一個FP比一個FN的危害要大得多。
對於給定的訓練視頻集Q={q1,q2,…,qJ}、檢測器d及相似度閾值θ,d在Q上、對應於θ的錯誤率記作∈(Q,θ)。其中J表示訓練視頻的數目,qj(j=1,2,…,J)表示第j個訓練視頻。∈(Q,θ)定義為每個訓練視頻的檢測代價的加權和:
(16)
其中,wj(j=1,2,…,J)表示訓練視頻qj的權重。
在TSSC中,每一條級聯檢測器鏈處理一類變形,因此在學習閾值的時候,應該以一條級聯檢測器鏈為單位,學習出一個最優閾值向量。對於給定的級聯檢測器鏈D=<d1,d2,…,dN>,以及訓練視頻集Q={q1,q2,…,qJ},其中N和J分別表示檢測器和訓練視頻的數目,閾值學習過程包括:
步驟91:初始化訓練視頻的權重:
(17)
其中,表示第1次執行步驟92時,訓練視頻qj的權重。
步驟92:對於i=1,2,…,N,分別執行步驟92.1~92.4:
步驟92.1:對訓練視頻的權重進行歸一化:
(18)
(19)
其中,表示第i次執行步驟92時訓練視頻qj的權重,sum表示所有權重的和。
步驟92.2:利用di檢測Q中的每一個視頻,記錄下di返回的所有視頻匹配,得到集合VMi,同時記錄下這些視頻匹配的相似度,得到集合VSi:
(20)
(21)
其中,表示檢測器di為訓練視頻qj返回的視頻匹配。
步驟92.3:為di尋找最優閾值同時計算出di的最小錯誤率。太大的θi會導致FN增加,太小的θi會導致FP增加,只有θi取得合適的值,才能均衡地減少FP和FN,從而得到最小錯誤率。為此,依次令θi等於VSi中的各個值,並計算∈i(Q,θi),與最小錯誤率相對應的θi就被選作:
(22)
(23)
步驟92.4:更新訓練視頻的權重。為充分發揮檢測器之間的互補性,提高系統整體性能,後面的檢測器應該重點關注前面的檢測器檢測錯誤的訓練視頻。為此,在執行後面的檢測器時,要減小之前被正確檢測的視頻的權重:
(24)
其中,表示qj相對應的檢測代價,表示當相似度閾值為的時候,di正確檢測了qj,此時要根據來減小qj的權重,否則維持權重不變。
步驟93:輸出最優閾值向量。
《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》實施例提供了一種基於變形敏感的軟級聯模型的視頻拷貝檢測系統,如圖11所示,該系統實現了上述技術方案,即包含了一個預處理模組、一個變形識別模組、三個基本檢測器模組、一個TSSC模組,以及一個用戶配置與結果展示模組。其中,每個檢測器模組包含一個幀層次檢索子模組,所有檢測器模組共用一個相同的TPM子模組;TSSC模組根據變形識別結果以及用戶的配置,調用一組檢測器模組依次處理查詢視頻;用戶配置與結果展示模組允許用戶根據現實需求配置系統,並且能將檢測結果直觀地展示給用戶。
榮譽表彰
2016年12月7日,《基於變形敏感的軟級聯模型的視頻拷貝檢測方法及系統》獲得第十八屆中國專利優秀獎。