搜尋引擎線上算法的GPU最佳化關鍵技術研究

《搜尋引擎線上算法的GPU最佳化關鍵技術研究》是依託南開大學,由劉曉光擔任項目負責人的面上項目。

基本介紹

  • 中文名:搜尋引擎線上算法的GPU最佳化關鍵技術研究
  • 項目類別:面上項目
  • 項目負責人:劉曉光
  • 依託單位:南開大學
中文摘要,結題摘要,

中文摘要

搜尋引擎服務是最重要的網際網路服務之一,它必須能夠在秒級內完成用戶查詢請求並返回給用戶所需的結果。為了達到這一要求,最新、最好的IT技術都會被套用到搜尋引擎中來。本課題的研究動機正是來自搜尋引擎企業的實際需求:如何降低單個搜尋伺服器的CPU負載。針對這一問題,本課題的工作是研究一種CPU與GPU混合方法來最佳化搜尋引擎線上算法,通過將大計算量任務遷移到GPU上來達到降低CPU負載的目標。在具體方法上,課題提出了適合於GPU的數據壓縮、索引組織、批次處理和Cach等方法,並將其套用于歸並計算、分數計算和TopK等大計算量算法,從而達到降低伺服器CPU負載的研究目標。課題的成果不但能夠直接套用於搜尋引擎服務,而且對於有類似需求的計算密集型套用也具有重要的參考價值。

結題摘要

搜尋引擎是最重要的網際網路基礎服務之一,它必須能夠實現每秒處理成千上萬的用戶並發請求。為此,最新、最好的IT 技術都會被套用到搜尋引擎中來。作為一種新型眾核處理器,GPU已經被廣泛套用到高性能計算領域。但對I/O密集型套用,還缺少好的GPU示範套用。本課題的研究工作是如何利用 GPU的高性能來解決搜尋引擎線上服務的高計算負載問題。課題的主要工作包括: (1) 提出了適合GPU的搜尋引擎索引求交算法及其組織和存儲方式。 在谷歌、百度等線上上伺服器部署SSD後,伺服器的I/O能力大幅提高,但CPU的處理能力成為了系統新的瓶頸。如果能將部分計算任務遷移到GPU上完成,一方面可以加快處理速度,降低用戶回響的等待時間;另一方面,可以釋放更多CPU資源用於其他任務的處理,提高系統整體效率。課題工作的主要貢獻是:發現了倒排索引分布的線性特徵,並據此設計了適合GPU的線性回歸索引求交和壓縮算法。實驗表明,該算法取得了最多22倍加速比。(2) 設計適合新型硬體架構的搜尋引擎快取算法。 課題研究的是GPU+SSD平台上List Cache機制的設計,希望通過有效的Cache算法,實現數據從“硬碟-記憶體-CPU”的傳統流動方式到“SSD-記憶體-GPU”的轉變。課題工作的主要貢獻是:發現在SSD平台上,搜尋引擎原有的最優List快取算法不再是最優的。此外,之前的研究顯示,Document Cache能有效提高性能,但我們的工作表明,使用SSD後,摘要Cache更能夠顯著提高系統性能。課題工作對相關領域研究的啟示是:GPU、SSD等新的硬體平台上,原有的算法可能需要進行改進和調整。 (3) GPU計算技術在其他領域的套用。 課題組除了將GPU計算技術套用在搜尋引擎算法的最佳化方面以外,還與生命科學領域研究人員合作,將其套用到了生物信息學領域。主要貢獻是:大幅加速了MrBayes的核心算法,使得原本需要使用集群計算機的計算任務在一台裝有多GPU的PC伺服器上就可以完成,實現了生物學家的“桌面超級計算”。 課題組在完成科研任務的基礎上,產出了較為豐富的科成果:共發表論文15篇,其中CCF推薦A類會議論文2篇,B類會議論文4篇,SCI一區論文1篇,SCI二區論文2篇。完成博士學位論文1篇,碩士學位論文5篇。

相關詞條

熱門詞條

聯絡我們