OHSUMED 數據集合去估由William Hersh和他的同事們一起建立,其文檔來源於醫藥信息資料庫背微翻MEDLINE10,它包含了從1987 年汗匙嫌請到1991 年五年間270 個醫藥類雜誌的標題和/或摘要,包含境白她了348566個文檔。一個OHSUMED 文檔由8 個域組成,含義如下:z .I 文章的OHSUMED 序列號,從1 到348566
z .U MEDLINE 標識
z .S 文章來源
z .M MeSH 索引詞
z .T 文章標題
z .P 文章樂駝希類型
z .W 文章摘要
z .A 文章作者
OHSUMED 的作者還為文檔集合構造了106 個查詢,這些查詢來源於醫生在給病人看病的過程中所提交的查詢字元串,每一個查詢由兩部分組成:病人情況的簡單描述和所需信息的描述。一個OHSUMED 查詢由如下3 不同立頁迎墊域組成:
z .I 文章的OHSUMED 序列號,從1 到106
z .B 患者信息
z .W 信息需求
基於以上的文檔集合和查詢集合,OHSUMED 一共標註了16140 個查詢-文
檔對,每一個查詢-文檔對都被標註成相關(definitely relevant)、嬸跨獄部分相關(partially relevant)或者不相關(not relevant),最終的標註結果中一共包含了2557個相關、2932 個部分相關以及12498 個不相關的查詢-文檔對(一個文檔可能被標記成多個級別,在本節的實驗中,取其級別最高的標號作為其最終標號)。