《信箱信息抽取方法及裝置》是北大方正集團有限公司; 北大方正信息產業集團有限公司於2017.12.07申請的專利,該專利的公布號為:CN110020366B,專利公布日:2021.06.15,發明人是:謝海華; 羅學文; 陳雪飛; 佟津樂; 高良才; 黃肖俊; 湯幟。
基本介紹
- 中文名:信箱信息抽取方法及裝置
- 授權公告號:CN110020366B
- 授權公告日:2021.06.15
- 申請號:2017112852063
- 申請日:2017.12.07
- 專利權人:北大方正集團有限公司; 北大方正信息產業集團有限公司
- 地址:100871北京市海淀區成府路298號中關村方正大廈9層
- 發明人:謝海華; 羅學文; 陳雪飛; 佟津樂; 高良才; 黃肖俊; 湯幟
- Int. Cl.:G06F16/958(2019.01)I; G06F16/84(2019.01)I; G06F16/903(2019.01)I
- 專利代理機構:北京同立鈞成智慧財產權代理有限公司11205
- 代理人:張子青; 劉芳
對比檔案,專利摘要,
對比檔案
CN 107247790 A,2017.10.13; CN 101980156 A,2011.02.23; CN 103049845 A,2013.04.17; CN 102254014 A,2011.11.23; JP 2001052021 A,2001.02.23
劉冉.基於搜尋引擎的信箱地址自動提取系統開發.《中國優秀碩士學位論文全文資料庫 信息科技輯》.2014,(第03期),I138-1207,第13-44頁.
專利摘要
本發明提供一種信箱信息抽取方法及裝置,方法包括:對待抽取信箱的用戶主頁的HTML檔案進行預處理,其中,所述預處理包括去除所述HTML檔案中無含義的字元與亂碼字元,以及將HTML檔案的格式統一轉化為預設的目標格式;針對預處理後的HTML檔案中的信箱地址,檢測所述信箱地址中是否存在包含字元串的第一信箱地址;若存在,則檢測所述第一信箱地址是否滿足預設的信箱格式,若滿足,則刪除所述第一信箱地址中的非規則字元;檢測當前所述第一信箱地址的字元長度是否在預設的長度範圍內,若是,則將所述第一信箱地址作為標準信箱地址。通過本發明,能夠提高從網頁中獲取目標用戶的信箱的精準度。