信箱信息抽取方法及裝置

信箱信息抽取方法及裝置

《信箱信息抽取方法及裝置》是北大方正集團有限公司; 北大方正信息產業集團有限公司於2017.12.07申請的專利,該專利的公布號為:CN110020366B,專利公布日:2021.06.15,發明人是:謝海華; 羅學文; 陳雪飛; 佟津樂; 高良才; 黃肖俊; 湯幟。

基本介紹

  • 中文名:信箱信息抽取方法及裝置
  • 授權公告號:CN110020366B
  • 授權公告日:2021.06.15
  • 申請號:2017112852063
  • 申請日:2017.12.07
  • 專利權人:北大方正集團有限公司; 北大方正信息產業集團有限公司
  • 地址:100871北京市海淀區成府路298號中關村方正大廈9層
  • 發明人:謝海華; 羅學文; 陳雪飛; 佟津樂; 高良才; 黃肖俊; 湯幟
  • Int. Cl.:G06F16/958(2019.01)I; G06F16/84(2019.01)I; G06F16/903(2019.01)I
  • 專利代理機構:北京同立鈞成智慧財產權代理有限公司11205
  • 代理人:張子青; 劉芳
對比檔案,專利摘要,

對比檔案

CN 107247790 A,2017.10.13;  CN 101980156 A,2011.02.23;  CN 103049845 A,2013.04.17;  CN 102254014 A,2011.11.23;  JP 2001052021 A,2001.02.23
劉冉.基於搜尋引擎的信箱地址自動提取系統開發.《中國優秀碩士學位論文全文資料庫 信息科技輯》.2014,(第03期),I138-1207,第13-44頁.

專利摘要

本發明提供一種信箱信息抽取方法及裝置,方法包括:對待抽取信箱的用戶主頁的HTML檔案進行預處理,其中,所述預處理包括去除所述HTML檔案中無含義的字元與亂碼字元,以及將HTML檔案的格式統一轉化為預設的目標格式;針對預處理後的HTML檔案中的信箱地址,檢測所述信箱地址中是否存在包含字元串的第一信箱地址;若存在,則檢測所述第一信箱地址是否滿足預設的信箱格式,若滿足,則刪除所述第一信箱地址中的非規則字元;檢測當前所述第一信箱地址的字元長度是否在預設的長度範圍內,若是,則將所述第一信箱地址作為標準信箱地址。通過本發明,能夠提高從網頁中獲取目標用戶的信箱的精準度。
check!

熱門詞條

聯絡我們