優采雲是一個根據用戶提供的關鍵字,雲端自動採集相關文章並發布到用戶網站的網站採集器。
基本介紹
- 網站名稱:優采雲
- 主辦單位:熊勝
- ICP備案號:蜀ICP備14020125號
網站簡介
研發背景
網站主要功能
- 可根據用戶輸入的任意文本進行關鍵字搜尋,經過簡單勾選就能用於採集,
- 用戶也可以創建自己的私有詞庫,可分庫分組,數百萬關鍵字輕鬆管理,也滿足更個性化的關鍵字需求。
- 自動識別網頁編碼、標題、正文等信息,不用為每個網站設定不同的採集規則,更不用到處找人寫採集規則,
- 可設定需求的正文長度,比如500字,750字,1000字,長度不達標的內容自動捨棄。
- 系統內置多種自然語言處理算法,自動計算文章正文和關鍵字的相關度(特徵向量間的餘弦距離),把相關度低的文章自動過濾掉,只把相關度高的文章留給用戶。
- 自動計算文章正文的通順度(語言困惑度),把通順度低的文章捨棄,通順度高的文章留給用戶。
- 自動計算標題(Title)和描述(Description)與關鍵字的相關度,如果相關度低,可在標題和描述中自動插入關鍵字,以提升相關度。還可以為標題設定前綴關鍵字,每次在設定的多個前綴中隨機選取一個添加在文章標題頭部。
- 基於機器學習算法實現的文本鑒黃,可對採集的內容進行內容審核,保障用戶內容安全。
- 實現基於同義詞替換的偽原創功能,從2000萬對近義詞庫中選擇最符合語言表達習慣的詞,替換原文中的詞,最大限度保證文章可讀性。
- 實現基於機器學習的智慧型AI偽原創,先把原文編碼為高維語義向量,再通過解碼器逐字解碼,實現對整篇文章的完全重寫,偽原創程度高,可讀性好。
- 自動提取Tags標籤,並在此基礎上實現自動內鏈,當正文中出現標籤對應的文本時,為該文本加上一個站內文章的連結,指向一篇具有同樣主題的文章,實現自動化的科學有效的內鏈建設。
- 也可以設定固定的連結,當正文中出現某些固定文本時,為它加上固定的連結,指向站內或站外的文章均可。
- 根據文章內容自動配圖.
- 可設定圖片本地化或者使用遠程圖片,以及禁止所有圖片。
- 可設定禁止某些網站不採集,或包含某些特定詞的內容不採集。
- 自動過濾聯繫方式、網址以及文章前後的廣告性內容等冗餘信息,並進行全部標籤清理,正文部分只保留<p>段落標籤和圖片<img>標籤,無任何亂碼,也不包含任何排版格式,方便用戶通過css樣式自定義外觀。
- 嚴格的防重複機制,整個平台每個網址只採集一次,不重複採集。同一網站下,相同標題的文章只採集一次,不重複採集。
- 可指定每個關鍵字允許採集的文章數量,實現大量長尾關鍵字不重複布局。
- 雲端自動運行採集任務,可定時定量採集,用戶不用在自己電腦上安裝任何軟體,不用掛機採集,甚至不需要打開瀏覽器。
- 採集後自動發布到用戶網站後台,用戶只需要把接口檔案下載並上傳到網站根目錄就能完成對接。