信息發布

信息發布是LBS面向用戶終端的主要信息傳送方式,是用戶獲取位置及相關信息的重要途徑。隨著Web技術的迅猛發展,信息發布技術也從以往的廣播服務機制逐步向推送服務機制發展。本節主要介紹信息廣播、信息定製、信息抽取和信息推送服務的有關內容。

基本介紹

  • 中文名:信息發布
  • 外文名:Information Delivery
信息廣播,信息定製,信息抽取,信息推送,

信息廣播

信息廣播是指通過廣播技術實現對信息的傳播。在信息發布領域,信息廣播是一種基本的,也是最早開始投入使用並延續至今的信息發布方式。從早期的廣播電台、電視,到現在的網際網路,廣播依然是人們獲取信息的主要來源渠道。
早期的信息廣播業務主要是音頻、視頻廣播業務。隨著社會發展和技術進步,數據廣播成為基於數位電視傳輸標準之上,除MPEG-2視頻和音頻內容之外的另一個重要的業務擴展。數據廣播包括經由衛星、電纜或地面設施下載軟體,通過廣播信道傳輸網際網路服務、互動TV等。根據對數據傳輸的不同需求,數據廣播標準確定了5種不同的套用領域。針對每一種套用領域,規範出了一種數據廣播的封裝格式。
數據管道(Data Piping)規範支持數位電視系統中簡單異步端到端的數據廣播業務,數據直接在TS包的載荷中傳輸。數據流(Data Streaming)規範支持數位電視系統中面向流的端到端的數據廣播業務,可以通過異步或同步的方式進行傳輸。異步數據流定義為流中只有數據,沒有任何定時的需要。同步數據流定義為流中有數據和定時需要,並在接收機處可將數據和時鐘重新生成為與傳送端同步的數據流。多協定封裝(Multiprotocol Encapsulation)規範支持數位電視系統中需要用通信協定中的數據報來傳輸的數據廣播業務;數據輪播(Data Carousels)規範支持數位電視系統中周期性數據模組傳輸的數據廣播業務;對象輪播(Object Carousel)規範用來支持數位電視系統中需要對DSM-CCU-U對象進行周期性廣播的數據廣播業務。

信息定製

隨著社會信息化程度的不斷加深,用戶類型的增多和信息服務獲取的便利在很大程度上激發了用戶信息需求的潛力以及對多樣化信息服務的要求。不同用戶雖然對同一事物感興趣,但可能各自感興趣的角度不同,從而造成一定的需求差異。傳統的廣播機制針對的是普遍用戶群體,不同用戶接收到的是供應模式完全相同的信息,很難滿足偏好差異用戶的知識需求。這些需求催生了信息定製服務的出現。信息定製服務不僅包括定製化的信息供給,還在信息參考、信息諮詢和信息顯示上都給以個性化的支持。
隨著計算機及其網路技術的發展,用戶個性化定製需求將越來越廣泛地得到套用,迫切地需要高效、輕量的個性化信息定製搜尋。個性化信息定製搜尋研究方向和問題主要集中於以下幾個方面:
1)多搜尋源拉取數據。基於模板的定製信息搜尋,只能從單搜尋源拉取數據。在研究現有的推拉技術方式,並考慮如何結合現有網路進行多搜尋源進行搜尋時,主要應考慮執行緒的異步和同步執行。
2)智慧型化個性定製。在實現多搜尋源搜尋的基礎上,將搜尋結果進行智慧型化比較將是用戶個性化定製的迫切需求。越來越多的用戶個性化定製需求中,考慮如何實現智慧型化個性化定製,是將來要進行考慮的重點問題。
3)數據統計。不同用戶關注的搜尋結果顯示形式不一樣,有的比較側重數據的詳細信息,有的側重整體數據的關聯性。增加數據統計功能展示給用戶,也是下一步要進行考慮的問題。
信息定製服務需要占據大量的信息服務資源,包括信息採集、知識組織、需求整合和內容呈現等人力物力。先進的信息技術可以對信息資源的獲取、過濾、存儲、處理和更新等操作方面提供高效服務。另外,信息服務效率的提高往往使得信息用戶對信息的反應速度加大,提升了信息的價值,帶來迅速、準確的決策和知識擴充。

信息抽取

信息定製是用戶對信息發布提出的要求,而信息抽取則是信息處理系統針對用戶要求對底層數據進行的數據處理過程。
特別是隨著Internet的迅猛發展,Web已經成為一個巨大的信息源。隨著Web信息數量的快速增長,如何從Web中抽取出所需要的信息,就成為了網際網路信息搜尋研究領域中一個重要的研究課題。Web信息抽取是指從Web頁面所包含的無結構、半結構或者結構化的信息中識別用戶感興趣的數據,並將其轉化為結構和語義更為清晰的格式的Web頁面信息抽取的過程。
1.信息抽取的概念
信息抽取(Information Extraction,IE)是從給定自由文本或半結構化文本中抽取預先指定的實體、關係和事件等事實信息,形成具有清晰語義信息的結構化文本的技術。
信息抽取起源於文本理解。從自然文本中獲取結構化信息的研究最早開始於20世紀60年代中期,被看作是信息抽取技術的初始研究。信息抽取的目的就是要讓有用的信息以統一的形式集成在一起。Web信息抽取系統對網頁中的各種結構數據進行抽取、篩選,並作語義化的處理,將生成的語義數據存入知識庫。近幾年,信息抽取技術的研究與套用更為活躍。在研究方面,主要側重於以下幾方面:利用機器學習技術增強系統的可移植能力,探索深層理解技術,篇章分析技術,多語言文本處理能力,Web信息抽取以及對時間信息的處理等。
2.信息抽取技術
(1)基於統計的技術
基於統計的方法是通過統計各個標籤所包含的信息量或連結文本與普通文本的比值來獲取網頁的主題信息。這種方法克服了數據源的限制,並不只針對某一類網頁,具有一定的普遍性。
(2)基於視覺特徵的技術
在視覺上相關的兩個對象在結構上有可能差距很遠。因此,僅僅從代碼的角度去分析其主題信息是不科學的,因而出現了結合頁面的視覺特徵來抽取信息的方法。
(3)基於DOM樹結構的技術
在Web信息抽取中可以在網頁默認的樹結構的基礎上通過一些常見的針對樹的操作,從而總結歸納出待抽取部分的特徵。基於DOM樹結構的技術克服了對網頁數據源的限制,可以用來處理各種類型的單正文體和多正文體頁面,其操作過程相對於基於視覺的方法更加易於實現。在基於DOM樹結構的抽取技術領域有許多成型的系統和經典算法,如DSE、MDR和Road Runner等算法。
(4)基於模板的技術
網際網路上存在著大量通過讀取資料庫數據然後填充到統一模板的方式自動生成的網頁,針對這類具有模板的網頁產生了一種基於模板的抽取技術。該技術通過對產生於同一模板的網頁的對比分析總結出一個通用的抽取模板,從而免去了對眾多網頁進行重複處理的繁瑣過程。
3.信息抽取技術比較
(1)自動化程度
基於統計的技術和基於視覺特徵的技術在多數情況下都涉及對待抽取內容本身進行區域劃分等處理,需要進行人工干預,因此,操作人員的主觀行為可能會造成區域劃分不合理,從而直接影響信息抽取的效果。基於模板的技術需要依賴於表示待抽取位置的節點串,通常需要針對某一類待抽取對象進行分析和標記,總結出一個統一的模板節點串。儘管利用模板來抽取信息較為便捷,但生成模板的過程卻需要大量的人工操作。基於DOM樹結構的技術針對Web網頁本身的結構優勢,通過對網頁樹進行對比操作,就可以確定頁面內主題信息的位置進而實現信息的抽取,極少受到操作者主觀因素的影響。
(2)適用範圍
基於統計的技術適用於以文字為主題並且文字部分相對於其他部分來講具有明顯數量優勢的一類對象,針對不同的對象套用不同的閾值。基於視覺特徵的技術過多地依賴對象的組織結構,因此比較適用於結構清晰、符合一般設計規則並且沒有過多標籤錯誤的頁面。基於DOM樹的技術對對象類型沒有限制,對於出自同一個網站並且具有相似結構的頁面都能進行處理。基於模板的技術適用於相似度較大的頁面,如通過動態查詢資料庫生成的頁面,並且只能針對單正文體網頁。
(3)複雜性
基於統計的技術在理論上易於實現,但其難點在於確定一個合理的閾值。閾值的確定方法會對主題對象的確定產生直接的影響,並且對於不同種類的對象必須分別討論閾值。基於視覺特徵的技術對對象的分塊更加注重可視化信息的組織形式。基於DOM樹結構的技術不需要再對抽取對象進行分塊處理,可以直接通過對比得出主題信息區域,但卻需要對每個對象都進行同樣的處理,沒有充分利用已有的結果總結出針對同類相似對象進行處理的統一方法。基於模板的技術免去了對同類對象的重複操作,針對相似對象總結出統一的抽取模板,但在模板的生成方法和模板通用性方面還有待於改善。

信息推送

網際網路己經成為了一個全球性的超級資料庫,豐富的資源信息拓寬了人們的視野,但隨之也帶來了一個問題:網上信息具有分布散、動態變化和結構複雜等特點使得人們面臨著信息過載和信息迷向問題。如何從海量的信息中高效全面地獲取所需信息,如何提高網路的主動信息服務能力和滿足用戶的個性化需求等問題已經悄然的擺在了人們的面前。
1.信息推送的概念
人們所採用的信息檢索方式還是一種被動的拉取(Pull)方式,主要是通過搜尋引擎來進行信息的查找和定位。它通過自動瀏覽程式對Web站點進行自動搜尋,對文檔信息進行分類索引,並建立索引資料庫,然後用戶通過瀏覽器傳送服務請求,伺服器就在所屬的資料庫中檢索,將匹配站點的URL返回給用戶,用戶再進行連結,並在其中篩選出滿意的信息。拉取方式自身存在兩個方面的不足:一是獲取信息不僅時間長,而且費用高;二是信息效率低,資源浪費嚴重;三是伺服器被動服務,用戶獲取信息及時性差。因此,基於拉取方式的信息獲取技術無論在信息的搜尋速度、傳輸速度,還是搜尋信息的質量上都越來越難以令人滿意。另外,這種方式客戶機和伺服器必須保持實時的連線才能獲取信息。但由於網路信息更新快,這就要求用戶必須經常上網查看信息,否則很難及時獲得自己所需的最新信息。
信息推送(Push)是指網路公司通過一定的技術標準或協定,從網上的信息源或信息製作商那裡獲取信息,通過固定的頻道向用戶傳送信息的新型的信息發布系統。信息推送技術能夠主動地根據用戶的需求,將最新的信息分門別類地傳送到相應的用戶設備中。當有與用戶相關的信息更新時,推送軟體會及時、主動地通知用戶,體現了其主動性。推送軟體並不是把網上的信息隨便推送給用戶,而是根據用戶的特定信息需求為其量身定製的,充分體現了個性化;由於信息推送技術採用了信息代理機制,可以降低重複的、無關的信息在網上傳遞,避免了垃圾信息對網路資源的大量占用,體現了其高效性。
Pull與Push技術對用戶來說都是信息獲取技術,但二者存在著根本的不同。以pull技術為核心的信息拉取技術,在信息獲取時,用戶必須實時處於主動地位,也就是說,用戶必須參與信息獲取的整個過程。而以Push技術為核心的信息推送技術,在信息推送過程中,伺服器始終處於主動地位,用戶卻處於被動地位。與Pull技術相比,Push技術不僅獲取信息的效率高,費用低,而且及時性強,因而它一出現便受到人們的青睞。Push技術能夠通過一定的技術標準或協定,把用戶感興趣的信息,按照用戶的要求及時、主動地推送給用戶。用戶收到信息後,還可以離線瀏覽。Pull與Push的根本區別是:相對一次會話,Pull由客戶發起,主動方是客戶;Push由伺服器發起,主動方是伺服器。
2.信息推送的特點
信息推送技術的特點可概括為:
1)避免用戶在網上無目的上網查找;
2)提高被推送信息的準確性,控制搜尋深度,過濾不必要的信息;
3)被推送的信息內容,可以有教學資料、新聞、電影、音樂、房產信息、股市行情、共享軟體和天氣預報等;
4)被推送的檔案類型多樣,可以有文字、圖形、圖像、聲音和小程式等;
5)伺服器能對各個用戶的興趣和偏好進行智慧型性識別、預測,根據用戶要求自動蒐集定製信息並定期快速、連續不斷地向目標用戶主動推送,滿足了用戶的個性化需求。
3.信息推送的方法
信息推送技術的工作原理可以簡單地分為3步:首先用戶完成註冊,描述自己的信息需求,如用戶的興趣愛好、所需信息和推送時間等,以便向用戶提供主動、準確的信息服務;然後從網上收集用戶所需信息,並分類整理;最後推送到用戶計算機上。信息推送技術主要有以下3種實現方式。
(l)訊息方式
根據用戶提交的信息需求,利用電子郵件或其他訊息系統將有關信息傳送給用戶。該方式並不具備很強的互動性和強制性,對資源和信息流量的要求不高,可以看出這是最弱意義上的推送,但容易實現。
(2)代理方式
通過使用代理伺服器定期或根據用戶指定的時間間隔在網上搜尋用戶感興趣的信息內容,然後將結果推送給用戶。對信息的請求和推送都是通過代理來實現的,對用戶來說是透明的。
(3)頻道方式
提供完整的Push伺服器、客戶端部件及相關開發工具等一整套集成套用環境,它將某些站點定義為瀏覽器中的頻道,Push伺服器負責收集信息形成頻道內容後推送給用戶,而客戶端部件接收到來的數據和提交指令,根據用戶所需相關的信息對數據進行處理。
信息推送技術的出現給人們帶來了一種全新的信息獲取方式,適用於廣大公眾,並不需要用戶掌握專門的技術,而且能不斷地向用戶推送信息源的動態變化。當信息推送技術面對Internet上信息量大、結構複雜、難以人工處理等問題時,需要將Push技術與Pull技術相結合,不僅把信息推送給用戶,而且還要按照用戶預先設定的觸發事件和傳送要求,在條件滿足時自動向用戶傳送信息。在此基礎上,融入人工智慧、知識發現技術、Internet及資料庫技術,從而形成“智慧型信息推拉”(IIPP)技術,將是一個很好的研究方向。

相關詞條

熱門詞條

聯絡我們