地理編碼
地理編碼(geo-Coding)是興趣點查詢的基礎,是實現基於地理信息系統空間化和可視化分析的橋樑。地理編碼技術可以用於整合社會各部門的專業數據,並將其同地理空間數據關聯起來,方便人們從巨觀上進行把握,縱向上進行數據搜尋和挖掘。一個興趣點應該至少包含3個方面的信息:名稱、類別和地理坐標。
1.地理編碼概念
廣義的地理編碼概念是指對地理對象進行空間位置標識、計算和處理的過程。這裡的地理對象可以是具有一定地理意義和實用意義的地理實體(如某大廈)、地理要素類、地理區域和範圍(如行政區域、街道、影像像素等)等。地理編碼通過對地理對象在確定的參考系中按一定的規則賦予唯一的和可識別的代碼,從而唯一確定地理對象的空間位置,也就是說建立地理對象與代碼之間的映射關係。該映射既可以是地理對象與地址的映射,也可以是地理對象與坐標系統的映射。
狹義的地理編碼概念是常用的定義,是指將自然語言描述的地理位置信息根據既定的地址模型和編碼規則,生成在計算機中存儲的編碼。要讓計算機識別一個地址描述信息並定位到空間位置,就必須實現將它數位化,建立相應的地理編碼。
地理編碼通過在含地址的表格數據與相關圖層之間建立聯繫,把地理坐標分配給含相應地址的表格數據記錄,並為其創建一個相應的要素圖層。它將全部實體按照預先擬定的分類系統,選擇最適宜的量化方法,按實體的屬性特徵和集合坐標的數據結構,記錄在計算機的儲存設備上。
2.地理編碼原則
(1)編碼唯一性:所謂唯一性就是指編碼與實體一一對應,但允許一個實體有多種文字表述。
(2)編碼的可擴展性:通過預留類目為可能增加的編碼對象準備可擴展的空間。
(3)兼容性:在標準不統一的情況下,通過兼容性設計,使得不同的標準可以協調共存。
(4)科學實用性:編碼能夠反映編碼對象的最穩定本質特徵,能夠滿足地理編碼套用的需求,簡單易用。
(5)空間性:編碼能夠在一定程度上包含實體的空間屬性。
3.地理編碼基本原理
地理編碼的基本原理是根據屬性數據特徵點的地理坐標或空間地址(如省市行政編碼、街區編號、郵政編碼、樓號等),將資料庫中的屬性數據和它在地圖上相對應的空間圖形要素建立一一對應的關係,即給每個數據賦予X、Y值,從而確定該點在圖上的位置。
4.地理編碼流程
地理編碼的過程通常包括兩個明確的步驟:地址標準化和地址匹配。地址標準化是指在進行地理編碼之前,將道路地址處理為一種熟悉的、常用的格式,糾正道路和地址名稱的拼寫形式等。地址匹配是將自然語言描述的地址位置信息根據既定的地址模型和編碼規則進行智慧型語義分析和解析,獲取其對應的空間坐標信息和地理編碼的關聯過程。地址匹配主要根據特定的屬性信息或相應的條件確定符合具有的地址屬性信息或條件的相應的地理空間位置,並將符合要求位置進行標註並顯示在地圖上,其主要目的是為輸入的屬性信息和條件查找最準確的匹配結果。因此,地理編碼資料庫中不僅要存儲地理實體的位置數據,如道路地址、路名、樓名、地名、郵政區、行政區劃等,而且要存儲這些位置數據所對應的地圖定位信息(空間坐標)。
5.地理編碼方法
一般來講,地理編碼主要有以下兩種方式:
(1)基於地理格網的地理編碼
地理格網是按一定的數學規則對地球表面進行分割,形成彼此鄰接又不交叉的多個多邊形(四邊形、三角形),並賦予標識符(即地理編碼),這些多邊形(格網單元)之間的空間關係是隱含的。基於地理格網的地理編碼通過格網建立相對關聯的方法,建立地理對象的地址屬性,其實質是對地理對象的二維地理位置編碼(實體→地理位置、格網坐標)和解碼(地理位置、格網坐標→實體)。
基於地理格網的地理編碼是一種適用廣泛的地理編碼方法。從地理編碼的幾個要素來說,幾乎每一種地理對象都可以採用基於格網的地理編碼方法;而地理格網本身就是一種基於地理標識符的間接空間參考系。美國、英國、澳大利亞等國家就是建立國家格網後以此種編碼方式為社會提供各種地理實體基於位置的服務的。
基於地理格網的地理編碼優點在於定位精確,精度可以根據需要較為自由的控制,如美國的編碼精度可以控制在1m~10km之內,特殊套用甚至可以達到mm級別。格網建立以後,各級之間關係明確、使用方便。而且格網經均勻裁切,可以無縫拼接。缺點在於較難精確記錄點狀和線狀地理實體,難以建立地理對象之間的空間拓撲關係。它需要建立一整套嚴密的從大地基準、參考橢球、投影方式、首選格網的規定、格網原點、格網劃分規則、格網標識編碼以及格網精度等各個方面去描述的格網系統,需要綜合考慮包括確定編碼的最小地理對象或單元在內的多種因素。
(2)基於地理實體地址編址的地理編碼
這種地理編碼採用地理實體與地址建立直接關聯的方法,建立地理實體的地址屬性。它是針對地理實體的一種傳統意義上的地理編碼,將地址、門牌、建築物名、企事業單位名稱等空間位置的自然語言描述轉化為地址編碼,其實質就是建立地理實體與地址(空間位置)的一一對應關係,也是對地理對象的二維地理位置編碼(實體→地址)和解碼(地址→實體)。它一般建立在基於坐標的空間參考系中。
這種方式的優點在於它的編碼方式易於被大家接受,而且符合人們慣用的思維方式,推廣容易。缺點在於,現有地址使用的不規範性以及中文地址本身的不規範性和重複性,使得這種編碼方式存在技術上的難點以及可能存在潛在錯誤及漏洞,地址數據的標準化及其標準化處理工作量也非常大。
在實際套用中,基於地理實體地址編址的地理編碼方式有3種:定位到道路、定位到區域以及定位到道路和定位到區域相結合的方式。定位到道路是通過道路名和門牌號碼進行匹配,在參考主題中每一個路段都具有道路名和起止門牌號碼信息,在地理編碼時,首先根據地址信息中道路名找到參考主題中相同名稱的路段(一般情況下有多個路段),然後根據地址信息中的門牌號及每個路段的起止門牌號碼信息找到門牌號所在路段,最後根據門牌號及該路段的起止門牌號碼信息進行內插確定該記錄在該路段上的位置。定位到區域是將地址中具有區域屬性的記錄與地圖地址相應屬性的區域記錄進行比較,如果匹配成功,則將待查地址區域以點要素形式生成在地圖的相應區域內。利用已有的樓宇信息,將位於樓宇中的企業定位到樓宇中也是定位到區域的方法。
一個較為完善成熟的地理編碼系統應該具有如下功能:
(1)語義解析。能夠深入理解地址內部,理解地址串語義層面的信息,如識別地址中等價冗餘的部分,自動嘗試解析出最精確的地址要素。
(2)地址匹配。能夠利用解析出來的地址信息,允許用戶在匹配時指定不同的策略,例如在不同精度上匹配,匹配滿足某些特定條件的地址。
興趣點查詢方法
興趣點查詢是通用搜尋引擎發展到一定階段後,隨著用戶的個性化服務需求而出現的,即是按照用戶的興趣選擇相應類別,查詢相關的POI信息。對於LBS用戶而言,可以通過輸入關鍵字進行屬性查詢,如查詢名為“XXX”的酒店;也可以按範圍和類別進行查詢,如查詢5km範圍內的加油站。興趣點查詢方法類似於Web搜尋方法,可採用布爾邏輯模型、向量空間模型和機率模型等數學模型來建立查詢檢索模型。
1.興趣點查詢流程
興趣點查詢首先需要激活一次定位服務,獲取當前的位置,再激活一次視窗查詢,得到興趣點列表。一個典型的興趣點查詢流程如下:
① 用戶激活一個定位服務,傳送自己的識別碼;
② 定位服務從電信運營商的定位伺服器獲得用戶位置,將該位置返回給用戶;
③ 伺服器根據請求參數,返回地圖並顯示;
④ 啟動一個POI查詢;
⑤ 伺服器完成一次空間查詢,返回查詢結果給用戶。用戶如果對查詢結果不滿意,則可以上報問題,提供自己了解的信息,系統在資料庫中生成一條記錄。
2.用戶訪問日誌分析
用戶訪問日誌記錄了用戶訪問搜尋引擎時的行為,真實反映用戶的需求和興趣。訪問日誌分析是最佳化搜尋引擎的重要手段之一,可以將用戶訪問日誌直接套用到搜尋結果排序算法中,然後加入用戶反饋排序,提高搜尋結果的準確性,最佳化POI搜尋引擎。
將用戶訪問日誌分析套用到搜尋結果排序的流程如下。
首先,建立好相似度模型;然後,收集大量用戶訪問日誌;最後,利用反饋相似度模型訓練這批用戶訪問日誌,得到用戶查詢集合和POI集合的反饋相似度S(Q,P)。並以檔案形式保存S(Q,P)。最後,在用戶查詢時,使用S(Q,P)指導搜尋結果排序,提高用戶滿意度,最佳化POI搜尋引擎。
具體做法如下:當用戶輸入查詢(記作q1)時,首先查找文本索引,獲取匹配的POI集合。對於匹配的POI集合中的每一個POI(記作p1),動態計算q1和p1的文本相似度(記作T(q1,p1)),同時從S(Q,P)中靜態查找q1和p1的反饋相似度S(q1,p1)。對T(q1,p1)和S(q1,p1)進行交叉排序得到q1和p1的最終相似度S(q1,p1)。按最終相似度從大到小排序顯示給用戶。
興趣點數據的更新維護
興趣點數據的準確性和實時性,對於LBS的可用性至關重要。由於城市建設快速發展,導致興趣點也隨著地形地貌、業務單位規劃的變更而相應地變化,這就要求興趣點數據能得到不斷的豐富和更新。據不完全統計,每年興趣點的變更量約占興趣點總量的20%左右,由此必須建立高效可行的興趣點動態管理和定期維護更新機制,以滿足城市管理的需要。
興趣點數據的更新一直以來就被認為是一項耗費大、周期長的工作,易於變化也是興趣點數據的一大特點,這給興趣點數據的更新帶來了很大的困難,傳統的周期性更新方式已不能適用於對興趣點數據的更新。
Google和Go2Map採用的興趣點數據更新方法是一種較新的模式。Google和Go2Map都推出了各自的地圖社區服務。地圖社區服務主要通過一種開放式論壇的形式提供。用戶可以對自己所知道的位置進行標註,發布到伺服器上,與其他用戶進行共享。這種方法將用戶這個龐大的群體納入到了數據生產者行列,為興趣點數據更新提供了新的途徑和方法。但這一數據更新模式也帶來一些問題。首先,這些自由發布的數據和信息的正確性無法得到保證;其次,一些用戶發布的信息涉及感情、道德、隱私、機密等問題,引起了人們的爭議。因此,用戶參與的興趣點數據更新方法雖然可行,但是在發布這些數據之前,需要有一種審查機制,才能適合商業的套用。