《融合多源社會化網路數據的個體價值發現與預測》是依託山東大學,由孫宇清擔任項目負責人的重大研究計畫。
基本介紹
- 中文名:融合多源社會化網路數據的個體價值發現與預測
- 項目類別:重大研究計畫
- 項目負責人:孫宇清
- 依託單位:山東大學
中文摘要,結題摘要,
中文摘要
社會化媒體日益融入人們生活和工作,並積累了大量的用戶數據,分析這些數據可以獲得不同層面的個體信息,幫助識別和預測個體價值,為數據驅動的管理和決策提供依據.本課題面向多源異構社會化媒體的用戶網路行為,分析個體身份、標籤屬性、社會角色和價值傾向等多元化個體社會價值.為了解決數據的碎片化和噪音等問題帶來的不利影響,引入獨立於平台的公共知識庫輔助用戶語義特徵建模,並進行平台依賴的知識庫學習,解決了平台定位不同帶來的特徵差異問題;針對數據的不均衡性和長尾特徵,藉助客體信息和外部數據對用戶進行細粒度畫像,增加個體可辨識性.提出可復用的用戶特徵建模和高效分析算法,對目標個體進行跨平台身份識別、推斷標籤屬性和社會角色,通過學習行為模式的演化規律,預測跨平台的個體影響力.最後,設計原型系統,融合多源社會化網路平台數據,提供個體價值分析服務.
結題摘要
本課題針對社會化媒體用戶數據,提出了基於用戶離散行為數據的概念和實體表示方法,建立了平台獨立的可辨識性個體行為指紋庫;從統計和案例兩個角度分析了跨數據集的個體身份表示向量語義;提出了個體身份映射問題在現實數據中主導因素和制約因素,有效地劃分了個體行為規律和群體行為分布的差異性問題,輔助多元化個體社會價值融合分析.為個體行為的社會學分析提供了數據基礎,為全視角識別價值客戶提供了實例數據、統計結果和技術支撐。提出了融合個體內在隱式特徵和行為顯示特徵的重要性度量方法,以及面向嚴重不均衡數據的機率包裹式分類算法,有效整合了個體標籤屬性信息、發布內容、互動數據和環境因素等,對用戶進行細粒度畫像,較好地解決了不均衡樣本學習問題,比相關工作更適合社會化網路平台用戶信息碎片化和數據長尾特徵。提出了面向用戶行為的多因素聯合表示學習模型,在相同的隱式空間中建模用戶、時間、地點、行為類型等因素的表示向量,提出了兩種基於表示向量的行為推斷模型,結合了行為規律性、周期性、地點與用戶行為關聯性,推斷可能行為的機率分布並進行預測。上述工作為網路數據分析提供了有益思路和高效算法,以及可復用的數據結果和解決方案,訓練得到的概念實體向量具備語義可解釋性,對於個體價值問題具有理論價值。課題組與浪潮集團數據服務事業部合作,利用雲海卓數採集網際網路上公開的信息資源,通過分析電子商務和生活服務類的企業數據,為國家統計局、山東省地稅局等單位提供了面向個體企業的運行狀況和信譽分析服務,從海量網際網路資源中提煉出個體價值信息,幫助政企分析企業運行情況、經濟走勢和預測市場風險,具有實際套用價值。已申請國家發明專利3項,獲授權發明專利1項,在國內外重要期刊和會議發表學術論8篇,其中領域高影響力論文1篇,中文權威期刊論文1篇,獲得中國計算機學會推薦國際會議最佳學生論文1篇。