非結構數據項

非結構數據項

數據項是數據結構中討論的最小單位,是數據記錄中最基本的、不可分的有名數據單位。非結構數據項是指數據項不規則或不完整,沒有預定義的數據類型,不方便用資料庫二維邏輯表來表現的數據項。數據類型可以是字元、圖片、XML, HTML、各類報表、圖像等類型。

基本介紹

  • 中文名:非結構數據項
  • 外文名:Unstructured Data Item
  • 學科:計算機
  • 特徵:不規則或不完整
  • 有關術語:數據項
  • 領域:資料庫存儲、處理
  • 形式:字元、圖像、音頻、視頻
簡介,數據項,有關術語,記錄,數據元素,數據,非結構化數據的優勢,有大量的數據需要處理,蘊藏著大量的價值,不需要依靠數據科學家團隊,終端用戶授權,

簡介

非結構數據項即數據項沒有預定的數據類型,數據項的內容是多樣的。非結構數據項是非結構化數據的基礎。
非結構化數據其格式非常多樣,標準也是多樣性的,而且在技術上非結構化信息比結構化信息更難標準化和理解。所以存儲、檢索、發布以及利用需要更加智慧型化的IT技術,比如海量存儲、智慧型檢索、知識挖掘、內容保護、信息的增值開發利用等。非結構化數據的一些難點也是非結構數據項的難點,如更加智慧型化的IT技術。

數據項

數據項可以是字母、數字或兩者的組合。通過數據類型(邏輯的、數值的、字元的等)及數據長度來描述。數據項用來描述實體的某種屬性。在地理信息系統中,數據項描述對象是地理實體各要素及其屬性,分為幾何屬性(地理位置和形狀)和非幾何屬性,包括標量屬性(各種量測值)和名稱屬性(地名及地物名)等。
在檔案系統中,數據項是最低級的數據組織形式,可把它分成以下兩種類型:
(1) 基本數據項。這是用於描述一個對象的某種屬性的字元集,是數據組織中可以命名的最小邏輯數據單位,即原子數據,又稱為數據元素或欄位。它的命名往往與其屬性一致。例如,用於描述一個學生的基本數據項有學號、姓名、年齡、所在班級等。
(2) 組合數據項。它是由若干個基本數據項組成的,簡稱組項。例如,經理便是個組項,它由正經理和副經理兩個基本項組成。又如,工資也是個組項,它可由基本工資、工齡工資和獎勵工資等基本項所組成。
基本數據項除了數據名外,還應有數據類型。因為基本項僅是描述某個對象的屬性,根據屬性的不同,需要用不同的數據類型來描述。例如,在描述學生的學號時,應使用整數;描述學生的姓名則應使用字元串(含漢字);描述性別時,可用邏輯變數或漢字。可見,由數據項的名字和類型兩者共同定義了一個數據項的“型” 。而表征一個實體在數據項上的數據則稱為“值” 。例如,學號/30211、姓名/王有年、性別/男等。

有關術語

記錄

記錄是一組相關數據項的集合,用於描述一個對象在某方面的屬性。一個記錄應包含哪些數據項,取決於需要描述對象的哪個方面。而一個對象,由於他所處的環境不同可把他作為不同的對象。例如,一個學生,當把他作為班上的一名學生時,對他的描述應使用學號、姓名、年齡及所在系班,也可能還包括他所學過的課程的名稱、成績等數據項。但若把學生作為一個醫療對象時,對他描述的數據項則應使用諸如病歷號、姓名、性別、出生年月、身高、體重、血壓及病史等項。在諸多記錄中,為了能惟一地標識一個記錄,必須在一個記錄的各個數據項中,確定出一個或幾個數據項,把它們的集合稱為關鍵字(key)。或者說,關鍵字是惟一能標識一個記錄的數據項。通常,只需用一個數據項作為關鍵字。例如,前面的病歷號或學號便可用來從諸多記錄中標識出惟一的一個記錄。然而有時找不到這樣的數據項,只好把幾個數據項定為能在諸多記錄中惟一地標識出某個記錄的關鍵字。

數據元素

數據元素(Data Element)是數據的基本單位。數據元素也稱元素、結點、頂點、記錄。一個數據元素可以由若干個數據項(也可稱為欄位、域、屬性)組成。

數據

數據(data)是對客觀事物的符號表示,是用於表示客觀事物的未經加工的原始素材,如圖形符號、數字、字母等。或者說,數據是通過物理觀察得來的事實和概念,是關於現實世界中的地方、事件、其他對象或概念的描述。

非結構化數據的優勢

有大量的數據需要處理

非結構化數據在任何地方都可以得到。這些數據可以在你公司內部的郵件信息、聊天記錄以及蒐集到的調查結果中得到,也可以是你對個人網站上的評論、對客戶關係管理系統中的評論或者是從你使用的個人應用程式中得到的文本欄位。而且也可以在公司外部的社會媒體、你監控的論壇以及來自於一些你很感興趣的話題的評論。

蘊藏著大量的價值

有些企業現在正投資幾十億美金分析結構化數據,卻對非結構化數據置之不理,在非結構化數據中蘊藏著有用的信息寶庫,利用數據可視化工具分析非結構化數據能夠幫助企業快速地了解現狀、顯示趨勢並且識別新出現的問題。

不需要依靠數據科學家團隊

分析數據不需要一個專業性很強的數學家或數據科學團隊,公司也不需要專門聘請IT精英去做。真正的分析發生在用戶決策階段,即管理一個特殊產品細分市場的部門經理,可能是負責尋找最優活動方案的市場行銷者,也可能是負責預測客戶群體需求的總經理。終端用戶有能力、也有權利和動機去改善商業實踐,並且視覺文本分析工具可以幫助他們快速識別最相關的問題,及時採取行動,而這都不需要依靠數據科學家。

終端用戶授權

正確的分析需要機器計算和人類解釋相結合。機器進行大量的信息處理,而終端客戶利用他們的商業頭腦,在已發生的事實基礎上決策出最好的實施方案。終端客戶必須清楚的知道哪一個數據集是有價值的,他們應該如何採集並將他們獲取的信息更好地套用到他們的商業領域。此外,一個公司的工作就是使終端用戶儘可能地收集到更多相關的數據並儘可能地根據這些數據中的信息作出最好的決策。
很明顯,非結構化數據分析可以用來創造新的競爭優勢。新的前沿可視化工具使用戶容易解釋,讓他們在點擊幾下滑鼠之後就能清楚地了解情況。從非結構化的數據源中挖掘信息從來就沒有像現在這樣如此簡單。

相關詞條

熱門詞條

聯絡我們