大型數據處理

大型數據是指龐大和複雜的數據。大型數據處理通常是收集和操縱數據項以產生有意義的信息。從這個意義上講,它可以被視為信息處理的一個子集,以任何方式檢測信息的變化(處理) 觀察員。

基本介紹

  • 中文名:大型數據處理
  • 外文名:Big data processing
數據處理,套用,政府,國際發展,製造業,衛生保健,教育,對大數據範式的評價,

數據處理

數據處理可能涉及各種過程,包括:
1、驗證 - 確保提供的數據正確且相關。
2、排序 - 以某種順序和/或不同的集合排列項目。
3、摘要 - 將細節數據簡化為主要內容。
4、聚合 - 組合多個數據。
5、分析 - 數據的收集,組織,分析,解釋和呈現。
6、報告 - 列出詳細信息或摘要數據或計算信息。
7、分類 - 將數據分成各種類別。

套用

大數據已經大大增加了信息管理專家的需求,因此軟體公司,甲骨文公司,IBM,微軟,SAP,EMC,惠普和戴爾已經在專注於數據管理和分析的軟體公司上花費了150多億美元。 2010年,這個行業的價值超過1000億美元,並且每年增長近10%:大約是整個軟體業務的兩倍。
發達經濟體越來越多地使用數據密集型技術。全球有46億行動電話用戶,有10億到20億人上網。[6]從1990年到2005年,全世界有超過10億人進入中產階級,這意味著更多的人變得更有文化,這反過來又促進了信息的增長。世界通過電信網路交換信息的有效能力是1986年281PB,1993年471PB,2000年2.2艾位元組,2007年65艾位元組,預測到2014年網際網路流量每年達到667艾位元組。根據一項估計,全球存儲信息的三分之一是字母數字文本和靜止圖像數據,這是大多數大數據套用最有用的格式。這也顯示了尚未使用的數據的可能性(即,以視頻和音頻內容的形式)。
雖然許多供應商為大數據提供現成的解決方案,但專家建議開發定製的內部解決方案,以解決公司有足夠技術能力的問題。

政府

在政府流程中使用和採用大數據可以提高成本,生產力和創新效率,但並非沒有缺陷。數據分析通常需要政府的多個部門(中央和地方)協同工作,並創建新的創新流程以實現預期的結果。CRVS(民事登記和人口統計)收集從出生到死亡的所有證書狀態。 CRVS是政府的大數據來源。

國際發展

關於有效利用信息和通信技術促進發展的研究(也稱為ICT4D)表明,大數據技術可以做出重要貢獻,但也對國際發展提出了獨特的挑戰。大數據分析的進步為改善關鍵發展領域的決策提供了具有成本效益的機會,如醫療保健,就業,經濟生產力,犯罪,安全,自然災害和資源管理。此外,用戶生成的數據為聞所未聞的人提供了新的機會。然而,發展中地區長期存在的挑戰,如技術基礎設施不足以及經濟和人力資源短缺,加劇了對隱私,不完善的方法和互操作性問題等大數據的擔憂。

製造業

基於TCS 2013全球趨勢研究,供應計畫和產品質量的改進為製造業的大數據提供了最大的好處。大數據為製造業的透明度提供了基礎設施,這是解決諸如不一致的組件性能和可用性等不確定性的能力。預測性製造作為一種適用於接近零停機時間和透明度的方法,需要大量數據和先進的預測工具,以便將數據系統化地轉化為有用信息。預測製造的概念框架始於數據採集,其中可獲得不同類型的感測數據,例如聲學,振動,壓力,電流,電壓和控制器數據。除歷史數據外,大量的感官數據構成了製造業的大數據。生成的大數據可作為預測工具和預防策略(如預測和健康管理(PHM))的輸入。

衛生保健

大數據分析通過提供個性化醫療和規範分析,臨床風險干預和預測分析,減少浪費和護理可變性,自動對患者數據進行外部和內部報告,標準化醫療術語和患者登記以及零散點解決方案,幫助改善醫療保健。一些改進領域比實際實施更有抱負。醫療保健系統內產生的數據水平並非微不足道。隨著mHealth,eHealth和可穿戴技術的日益普及,數據量將繼續增加。這包括電子健康記錄數據,成像數據,患者生成的數據,感測器數據和其他形式的難以處理的數據。更需要這種環境更加注重數據和信息質量。“大數據通常意味著'髒數據',數據不準確的比例會隨著數據量的增長而增加。”在大數據範圍內進行人體檢查是不可能的,並且在衛生服務中迫切需要智慧型工具來實現準確性和可信度控制以及錯過信息的處理。雖然醫療保健領域的大量信息都是電子化的,但它適合大數據保護傘,因為大多數信息非結構化且難以使用。

教育

麥肯錫全球研究院的一項研究發現,缺乏150萬訓練有素的數據專業人員和管理人員,包括田納西大學和加州大學伯克利分校在內的一些大學已經創建了滿足這一需求的碩士課程。私人訓練營也開發了滿足這種需求的計畫,包括像The Data Incubator這樣的免費計畫或像大會這樣的付費計畫。在行銷的特定領域,Wedel和Kannan強調的問題之一是行銷有幾個子域(例如,廣告,促銷,產品開發,品牌推廣),它們都使用不同類型的數據。由於不適合採用一刀切的分析解決方案,商學院應該讓市場行銷經理對這些子領域中使用的所有不同技術有廣泛的了解,以便全面了解並與分析師有效合作。

對大數據範式的評價

一個關鍵問題是,我們對導致大數據典型網路特徵出現的潛在經驗微觀過程知之甚少。在他們的批評中, Snijders,Matzat和Reips指出,通常對數學屬性做出非常強烈的假設,這些假設可能根本不能反映微觀過程中真正發生的事情。馬克格雷厄姆對克里斯安德森的斷言提出了廣泛的批評,即大數據將說明理論的終結:特別關注大數據必須始終在其社會,經濟和政治環境中被背景化的觀點。即使公司投入八位數和九位數的金額來從供應商和客戶的信息流中獲取洞察力,但只有不到40%的員工擁有足夠成熟的流程和技能。根據“哈佛商業評論”的一篇文章,為了克服這種洞察力不足,大數據無論多么全面或分析得當,都必須輔之以“大判斷”。
同樣,有人指出,基於大數據分析的決策不可避免地被過去的世界所了解。有關過去經驗的大量數據,如果未來與過去類似,算法可以預測未來的發展。如果未來的系統動態發生變化(如果它不是一個固定的過程),那么過去對未來幾乎沒有什麼看法。為了在不斷變化的環境中進行預測,有必要徹底了解系統動態,這需要理論。作為對這一批評的回應,Alemany Oliver和Vayre建議使用誘導性推理作為研究過程的第一步,以便為消費者的數字痕跡帶來背景,並使新的理論出現。此外,有人建議將大數據方法與計算機模擬相結合,例如基於代理的模型和複雜系統。通過基於相互依賴的算法集合的計算機模擬,基於代理的模型越來越好地預測甚至未知未來情景的社會複雜性的結果。最後,使用探測數據潛在結構的多變數方法,例如因子分析和聚類分析,已被證明可用作分析方法,遠遠超出通常用於較小數據集的雙變數方法(交叉表) 。
在健康和生物學中,傳統的科學方法基於實驗。對於這些方法,限制因素是可以確認或駁斥初始假設的相關數據。在生物科學中接受了一個新的假設:沒有先驗假設的大量數據(組學)提供的信息是互補的,有時是基於實驗的傳統方法所必需的。在大規模的方法中,它是制定相關假設來解釋作為限制因素的數據。搜尋邏輯是相反的,並且應該考慮歸納的限制(“科學與哲學的榮耀醜聞”,C.D.Broad,1926)。
隱私權倡導者擔心通過增加個人身份信息的存儲和集成來代表隱私的威脅;專家小組已經發布了各種政策建議,以使實踐符合隱私期望。媒體,公司甚至政府在若干案件中濫用大數據,使得幾乎所有支持社會的基本制度都喪失了信任。
Nayef Al-Rodhan認為,需要一種新的社會契約來保護大數據背景下的個人自由和擁有大量信息的大公司。應監測大數據的使用情況,並在國家和國際層面加以更好的監管。Barocas和Nissenbaum認為,保護個人用戶的一種方法是了解被收集的信息類型,與誰共享,在什麼約束下以及為了什麼目的。

相關詞條

熱門詞條

聯絡我們