最基本單元
沉積
傳統的
沉積是指河流流速減慢時,水中夾帶的岩石、沙礫、泥土等由於重力而沉澱下來,淤積在
河床和海灣等低洼地帶,也指物質在溶液中沉澱積聚的現象。其實,
沉積是一種相當普遍存在的自然現象和過程。我們可以把某物體在某個地方的聚積和積累過程視為沉積,如
黑洞吞噬恆星等。產生
沉積的力量是引力和生物化學力。物質、能量和信息是客觀世界的三大要素。物質流、能量流和信息流也會在一些地方,如:
宇宙空間、恆星上和
黑洞中及生物體內發生
沉積, 黑洞吞噬恆星和其它物質就是一種沉積。隨著
沉積過程的深入,會使這些地方的特性發生相應的變化。
沉積速度
沉積速度是指物體在某一地方聚積的快慢。它是一個量變的過程,視具體物體
沉積的速度會有很大的差異。如:某
黑洞一年吞噬一顆或幾顆恆星,某恆星一年要增加若干噸的氦。 富積程度是單位體積、單位面積、單位質量或單位數量中某物體的多少。它是事物發生質變的重要標誌。如:某個
黑洞中單質子濃度已達到 60--80% ,某恆星上的氫占 49% 。
宇宙的構成
從分子、原子、到質子、電子、夸克……人類的認識在深入,目前,許多理論物理學家認為,“弦”才是構成宇宙的最基本的單元。所有的基本粒子:電子、光子、夸克、中微子這些“點”都是運動的,它們的運動產生“線”——“弦”,這些基本粒子是“弦”的不同具體形態。“線”——“弦”的運動又產生“面”——“膜”
數字宇宙與現代生活
相關聯繫
數字信息每天在
無線電波、電話電路和計算機電纜中川流不息。我們周圍到處都是數字信息。我們在
高畫質電視機上看數字信息,在網際網路上聽數字信息,我們自己也在不斷製造新的數字信息。每次用
數位相機拍照後,都產生了新的數字信息,通過
電子郵件把照片發給朋友和家人,又製造了更多的數字信息。 顯而易見的事例太多了。
YouTube公司幾年前還不存在,現在每天通過其網站傳送的視頻多達1億份。專家們說,每天通過網際網路共享的MP3歌曲超過10億首。這是一個數字比特的世界。倫敦的 200個交通監控攝像頭每天向總部數據中心傳送64萬億個數字比特。
Chevron公司的首席信息官說,Chevron公司的數據在以每天2TB、也即 1.7592×1013個比特的速度增加。到2010年,世界上大多數國家的電視廣播都將全面實現
數位化。數字比特在不斷增多。不過,我們不知道的是,這些數字比特總共有多少?數字比特增加的速度有多快?比特激增意味著什麼
人們製造、獲取和複製的所有1和0組成了數字宇宙。這份白皮書是IDC公司對數字宇宙未來發展的預測。IDC同時分析了數字宇宙的未來發展對身處其中的人們和公司可能產生的影響。人們通過拍照片和共享音樂製造了數字比特,而公司則組織和管理對這些數字信息的訪問和
存儲並為其提供安全保障。這個研究項目是由 EMC公司贊助的。
發展
·2006年產生、獲取和複製的數字信息總量為1288×1018個比特。用計算機用語來說,就是161EB或1610億GB(見“什麼是比特和位元組?”部分)。這大約是有史以來出版的圖書信息總量的300萬倍。
·從2006年到2010年,數字宇宙的信息量將增長6倍多,從161EB增加到988EB。
· 2007年,人們建立的信息量將首次超過可用的存儲容量。
數字宇宙令人難以置信的發展意味著一個極為簡單的事實,我們每個人都將面臨規模空前的信息爆炸。對機構來說,這意味著需要保護隱私、數據安全和智慧財產權,進行內容管理和信息管理以及採用合適的技術和
數據中心架構。
數字宇宙中比特的增加及其異構特性意味著,世界各地的機構,無論大小,只要它們的IT基礎架構在傳遞、
存儲、複製這些比特並在保護這些比特的安全,那么這些機構就別無選擇,為管理、搜尋和存儲信息並保護信息的安全,它們只能實施越來越複雜的技術。
殘酷現實
危機
現在的世界是一個幾乎被數字信息淹沒的世界,越來越多的數字信息被創造出來,但是很快的,就像那些流行歌曲、進口大片一樣又迅速的被人們所遺忘,慢慢的,我們發現,在我們的音樂庫、電影庫等等資料庫中積存了大量的數據,而這些數據對我們的誘惑,就像“賭石”一樣高深莫測,也許裡面有著我們需要的大量信息,能夠幫助我們認識世界,發現未來,提升
企業的經營活動,也許就像亂髮的
小廣告和過街天橋上辦的假證,都是一些無用甚至是垃圾的信息。
當然,我們也會發現,在一個電影資料庫里有著同一部影片的數個拷貝,占用了大量的空間,可是如果我們想扔掉它,卻必須面對這樣一個現實:越來越少的拷貝能夠保證數據完好的保存下來么?要知道,知名的NASA,美國國家航空航天管理局就曾經出現過一個令人遺憾又有些滑稽的“事故”,人類首次登上月球的高清晰版錄像帶沒了蹤影,而這盤錄像帶遠比傳回地球的視頻清晰數倍。 當然,除了這些,我們還有許多要擔憂的,比如那些遠沒有薩班斯法案知名的,讓我們存儲更多信息的法規,如SEC、NARA、FOIA和DOD ,甚至我們還能夠舉出比這多一倍的法規。還有越來越多的新信息,比如說VoIP電話成了
企業網路的一部分、
樓宇自動化和安全保障系統進入了IP網路、
監控系統實現了數位化、RFID和
感測器網路在激增。對了,還有越來越多的Blog、PodCast、WebCast以及
數位相機、攝像機製造的個人信息,尤其是視頻信息,據稱,從數位相機、相機電話、醫用掃瞄器到保全攝像頭,全世界有10億多個設備在拍攝影像,這些影像成為數字宇宙中最大的組成部分。這些影像通過網際網路、
企業內部網在PC和伺服器以及數據中心中複製,通過數位電視廣播和數字投影銀幕播放。
同時,在我們製造的這些信息之下,所有的人發現,我們已經越來越離不開這些數字信息了。
除了每天都要面對電腦之外,我們的生活也和這些信息密切相關,比如說天氣預報,我們每天看到的天氣預報,是通過對大量過往歷史數據和新的衛星圖片、航拍照片而分析出來的,只有信息更多更準確,圖片更清楚才可以獲得準確的預報。另外,當Google的股價朝著300美元挺進的時候,我們發現,如此多的信息讓我們只要掌握一種簡單的方法就可以成為“專家”,那就是搜尋,而在搜尋背後,是人類從第一台計算機ENIAC開始就積累起來的數字信息。
發展前景
當然,對於這些信息最依賴的還是
企業們,他們被我們所說的那些法律所要求存儲各種各樣的信息,也因為越來越多的商業智慧型、知識管理、交易分析而主動的把信息存放起來,但是他們卻發現,面臨兩個極為棘手的問題,一是利用,二是存儲。利用就是如何使用這些信息,分析這些信息,存儲則說起來簡單做起來難――其實就是如何用最少的磁碟、磁帶、光碟等介質存儲數據,並用最少錢卻又最快的速度將它們連線起來。
解決方案
綜述
從目前的情況來看,我很看好三項技術和一個市場,這其中的三項技術被認為是最能解決信息的存放、利用需求的,而這一個市場,將會是整個存儲行業未來的最大爆發點。
重複數據刪除技術
首先,我們要談的是三項技術,第一項技術就是重複數據刪除技術,無論是基於檔案的
重複數據刪除或者叫做單一實例存儲,還是基於塊的重複數據刪除技術,都能夠大幅度降低用戶存儲的重複數據,就像那些群發的
電子郵件所帶的相同附屬檔案和更改只有幾個位元組的文檔或記錄,通過刪除重複的數據,用戶可以用比原來少的多的容量去存儲相同的數據。我們在此並不去考慮什麼是基於檔案還是基於塊,或者粒度的問題,只是想告訴大家,重複數據刪除(或是說其中包含有的單一實例存儲),可以節省用戶的存儲介質的寶貴空間。
不過也要注意到,重複數據刪除由於從
物理層解析
冗餘重複的
數據塊,或是對檔案的相似度進行比較,因此所以對於重複性較高的資料庫和檔案系統的備份任務,其壓縮比相應較高。可是如果用戶的數據重複性較小,比如說作為檔案伺服器、FTP下載、
郵件伺服器或者內容伺服器的數據存儲,以及對於壓縮檔案格式的數據處理,比如說視頻、音頻、圖片、圖紙以及其它已經經過壓縮的檔案,其用處就有些不明顯了。因此如何有效利用現有空間,也就讓第二項技術走到了台前。
自動精簡配置技術
用戶大量的數據不僅難以存儲,而且為了防止數據“溢出”,避免存儲容量緊張,很多用戶都迫不得已的去購買了大量的存儲設備,將它們放在系統中備用,從而造成了大量的浪費,同時,這些存儲設備的散熱、電力供應也讓
企業花了不少冤枉錢,因此,如何高效的利用空間,比如說能夠回收LUN被刪除或修改後所釋放的空間,成為了很多企業都非常關注的事情。
同時,一般來說,
企業構建存儲系統的第一步,是將
存儲空間分配給各個套用系統,然而,當存儲空間分配給某一個套用系統使用後,其它套用系統就無法運用這個空間。通常在早期部署階段時,管理員很難精確知道各套用系統的實際容量需求,因此分配之後,許多磁碟空間就相當於被「鎖住」,造成空間浪費。
一般來說,
企業構建存儲系統的第一步,是將
存儲空間分配給各個套用系統,然而,當存儲空間分配給某一個套用系統使用後,其它套用系統就無法運用這個空間。以傳統的做法來說,
企業都會預先買許多
存儲空間以應對數據的增長,因為通常在早期部署階段時,管理員很難精確知道各套用系統的實際容量需求,因此分配之後,許多磁碟空間就相當於被“鎖住”,造成空間浪費。
舉例來說,
企業第一年可能僅需要100GB容量,但若一開始僅購買100GB,日後要擴充至1TB時就要更改設定,尤其當前端伺服器不支持動態擴展功能時,後端存儲系統要擴充容量就會很麻煩,甚至需要停機維護,為了要避免這些困擾,許多企業會選擇一開始購買1TB的容量。但若一開始就購買1TB容量,初期使用率會很低。
無論是被叫做
自動精簡配置還是小儲量預備,或者是我們認為最貼切的“存儲資源隨需分配”,這項技術能夠讓前端的伺服器以為存儲設備安裝了比實際還多的存儲容量,讓
存儲空間的使用率再提升。作為一種
存儲虛擬化技術,關鍵在於能讓前端的伺服器以為存儲設備安裝了比實際還多的存儲容量,比如存儲設備的真實容量只有100GB,卻可透過Thin Provisioning技術,讓前端伺服器以為有1TB。
導入
自動精簡配置技術就可解決這樣的問題,由於前端的伺服器一開始就以為可使用的是1TB容量,因此日後擴充也不受任何影響,讓
企業可根據需求再購買
存儲空間。有人便以航空公司的超額售票比喻Thin Provisioning技術,由於許多乘客常會有訂位後不到的情況,所以航空公司通常會在每個航班賣出比實際還多的座位,以提高航班的搭乘率。
HDS技術總監張憲桐曾表示,由於
企業都有預先購買容量的需求,因此
存儲空間平均實際使用率約為20%~30%,若採用
自動精簡配置技術,可讓空間利用率提升至70%~80%。
CAS技術的春天
最後一項技術,就是CAS技術,即內容定址存儲(Content-addressable storage,CAS)”是根據內容(而不是位置)檢索存儲信息的,其具有
面向對象存儲特徵,基於磁記錄技術,它按照所存儲數據內容的
數字指紋定址,具有良好的可搜尋性、安全性、可靠性和擴展性。於是,從2002年世界上第一個內容定址存儲 (CAS) 解決方案EMC Centera出現開始,CAS技術就被越來越多的業內專家所稱道。
而CAS技術最大的優勢就體現在其對於
存儲一項重要工作――歸檔的貢獻上,就像我們所說的,信息除了要被存儲,還要被利用,而Archive(歸檔)就是指以長期持久地保存事務或者套用狀態記錄。一般情況下,歸檔通常用以審計和分析的目的,而不是用於套用恢復的目的。