
說(shuō)到大數(shù)據(jù),是一個(gè)現(xiàn)在經(jīng)常被提到的流行詞匯,它包含了很多行業(yè)的很多領(lǐng)域。在業(yè)務(wù)分析中,大數(shù)據(jù). . .
說(shuō)到大數(shù)據(jù),是一個(gè)現(xiàn)在經(jīng)常被提到的流行詞匯,它包含了很多行業(yè)的很多領(lǐng)域。在業(yè)務(wù)分析中,大數(shù)據(jù)通常意味著使用從客戶中獲得的信息,銷售預(yù)測(cè)、供應(yīng)商和很多別的投入的信息,對(duì)業(yè)務(wù)做出最優(yōu)決策,既包括短期的也包括長(zhǎng)期的。大宗商品的交易員可能會(huì)用完全不同的方式使用大數(shù)據(jù),也許他們會(huì)從氣候數(shù)據(jù)中尋求分析,這需要查看衛(wèi)星和相關(guān)文本信息的其它圖像數(shù)據(jù),來(lái)決定哪種交易適合長(zhǎng)期或者短期。這些事例需要一套完全不同的分析工具,十分有效,且使用完全不同的計(jì)算類型和存儲(chǔ)環(huán)境,作為將處理數(shù)據(jù)將它變成信息的算法是非常不同的。
最近,我和JeffLayton在晚餐的時(shí)候會(huì)面,討論了一些來(lái)自圖表分析的不同類型的算法,到MapReduce,到圖像變化監(jiān)測(cè),和其它的,以及一些框架,例如NOSQL和有效運(yùn)行這些算法的系統(tǒng)架構(gòu)。當(dāng)然,有來(lái)自很多供應(yīng)商和即將成為供應(yīng)商的專業(yè)設(shè)備。所以大數(shù)據(jù)對(duì)我來(lái)說(shuō)就是將數(shù)據(jù)變成信息的過(guò)程,然后再變成知識(shí)。
這不是一個(gè)新現(xiàn)象。這不是我的名言。大約400年前,FrancisBacon先生就說(shuō)過(guò)“知識(shí)就是力量。”當(dāng)我們從數(shù)據(jù)中提取越來(lái)越多的信息和知識(shí)時(shí),我和Jeff相信系統(tǒng)架構(gòu)將會(huì)有很大的變化。沒(méi)有提取和分開(kāi)檔案的信息,你將不會(huì)有靜態(tài)檔案。
我和Jeff討論了如何解決這個(gè)問(wèn)題,什么類型的數(shù)據(jù)很重要以及如何移動(dòng)到新計(jì)算時(shí)代。晚餐期間,我們通過(guò)兩種不同的方向,自上而下和自下而上,想到了解決大數(shù)據(jù)的方法。我和Jeff討論了寫數(shù)據(jù)本身和采取哪種提取方式取決于數(shù)據(jù)類型,以及光譜的哪一端,哪種硬件需要用來(lái)分析數(shù)據(jù)。當(dāng)然,我們晚餐中間討論了操作系統(tǒng)、文件系統(tǒng)和其它的大數(shù)據(jù)架構(gòu)所需要的系統(tǒng)軟件。得到編輯的批準(zhǔn),我和Jeff準(zhǔn)備開(kāi)展“Jeff和Henry的大數(shù)據(jù)探險(xiǎn)。”
我將會(huì)開(kāi)始討論大數(shù)據(jù)算法所需要的硬件和大數(shù)據(jù)架構(gòu)的問(wèn)題。例如:
·未來(lái)需要哪種架構(gòu)解決MapReduce難題,未來(lái)的圖表問(wèn)題或者圖像改變監(jiān)測(cè)問(wèn)題
·你是否需要SSD,SAS驅(qū)動(dòng)或者企業(yè)SATA驅(qū)動(dòng)?
·需要哪種類型的存儲(chǔ)控制器?
·關(guān)鍵數(shù)據(jù)歸檔問(wèn)題是什么?
·在將來(lái),需要哪種接口——SAS、FibreChannelEthernet或者其它的?
·計(jì)劃的CPU會(huì)滿足需求嗎,或者需要GPGPU、FPGAs或者一些不太顯眼的東西?
·內(nèi)存要求呢?未來(lái)是否DDR-3/4/5內(nèi)存計(jì)劃能夠滿足需求?
·你需要存儲(chǔ)分層和更大的內(nèi)存?例如通過(guò)擴(kuò)展CPU渠道,如SGIUltraviolet一連接機(jī)器,或者專業(yè)的內(nèi)存系統(tǒng)和處理器,例如CrayuRIKA?
·CPU建設(shè)是否需要緩存一致性檢查,緩存一致性帶寬對(duì)于你需要的數(shù)據(jù)類型分析有用嗎?
·操作系統(tǒng)高于設(shè)備尋址底層硬件的任務(wù)嗎?
·語(yǔ)言、編譯器、調(diào)試器和需要運(yùn)行系統(tǒng)硬件的整個(gè)生態(tài)系統(tǒng)如何?
·不要忘記數(shù)據(jù)的安全性,因?yàn)楝F(xiàn)在的數(shù)據(jù)已經(jīng)成為信息和新建的知識(shí),如何從你的競(jìng)爭(zhēng)對(duì)手、敵人和不應(yīng)該訪問(wèn)的雇員中保存信息?
也許你想讓一些用戶看一些東西,別的用戶只能看匿名數(shù)據(jù)。醫(yī)院病人的數(shù)據(jù)就是一個(gè)主要的例子;你除了醫(yī)生不讓別人看你的實(shí)際病歷,但是研究團(tuán)隊(duì)可能需要查看病情、治療選擇和結(jié)果。安全將會(huì)是巨大的問(wèn)題,如信息的創(chuàng)建和保存在一個(gè)獨(dú)立的位置。不論它是個(gè)人的私有數(shù)據(jù)還是公司秘密,對(duì)黑客來(lái)說(shuō)都是一個(gè)誘惑。不是所有人都能夠查看所有事情,每件事情都應(yīng)該被追蹤,例如審查跟蹤。
這里的問(wèn)題包括:
·需要運(yùn)行在這些系統(tǒng)之上的應(yīng)用程序怎么樣呢?
·某些查詢會(huì)比其它的更優(yōu)先嗎?
·應(yīng)用程序是如何寫數(shù)據(jù)的,以方便讀取處理?
·應(yīng)用程序需要多少線程,需要一個(gè)并行編程模型嗎?如果是,編程模型是什么樣的呢,或者需要一個(gè)SMP模型嗎?將會(huì)需要使用哪種編程模型?
程序上的應(yīng)用程序可以獲得任何捷徑嗎?90%的答案是獲得50%的計(jì)算處理。這90%的答案適合在框架時(shí)期給出嗎?或者你在做著生與死的抉擇的時(shí)候,在哪種情況下90%的答案是不夠好的。
倒是幸虧,服務(wù)員上菜很慢而且飯菜可口,不然我和Jeff不會(huì)有足夠的時(shí)間討論這些問(wèn)題。
當(dāng)然,我們沒(méi)有得出任何結(jié)論。自從我和Jeff的晚餐會(huì)議之后,我們?cè)诮酉聛?lái)的幾天仔細(xì)討論,并且決定將“大數(shù)據(jù)”作為我們第二年度聯(lián)合寫作項(xiàng)目的主題。
我們?nèi)绾翁幚泶髷?shù)據(jù)
未來(lái)幾個(gè)月,我會(huì)逐步建立堆棧和忙于大數(shù)據(jù)問(wèn)題,將會(huì)起始于硬件和堆棧的向上移動(dòng)。因?yàn)槲艺f(shuō)過(guò)很多次,細(xì)節(jié)很重要(至少需要一些時(shí)間)。Jeff會(huì)從另一端開(kāi)始,致力于堆棧的中間部分。我們會(huì)在操作系統(tǒng)或者編譯和函數(shù)庫(kù)中的某個(gè)地方接合。
你可能會(huì)問(wèn)為什么存儲(chǔ)站點(diǎn)都在討論編譯器、調(diào)試器和類似的東西,為什么我要閱讀這些相關(guān)的?好問(wèn)題。答案是,我們將會(huì)看到我們的世界正從面向數(shù)據(jù)處理到面向信息的處理的轉(zhuǎn)變。一切都將會(huì)改變,我們不希望我們的讀者運(yùn)用恐龍式的舊方法。我們相信這一轉(zhuǎn)變,是如何考慮主要變化開(kāi)始發(fā)生的理解關(guān)鍵。存儲(chǔ)只是一部分,若想成功,你不只需要了解存儲(chǔ),還有新的操作環(huán)境及其需求。
這并不是說(shuō),我們相信會(huì)成為所有羅列內(nèi)容的專家,因?yàn)闆](méi)有人是,甚至是嘗試成為的,但是那說(shuō)明想要成功,你必須關(guān)注和了解方方面面,或者一些我也沒(méi)想到的事情和一些獨(dú)有的東西,才適合未來(lái)的發(fā)展。大數(shù)據(jù)不只是云存儲(chǔ)。也不是關(guān)于歸檔、備份或者其它的戰(zhàn)術(shù)問(wèn)題。它就是談?wù)撃闼鶕碛械?,提取能夠幫助你的組織獲得成功的信息。(來(lái)源:智慧領(lǐng)袖網(wǎng))