大(dà)數據是什麽？一(yī)文讓你讀懂大(dà)數據_深圳市天眼雲客信息技術有限公司官網

大(dà)數據是什麽？一(yī)文讓你讀懂大(dà)數據

大(dà)數據 | 2018-03-12 15:11

日期：2013-11-04 來源：中(zhōng)文互聯網數據資(zī)訊中(zhōng)心
在寫這篇大(dà)數據文章之前，我(wǒ)(wǒ)發現身邊很多IT人對于這些熱門的新技術、新趨勢往往趨之若鹜卻又(yòu)很難說的透徹，如果你問他大(dà)數據是什麽？估計很少能說出一(yī)二三來。究其原因，一(yī)是因爲大(dà)家對大(dà)數據這類新技術有着相同的原始渴求，至少知(zhī)其然在聊天時不會顯得很“土鼈”；二是在工(gōng)作和生(shēng)活環境中(zhōng)真正能參與實踐大(dà)數據的案例實在太少了，所以大(dà)家沒有必要花時間去(qù)知(zhī)其所以然。

　　我(wǒ)(wǒ)希望有些不一(yī)樣，所以對該如何去(qù)認識大(dà)數據進行了一(yī)番思索，包括查閱了資(zī)料，翻閱了最新的專業書(shū)籍，但我(wǒ)(wǒ)并不想把那些零散的資(zī)料碎片或不同理解論述簡單規整并堆積起來形成毫無價值的轉述或評論，我(wǒ)(wǒ)很真誠的希望進入事物(wù)探尋本質。

　　如果你說大(dà)數據就是數據大(dà)，或者侃侃而談4個V，也許很有深度的談到BI或預測的價值，又(yòu)或者拿Google和Amazon舉例，技術流可能會聊起hadoop和Cloud Computing，不管對錯，隻是無法勾勒對大(dà)數據的整體(tǐ)認識，不說是片面，但至少有些管窺蠡測、隔衣瘙癢了。……也許，“解構”是最好的方法。

　　怎樣結構大(dà)數據？

　　首先，我(wǒ)(wǒ)認爲大(dà)數據就是互聯網發展到現今階段的一(yī)種表象或特征而已，沒有必要神話(huà)它或對它保持敬畏之心，在以雲計算爲代表的技術創新大(dà)幕的襯托下(xià)，這些原本很難收集和使用的數據開(kāi)始容易被利用起來了，通過各行各業的不斷創新，大(dà)數據會逐步爲人類創造更多的價值。

　　其次，想要系統的認知(zhī)大(dà)數據，必須要全面而細緻的分(fēn)解它，我(wǒ)(wǒ)着手從三個層面來展開(kāi)：

　　第一(yī)層面是理論，理論是認知(zhī)的必經途徑，也是被廣泛認同和傳播的基線。我(wǒ)(wǒ)會從大(dà)數據的特征定義理解行業對大(dà)數據的整體(tǐ)描繪和定性；從對大(dà)數據價值的探讨來深入解析大(dà)數據的珍貴所在；從對大(dà)數據的現在和未來去(qù)洞悉大(dà)數據的發展趨勢；從大(dà)數據隐私這個特别而重要的視角審視人和數據之間的長久博弈。

　　第二層面是技術，技術是大(dà)數據價值體(tǐ)現的手段和前進的基石。我(wǒ)(wǒ)将分(fēn)别從雲計算、分(fēn)布式處理技術、存儲技術和感知(zhī)技術的發展來說明大(dà)數據從采集、處理、存儲到形成結果的整個過程。

　　第三層面是實踐，實踐是大(dà)數據的最終價值體(tǐ)現。我(wǒ)(wǒ)将分(fēn)别從互聯網的大(dà)數據，政府的大(dà)數據，企業的大(dà)數據和個人的大(dà)數據四個方面來描繪大(dà)數據已經展現的美好景象及即将實現的藍(lán)圖。

　　和大(dà)數據相關的理論

　　特征定義

　　最早提出大(dà)數據時代到來的是麥肯錫：“數據，已經滲透到當今每一(yī)個行業和業務職能領域，成爲重要的生(shēng)産因素。人們對于海量數據的挖掘和運用，預示着新一(yī)波生(shēng)産率增長和消費(fèi)者盈餘浪潮的到來。”

　　業界（IBM 最早定義）将大(dà)數據的特征歸納爲4個“V”（量Volume，多樣Variety，價值Value，速Velocity），或者說特點有四個層面：第一(yī)，數據體(tǐ)量巨大(dà)。大(dà)數據的起始計量單位至少是P（1000個T）、E（100萬個T）或Z（10億個T）；第二，數據類型繁多。比如，網絡日志(zhì)、視頻(pín)、圖片、地理位置信息等等。第三，價值密度低，商(shāng)業價值高。第四，處理速度快。最後這一(yī)點也是和傳統的數據挖掘技術有着本質的不同。

　　其實這些V并不能真正說清楚大(dà)數據的所有特征，下(xià)面這張圖對大(dà)數據的一(yī)些相關特性做出了有效的說明。

　　古語雲：三分(fēn)技術，七分(fēn)數據，得數據者得天下(xià)。先不論誰說的，但是這句話(huà)的正确性已經不用去(qù)論證了。維克托·邁爾-舍恩伯格在《大(dà)數據時代》一(yī)書(shū)中(zhōng)舉了百般例證，都是爲了說明一(yī)個道理：在大(dà)數據時代已經到來的時候要用大(dà)數據思維去(qù)發掘大(dà)數據的潛在價值。書(shū)中(zhōng)，作者提及最多的是Google如何利用人們的搜索記錄挖掘數據二次利用價值，比如預測某地流感爆發的趨勢；Amazon如何利用用戶的購買和浏覽曆史數據進行有針對性的書(shū)籍購買推薦，以此有效提升銷售量；Farecast如何利用過去(qù)十年所有的航線機票(piào)價格打折數據，來預測用戶購買機票(piào)的時機是否合适。

　　那麽，什麽是大(dà)數據思維？維克托·邁爾-舍恩伯格認爲，1-需要全部數據樣本而不是抽樣；2-關注效率而不是精确度；3-關注相關性而不是因果關系。

　　阿裏巴巴的王堅對于大(dà)數據也有一(yī)些獨特的見解，比如，

　　“今天的數據不是大(dà)，真正有意思的是數據變得在線了，這個恰恰是互聯網的特點。”

　　“非互聯網時期的産品，功能一(yī)定是它的價值，今天互聯網的産品，數據一(yī)定是它的價值。”

　　“你千萬不要想着拿數據去(qù)改進一(yī)個業務，這不是大(dà)數據。你一(yī)定是去(qù)做了一(yī)件以前做不了的事情。”

　　特别是最後一(yī)點，我(wǒ)(wǒ)是非常認同的，大(dà)數據的真正價值在于創造，在于填補無數個還未實現過的空白(bái)。

　　有人把數據比喻爲蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分(fēn)類，而露天煤礦、深山煤礦的挖掘成本又(yòu)不一(yī)樣。與此類似，大(dà)數據并不在“大(dà)”，而在于“有用”。價值含量、挖掘成本比數量更爲重要。

　　價值探讨

　　大(dà)數據是什麽？投資(zī)者眼裏是金光閃閃的兩個字：資(zī)産。比如，Facebook上市時，評估機構評定的有效資(zī)産中(zhōng)大(dà)部分(fēn)都是其社交網站上的數據。

　　如果把大(dà)數據比作一(yī)種産業，那麽這種産業實現盈利的關鍵，在于提高對數據的“加工(gōng)能力”，通過“加工(gōng)”實現數據的“增值”。

　　Target 超市以20多種懷孕期間孕婦可能會購買的商(shāng)品爲基礎，将所有用戶的購買記錄作爲數據來源，通過構建模型分(fēn)析購買者的行爲相關性，能準确的推斷出孕婦的具體(tǐ)臨盆時間，這樣Target的銷售部門就可以有針對的在每個懷孕顧客的不同階段寄送相應的産品優惠卷。

　　Target的例子是一(yī)個很典型的案例，這樣印證了維克托·邁爾-舍恩伯格提過的一(yī)個很有指導意義的觀點：通過找出一(yī)個關聯物(wù)并監控它，就可以預測未來。Target通過監測購買者購買商(shāng)品的時間和品種來準确預測顧客的孕期，這就是對數據的二次利用的典型案例。如果，我(wǒ)(wǒ)們通過采集駕駛員(yuán)手機的GPS數據，就可以分(fēn)析出當前哪些道路正在堵車(chē)，并可以及時發布道路交通提醒；通過采集汽車(chē)的GPS位置數據，就可以分(fēn)析城市的哪些區域停車(chē)較多，這也代表該區域有着較爲活躍的人群，這些分(fēn)析數據适合賣給廣告投放(fàng)商(shāng)。

　　不管大(dà)數據的核心價值是不是預測，但是基于大(dà)數據形成決策的模式已經爲不少的企業帶來了盈利和聲譽。

　　從大(dà)數據的價值鏈條來分(fēn)析，存在三種模式：

　　1- 手握大(dà)數據，但是沒有利用好；比較典型的是金融機構，電(diàn)信行業，政府機構等。

　　2- 沒有數據，但是知(zhī)道如何幫助有數據的人利用它；比較典型的是IT咨詢和服務企業，比如，埃森(sēn)哲，IBM，Oracle等。

　　3- 既有數據，又(yòu)有大(dà)數據思維；比較典型的是Google，Amazon，Mastercard等。

　　未來在大(dà)數據領域最具有價值的是兩種事物(wù)：1-擁有大(dà)數據思維的人，這種人可以将大(dà)數據的潛在價值轉化爲實際利益；2-還未有被大(dà)數據觸及過的業務領域。這些是還未被挖掘的油井，金礦，是所謂的藍(lán)海。

　　Wal-Mart作爲零售行業的巨頭，他們的分(fēn)析人員(yuán)會對每個階段的銷售記錄進行了全面的分(fēn)析，有一(yī)次他們無意中(zhōng)發現雖不相關但很有價值的數據，在美國的飓風來臨季節，超市的蛋撻和抵禦飓風物(wù)品竟然銷量都有大(dà)幅增加，于是他們做了一(yī)個明智決策，就是将蛋撻的銷售位置移到了飓風物(wù)品銷售區域旁邊，看起來是爲了方便用戶挑選，但是沒有想到蛋撻的銷量因此又(yòu)提高了很多。

　　還有一(yī)個有趣的例子，1948年遼沈戰役期間，司令員(yuán)林彪要求每天要進行例常的“每日軍情彙報”，由值班參謀讀出下(xià)屬各個縱隊、師、團用電(diàn)台報告的當日戰況和繳獲情況。那幾乎是重複着千篇一(yī)律枯燥無味的數據：每支部隊殲敵多少、俘虜多少;繳獲的火(huǒ)炮、車(chē)輛多少，槍支、物(wù)資(zī)多少……有一(yī)天，參謀照例彙報當日的戰況，林彪突然打斷他：“剛才念的在胡家窩棚那個戰鬥的繳獲，你們聽(tīng)到了嗎(ma)?”大(dà)家都很茫然，因爲如此戰鬥每天都有幾十起，不都是差不多一(yī)模一(yī)樣的枯燥數字嗎(ma)?林彪掃視一(yī)周，見無人回答，便接連問了三句：“爲什麽那裏繳獲的短槍與長槍的比例比其它戰鬥略高?”“爲什麽那裏繳獲和擊毀的小(xiǎo)車(chē)與大(dà)車(chē)的比例比其它戰鬥略高?”“爲什麽在那裏俘虜和擊斃的軍官與士兵的比例比其它戰鬥略高?”林彪司令員(yuán)大(dà)步走向挂滿軍用地圖的牆壁，指着地圖上的那個點說：“我(wǒ)(wǒ)猜想，不，我(wǒ)(wǒ)斷定!敵人的指揮所就在這裏!”果然，部隊很快就抓住了敵方的指揮官廖耀湘，并取得這場重要戰役的勝利。

　　這些例子真實的反映在各行各業，探求數據價值取決于把握數據的人，關鍵是人的數據思維；與其說是大(dà)數據創造了價值，不如說是大(dà)數據思維觸發了新的價值增長。

　　現在和未來

　　我(wǒ)(wǒ)們先看看大(dà)數據在當下(xià)有怎樣的傑出表現：

　　大(dà)數據幫助政府實現市場經濟調控、公共衛生(shēng)安全防範、災難預警、社會輿論監督；

　　大(dà)數據幫助城市預防犯罪，實現智慧交通，提升緊急應急能力；

　　大(dà)數據幫助醫療機構建立患者的疾病風險跟蹤機制，幫助醫藥企業提升藥品的臨床使用效果，幫助艾滋病研究機構爲患者提供定制的藥物(wù)；

　　大(dà)數據幫助航空公司節省運營成本，幫助電(diàn)信企業實現售後服務質量提升，幫助保險企業識别欺詐騙保行爲，幫助快遞公司監測分(fēn)析運輸車(chē)輛的故障險情以提前預警維修，幫助電(diàn)力公司有效識别預警即将發生(shēng)故障的設備；

　　大(dà)數據幫助電(diàn)商(shāng)公司向用戶推薦商(shāng)品和服務，幫助旅遊網站爲旅遊者提供心儀的旅遊路線，幫助二手市場的買賣雙方找到最合适的交易目标，幫助用戶找到最合适的商(shāng)品購買時期、商(shāng)家和最優惠價格；

　　大(dà)數據幫助企業提升營銷的針對性，降低物(wù)流和庫存的成本，減少投資(zī)的風險，以及幫助企業提升廣告投放(fàng)精準度；

　　大(dà)數據幫助娛樂行業預測歌手，歌曲，電(diàn)影，電(diàn)視劇的受歡迎程度，并爲投資(zī)者分(fēn)析評估拍一(yī)部電(diàn)影需要投入多少錢才最合适，否則就有可能收不回成本；

　　大(dà)數據幫助社交網站提供更準确的好友推薦，爲用戶提供更精準的企業招聘信息，向用戶推薦可能喜歡的遊戲以及适合購買的商(shāng)品。

　　其實，這些還遠遠不夠，未來大(dà)數據的身影應該無處不在，就算無法準确預測大(dà)數據終會将人類社會帶往到哪種最終形态，但我(wǒ)(wǒ)相信隻要發展腳步在繼續，因大(dà)數據而産生(shēng)的變革浪潮将很快淹沒地球的每一(yī)個角落。

　　比如，Amazon的最終期望是：“最成功的書(shū)籍推薦應該隻有一(yī)本書(shū)，就是用戶要買的下(xià)一(yī)本書(shū)。”

　　Google也希望當用戶在搜索時，最好的體(tǐ)驗是搜索結果隻包含用戶所需要的内容，而這并不需要用戶給予Google太多的提示。

　　而當物(wù)聯網發展到達一(yī)定規模時，借助條形碼、二維碼、RFID等能夠唯一(yī)标識産品，傳感器、可穿戴設備、智能感知(zhī)、視頻(pín)采集、增強現實等技術可實現實時的信息采集和分(fēn)析，這些數據能夠支撐智慧城市，智慧交通，智慧能源，智慧醫療，智慧環保的理念需要，這些都所謂的智慧将是大(dà)數據的采集數據來源和服務範圍。

　　未來的大(dà)數據除了将更好的解決社會問題，商(shāng)業營銷問題，科學技術問題，還有一(yī)個可預見的趨勢是以人爲本的大(dà)數據方針。人才是地球的主宰，大(dà)部分(fēn)的數據都與人類有關，要通過大(dà)數據解決人的問題。

　　比如，建立個人的數據中(zhōng)心，将每個人的日常生(shēng)活習慣，身體(tǐ)體(tǐ)征，社會網絡，知(zhī)識能力，愛好性情，疾病嗜好，情緒波動……換言之就是記錄人從出生(shēng)那一(yī)刻起的每一(yī)分(fēn)每一(yī)秒，将除了思維外(wài)的一(yī)切都儲存下(xià)來，這些數據可以被充分(fēn)的利用：

　　醫療機構将實時的監測用戶的身體(tǐ)健康狀況；

　　教育機構更有針對的制定用戶喜歡的教育培訓計劃；

　　服務行業爲用戶提供即時健康的符合用戶生(shēng)活習慣的食物(wù)和其它服務；

　　社交網絡能爲你提供合适的交友對象，并爲志(zhì)同道合的人群組織各種聚會活動；

　　政府能在用戶的心理健康出現問題時有效的幹預，防範自殺，刑事案件的發生(shēng)；

　　金融機構能幫助用戶進行有效的理财管理，爲用戶的資(zī)金提供更有效的使用建議和規劃；

　　道路交通、汽車(chē)租賃及運輸行業可以爲用戶提供更合适的出行線路和路途服務安排；

　　……

　　當然，上面的一(yī)切看起來都很美好，但是否是以犧牲了用戶的自由爲前提呢？隻能說當新鮮事物(wù)帶來了革新的同時也同樣帶來了“病菌”。比如，在手機未普及前，大(dà)家喜歡聚在一(yī)起聊天，自從手機普及後特别是有了互聯網，大(dà)家不用聚在一(yī)起也可以随時随地的聊天，隻是“病菌”滋生(shēng)了另外(wài)一(yī)種情形，大(dà)家慢(màn)慢(màn)習慣了和手機共渡時光，人與人之間情感交流仿佛永遠隔着一(yī)張“網”。

　　大(dà)數據隐私

　　你或許并不敏感，當你在不同的網站上注冊了個人信息後，可能這些信息已經被擴散出去(qù)了，當你莫名其妙的接到各種郵件，電(diàn)話(huà)，短信的滋擾時，你不會想到自己的電(diàn)話(huà)号碼，郵箱，生(shēng)日，購買記錄，收入水平，家庭住址，親朋好友等私人信息早就被各種商(shāng)業機構非法存儲或賤賣給其它任何有需要的企業或個人了。

　　更可怕的是，這些信息你永遠無法删除，它們永遠存在于互聯網的某些你不知(zhī)道的角落。除非你更換掉自己的所有信息，但是這代價太大(dà)了。

　　用戶隐私問題一(yī)直是大(dà)數據應用難以繞開(kāi)的一(yī)個問題，如被央視曝光過的分(fēn)衆無線、羅維鄧白(bái)氏以及網易郵箱都涉及侵犯用戶隐私。目前，中(zhōng)國并沒有專門的法律法規來界定用戶隐私，處理相關問題時多采用其他相關法規條例來解釋。但随着民衆隐私意識的日益增強，合法合規地獲取數據、分(fēn)析數據和應用數據，是進行大(dà)數據分(fēn)析時必須遵循的原則。

　　說到隐私被侵犯，愛德華?斯諾登應該占據一(yī)席之地，這位前美國中(zhōng)央情報局（CIA）雇員(yuán)一(yī)手引爆了美國“棱鏡計劃”（PRISM）的内幕消息。“棱鏡”項目是一(yī)項由美國國家安全局（NSA）自2007年起開(kāi)始實施的絕密電(diàn)子監聽(tīng)計劃，年耗資(zī)近2000億美元，用于監聽(tīng)全美電(diàn)話(huà)通話(huà)記錄，據稱還可以使情報人員(yuán)通過“後門”進入9家主要科技公司的服務器，包括微軟、雅虎、谷歌、Facebook、PalTalk、美國在線、Skype、YouTube、蘋果。這個事件引發了人們對政府使用大(dà)數據時對公民隐私侵犯的擔心。

　　再看看我(wǒ)(wǒ)們身邊，當微博，微信，QQ空間這些社交平台肆意的吞噬着數億用戶的各種信息時，你就不要指望你還有隐私權了，就算你在某個地方删除了，但也許這些信息已經被其他人轉載或保存了，更有可能已經被百度或Google存爲快照，早就提供給任意用戶搜索了。

　　因此在大(dà)數據的背景下(xià)，很多人都在積極的抵制無底線的數字化，這種大(dà)數據和個體(tǐ)之間的博弈還會一(yī)直繼續下(xià)去(qù)……

　　專家給予了我(wǒ)(wǒ)們一(yī)些如何有效保護大(dà)數據背景下(xià)隐私權的建議：1-減少信息的數字化；2-隐私權立法；3-數字隐私權基礎設施（類似DRM數字版權管理）；4-人類改變認知(zhī)（接受忽略過去(qù)）；5-創造良性的信息生(shēng)态；6-語境化。

　　但是這些都很難立即見效或者有實質性的改善。

　　比如，現在有一(yī)種職業叫删帖人，專門負責幫人到各大(dà)網站删帖，删除評論。其實這些人就是通過黑客技術侵入各大(dà)網站，破獲管理員(yuán)的密碼然後進行手工(gōng)定向删除。隻不過他們保護的不是客戶的隐私，而大(dà)多是醜聞。還有一(yī)種職業叫人肉專家，他們負責從互聯網上找到一(yī)個與他們根本就無關系用戶的任意信息。這是很可怕的事情，也就是說，如果有人想找到你，隻需要兩個條件：1-你上過網，留下(xià)過痕迹；2-你的親朋好友或僅僅是認識你的人上過網，留下(xià)過你的痕迹。這兩個條件滿足其一(yī)，人肉專家就可以很輕松的找到你，可能還知(zhī)道你現在正在某個餐廳和誰一(yī)起共進晚餐。

　　當很多互聯網企業意識到隐私對于用戶的重要性時，爲了繼續得到用戶的信任，他們采取了很多辦法，比如google承諾僅保留用戶的搜索記錄9個月，浏覽器廠商(shāng)提供了無痕沖浪模式，社交網站拒絕公共搜索引擎的爬蟲進入，并将提供出去(qù)的數據全部采取匿名方式處理等。

　　在這種複雜(zá)的環境裏面，很多人依然沒有建立對于信息隐私的保護意識，讓自己一(yī)直處于被滋擾，被精心設計，被利用，被監視的處境中(zhōng)。可是，我(wǒ)(wǒ)們能做的幾乎微乎其微，因爲個人隐私數據已經無法由我(wǒ)(wǒ)們自己掌控了，就像一(yī)首詩裏說到的：“如果你現在繼續麻木，那就别指望這麻木能抵擋得住被”扒光”那一(yī)刻的驚恐和絕望……”

　　和大(dà)數據相關的技術

　　雲技術

　　大(dà)數據常和雲計算聯系到一(yī)起，因爲實時的大(dà)型數據集分(fēn)析需要分(fēn)布式處理框架來向數十、數百或甚至數萬的電(diàn)腦分(fēn)配工(gōng)作。可以說，雲計算充當了工(gōng)業革命時期的發動機的角色，而大(dà)數據則是電(diàn)。

　　雲計算思想的起源是麥卡錫在上世紀60年代提出的：把計算能力作爲一(yī)種像水和電(diàn)一(yī)樣的公用事業提供給用戶。

　　如今，在Google、Amazon、Facebook等一(yī)批互聯網企業引領下(xià)，一(yī)種行之有效的模式出現了：雲計算提供基礎架構平台，大(dà)數據應用運行在這個平台上。

　　業内是這麽形容兩者的關系：沒有大(dà)數據的信息積澱，則雲計算的計算能力再強大(dà)，也難以找到用武之地；沒有雲計算的處理能力，則大(dà)數據的信息積澱再豐富，也終究隻是鏡花水月。

　　那麽大(dà)數據到底需要哪些雲計算技術呢？

　　這裏暫且列舉一(yī)些，比如虛拟化技術，分(fēn)布式處理技術，海量數據的存儲和管理技術，NoSQL、實時流數據處理、智能分(fēn)析技術（類似模式識别以及自然語言理解）等。

　　雲計算和大(dà)數據之間的關系可以用下(xià)面的一(yī)張圖來說明，兩者之間結合後會産生(shēng)如下(xià)效應：可以提供更多基于海量業務數據的創新型服務；通過雲計算技術的不斷發展降低大(dà)數據業務的創新成本。

　　如果将雲計算與大(dà)數據進行一(yī)些比較，最明顯的區分(fēn)在兩個方面：

　　第一(yī)，在概念上兩者有所不同，雲計算改變了IT，而大(dà)數據則改變了業務。然而大(dà)數據必須有雲作爲基礎架構，才能得以順暢運營。

　　第二，大(dà)數據和雲計算的目标受衆不同，雲計算是CIO等關心的技術層，是一(yī)個進階的IT解決方案。而大(dà)數據是CEO關注的、是業務層的産品，而大(dà)數據的決策者是業務層。

　　分(fēn)布式處理技術

　　分(fēn)布式處理系統可以将不同地點的或具有不同功能的或擁有不同數據的多台計算機用通信網絡連接起來，在控制系統的統一(yī)管理控制下(xià)，協調地完成信息處理任務—這就是分(fēn)布式處理系統的定義。

　　以Hadoop（Yahoo）爲例進行說明，Hadoop是一(yī)個實現了MapReduce模式的能夠對大(dà)量數據進行分(fēn)布式處理的軟件框架，是以一(yī)種可靠、高效、可伸縮的方式進行處理的。

　　而MapReduce是Google提出的一(yī)種雲計算的核心計算模式，是一(yī)種分(fēn)布式運算技術，也是簡化的分(fēn)布式編程模式，MapReduce模式的主要思想是将自動分(fēn)割要執行的問題（例如程序）拆解成map（映射）和reduce（化簡）的方式，在數據被分(fēn)割後通過Map 函數的程序将數據映射成不同的區塊，分(fēn)配給計算機機群處理達到分(fēn)布式運算的效果，在通過Reduce 函數的程序将結果彙整，從而輸出開(kāi)發者需要的結果。

　　再來看看Hadoop的特性，第一(yī)，它是可靠的，因爲它假設計算元素和存儲會失敗，因此它維護多個工(gōng)作數據副本，确保能夠針對失敗的節點重新分(fēn)布處理。其次，Hadoop 是高效的，因爲它以并行的方式工(gōng)作，通過并行處理加快處理速度。Hadoop 還是可伸縮的，能夠處理 PB 級數據。此外(wài)，Hadoop 依賴于社區服務器，因此它的成本比較低，任何人都可以使用。

　　你也可以這麽理解Hadoop的構成，Hadoop=HDFS（文件系統，數據存儲技術相關）+HBase（數據庫）+MapReduce（數據處理）+……Others

　　Hadoop用到的一(yī)些技術有：

　　HDFS: Hadoop分(fēn)布式文件系統(Distributed File System) － HDFS (HadoopDistributed File System)

　　MapReduce：并行計算框架

　　HBase: 類似Google BigTable的分(fēn)布式NoSQL列數據庫。

　　Hive：數據倉庫工(gōng)具，由Facebook貢獻。

　　Zookeeper：分(fēn)布式鎖設施，提供類似Google Chubby的功能，由Facebook貢獻。

　　Avro：新的數據序列化格式與傳輸工(gōng)具，将逐步取代Hadoop原有的IPC機制。

　　Pig:大(dà)數據分(fēn)析平台，爲用戶提供多種接口。

　　Ambari：Hadoop管理工(gōng)具，可以快捷的監控、部署、管理集群。

　　Sqoop：用于在Hadoop與傳統的數據庫間進行數據的傳遞。

　　說了這麽多，舉個實際的例子，雖然這個例子有些陳舊(jiù)，但是淘寶的海量數據技術架構還是有助于我(wǒ)(wǒ)們理解對于大(dà)數據的運作處理機制:

　　淘寶大(dà)數據

　　如上圖所示，淘寶的海量數據産品技術架構分(fēn)爲五個層次，從上至下(xià)來看它們分(fēn)别是：數據源，計算層，存儲層，查詢層和産品層。

　　數據來源層。存放(fàng)着淘寶各店(diàn)的交易數據。在數據源層産生(shēng)的數據，通過DataX，DbSync和Timetunel準實時的傳輸到下(xià)面第2點所述的“雲梯”。

　　計算層。在這個計算層内，淘寶采用的是Hadoop集群，這個集群，我(wǒ)(wǒ)們暫且稱之爲雲梯，是計算層的主要組成部分(fēn)。在雲梯上，系統每天會對數據産品進行不同的MapReduce計算。

　　存儲層。在這一(yī)層，淘寶采用了兩個東西，一(yī)個使MyFox，一(yī)個是Prom。MyFox是基于MySQL的分(fēn)布式關系型數據庫的集群，Prom是基于Hadoop Hbase技術的一(yī)個NoSQL的存儲集群。

　　查詢層。在這一(yī)層中(zhōng)，Glider是以HTTP協議對外(wài)提供restful方式的接口。數據産品通過一(yī)個唯一(yī)的URL來獲取到它想要的數據。同時，數據查詢即是通過MyFox來查詢的。

　　最後一(yī)層是産品層，這個就不用解釋了。

　　存儲技術

　　大(dà)數據可以抽象的分(fēn)爲大(dà)數據存儲和大(dà)數據分(fēn)析，這兩者的關系是：大(dà)數據存儲的目的是支撐大(dà)數據分(fēn)析。到目前爲止，還是兩種截然不同的計算機技術領域：大(dà)數據存儲緻力于研發可以擴展至PB甚至EB級别的數據存儲平台；大(dà)數據分(fēn)析關注在最短時間内處理大(dà)量不同類型的數據集。

　　提到存儲，有一(yī)個著名的摩爾定律相信大(dà)家都聽(tīng)過：18個月集成電(diàn)路的複雜(zá)性就增加一(yī)倍。所以，存儲器的成本大(dà)約每18-24個月就下(xià)降一(yī)半。成本的不斷下(xià)降也造就了大(dà)數據的可存儲性。

　　比如，Google大(dà)約管理着超過50萬台服務器和100萬塊硬盤，而且Google還在不斷的擴大(dà)計算能力和存儲能力，其中(zhōng)很多的擴展都是基于在廉價服務器和普通存儲硬盤的基礎上進行的，這大(dà)大(dà)降低了其服務成本，因此可以将更多的資(zī)金投入到技術的研發當中(zhōng)。

　　以Amazon舉例，Amazon S3 是一(yī)種面向 Internet 的存儲服務。該服務旨在讓開(kāi)發人員(yuán)能更輕松的進行網絡規模計算。Amazon S3 提供一(yī)個簡明的 Web 服務界面，用戶可通過它随時在 Web 上的任何位置存儲和檢索的任意大(dà)小(xiǎo)的數據。此服務讓所有開(kāi)發人員(yuán)都能訪問同一(yī)個具備高擴展性、可靠性、安全性和快速價廉的基礎設施，Amazon 用它來運行其全球的網站網絡。再看看S3的設計指标：在特定年度内爲數據元提供 99.999999999% 的耐久性和 99.99% 的可用性，并能夠承受兩個設施中(zhōng)的數據同時丢失。

　　S3很成功也确實卓有成效，S3雲的存儲對象已達到萬億級别，而且性能表現相當良好。S3雲已經擁萬億跨地域存儲對象，同時AWS的對象執行請求也達到百萬的峰值數量。目前全球範圍内已經有數以十萬計的企業在通過AWS運行自己的全部或者部分(fēn)日常業務。這些企業用戶遍布190多個國家，幾乎世界上的每個角落都有Amazon用戶的身影。

　　此外(wài)，雲創大(dà)數據的cStor雲存儲系統采用了先進的雲計算技術、網絡通信技術以及分(fēn)布式文件系統技術，将硬件存儲節點組織管理起來，以提供高性能、高可靠的存儲。基于此，cStor A8000雲存儲系統一(yī)體(tǐ)機集中(zhōng)供電(diàn)、集中(zhōng)散熱，每個機架最大(dà)可搭載總存儲容量高達3.8PB，但整體(tǐ)功耗卻比傳統方式節省10倍，全面展現了新一(yī)代高密度雲存儲産品的高容量、高性能以及節能環保的綠色魅力，已經廣泛用于電(diàn)信、平安城市等多個領域的海量數據存儲與處理。

　　感知(zhī)技術

　　大(dà)數據的采集和感知(zhī)技術的發展是緊密聯系的。以傳感器技術，指紋識别技術，RFID技術，坐标定位技術等爲基礎的感知(zhī)能力提升同樣是物(wù)聯網發展的基石。全世界的工(gōng)業設備、汽車(chē)、電(diàn)表上有着無數的數碼傳感器，随時測量和傳遞着有關位置、運動、震動、溫度、濕度乃至空氣中(zhōng)化學物(wù)質的變化，都會産生(shēng)海量的數據信息。

　　而随着智能手機的普及，感知(zhī)技術可謂迎來了發展的高峰期，除了地理位置信息被廣泛的應用外(wài)，一(yī)些新的感知(zhī)手段也開(kāi)始登上舞台，比如，最新的”iPhone 5S”在home鍵内嵌指紋傳感器，新型手機可通過呼氣直接檢測燃燒脂肪量，用于手機的嗅覺傳感器面世可以監測從空氣污染到危險的化學藥品，微軟正在研發可感知(zhī)用戶當前心情智能手機技術，谷歌眼鏡InSight新技術可通過衣着進行人物(wù)識别。

　　除此之外(wài)，還有很多與感知(zhī)相關的技術革新讓我(wǒ)(wǒ)們耳目一(yī)新：比如，牙齒傳感器實時監控口腔活動及飲食狀況，嬰兒穿戴設備可用大(dà)數據去(qù)養育寶寶，Intel正研發3D筆記本攝像頭可追蹤眼球讀懂情緒，日本公司開(kāi)發新型可監控用戶心率的紡織材料，業界正在嘗試将生(shēng)物(wù)測定技術引入支付領域等。

　　其實，這些感知(zhī)被逐漸捕獲的過程就是就世界被數據化的過程，一(yī)旦世界被完全數據化了，那麽世界的本質也就是信息了。

　　就像一(yī)句名言所說，“人類以前延續的是文明，現在傳承的是信息。”

　　大(dà)數據的實踐

　　互聯網的大(dà)數據

　　互聯網上的數據每年增長50%，每兩年便将翻一(yī)番，而目前世界上90%以上的數據是最近幾年才産生(shēng)的。據IDC預測，到2020年全球将總共擁有35ZB的數據量。互聯網是大(dà)數據發展的前哨陣地，随着WEB2.0時代的發展，人們似乎都習慣了将自己的生(shēng)活通過網絡進行數據化，方便分(fēn)享以及記錄并回憶。

　　互聯網上的大(dà)數據很難清晰的界定分(fēn)類界限，我(wǒ)(wǒ)們先看看BAT的大(dà)數據：

　　百度擁有兩種類型的大(dà)數據：用戶搜索表征的需求數據；爬蟲和阿拉丁獲取的公共web數據。搜索巨頭百度圍繞數據而生(shēng)。它對網頁數據的爬取、網頁内容的組織和解析，通過語義分(fēn)析對搜索需求的精準理解進而從海量數據中(zhōng)找準結果，以及精準的搜索引擎關鍵字廣告，實質上就是一(yī)個數據的獲取、組織、分(fēn)析和挖掘的過程。搜索引擎在大(dà)數據時代面臨的挑戰有：更多的暗網數據；更多的WEB化但是沒有結構化的數據；更多的WEB化、結構化但是封閉的數據。

　　阿裏巴巴擁有交易數據和信用數據。這兩種數據更容易變現，挖掘出商(shāng)業價值。除此之外(wài)阿裏巴巴還通過投資(zī)等方式掌握了部分(fēn)社交數據、移動數據。如微博和高德。

　　騰訊擁有用戶關系數據和基于此産生(shēng)的社交數據。這些數據可以分(fēn)析人們的生(shēng)活和行爲,從裏面挖掘出政治、社會、文化、商(shāng)業、健康等領域的信息，甚至預測未來。

　　在信息技術更爲發達的美國，除了行業知(zhī)名的類似Google，Facebook外(wài)，已經湧現了很多大(dà)數據類型的公司，它們專門經營數據産品，比如：

　　Metamarkets：這家公司對Twitter、支付、簽到和一(yī)些與互聯網相關的問題進行了分(fēn)析，爲客戶提供了很好的數據分(fēn)析支持。

　　Tableau：他們的精力主要集中(zhōng)于将海量數據以可視化的方式展現出來。Tableau爲數字媒體(tǐ)提供了一(yī)個新的展示數據的方式。他們提供了一(yī)個免費(fèi)工(gōng)具，任何人在沒有編程知(zhī)識背景的情況下(xià)都能制造出數據專用圖表。這個軟件還能對數據進行分(fēn)析，并提供有價值的建議。

　　ParAccel：他們向美國執法機構提供了數據分(fēn)析，比如對15000個有犯罪前科的人進行跟蹤，從而向執法機構提供了參考性較高的犯罪預測。他們是犯罪的預言者。

　　QlikTech：QlikTech旗下(xià)的Qlikview是一(yī)個商(shāng)業智能領域的自主服務工(gōng)具，能夠應用于科學研究和藝術等領域。爲了幫助開(kāi)發者對這些數據進行分(fēn)析，QlikTech提供了對原始數據進行可視化處理等功能的工(gōng)具。

　　GoodData：GoodData希望幫助客戶從數據中(zhōng)挖掘财富。這家創業公司主要面向商(shāng)業用戶和IT企業高管，提供數據存儲、性能報告、數據分(fēn)析等工(gōng)具。

　　TellApart：TellApart和電(diàn)商(shāng)公司進行合作，他們會根據用戶的浏覽行爲等數據進行分(fēn)析，通過鎖定潛在買家方式提高電(diàn)商(shāng)企業的收入。

　　DataSift：DataSift主要收集并分(fēn)析社交網絡媒體(tǐ)上的數據，并幫助品牌公司掌握突發新聞的輿論點，并制定有針對性的營銷方案。這家公司還和Twitter有合作協議，使得自己變成了行業中(zhōng)爲數不多可以分(fēn)析早期tweet的創業公司。

　　Datahero：公司的目标是将複雜(zá)的數據變得更加簡單明了，方便普通人去(qù)理解和想象。

　　舉了很多例子，這裏簡要歸納一(yī)下(xià)，在互聯網大(dà)數據的典型代表性包括：

　　1-用戶行爲數據（精準廣告投放(fàng)、内容推薦、行爲習慣和喜好分(fēn)析、産品優化等）

　　2-用戶消費(fèi)數據（精準營銷、信用記錄分(fēn)析、活動促銷、理财等）

　　3-用戶地理位置數據（O2O推廣，商(shāng)家推薦，交友推薦等）

　　4-互聯網金融數據（P2P，小(xiǎo)額貸款，支付，信用，供應鏈金融等）

　　5-用戶社交等UGC數據（趨勢分(fēn)析、流行元素分(fēn)析、受歡迎程度分(fēn)析、輿論監控分(fēn)析、社會問題分(fēn)析等）

　　同時，提供數據托管服務的大(dà)數據平台也應運而生(shēng)，比如萬物(wù)雲與環境雲。其中(zhōng)，作爲智能硬件大(dà)數據免費(fèi)托管平台，萬物(wù)雲(http://www.wanwuyun.com)可無限承載海量的物(wù)聯網和智能設備數據。通過使用多種協議，各種智能設備将安全地向萬物(wù)雲提交産生(shēng)的設備數據，在服務平台上進行存儲和處理，并通過數據應用編程接口向各種物(wù)聯網應用提供可靠的跨平台的數據查詢和調用服務。萬物(wù)雲在大(dà)幅度降低物(wù)聯網數據應用的技術門檻及運營成本的同時，也滿足了物(wù)聯網産品原型開(kāi)發、商(shāng)業運營和規模發展各階段需求。目前，萬物(wù)雲的注冊用戶達到1605，入庫數據超過55億條。

　　環境雲(http://www.envicloud.cn)則是一(yī)個全面而便捷的綜合環境大(dà)數據開(kāi)放(fàng)平台，收錄權威數據源(中(zhōng)央氣象台、國家環保部數據中(zhōng)心、美國全球地震信息中(zhōng)心等)所發布的各類環境數據，接收雲創自主布建的全國各類環境監控傳感器網絡(包括空氣質量指标，土壤環境質量指标檢測網絡)所采集的數據，并結合相關數據預測模型生(shēng)成的預報數據，依托數據托管服務平台萬物(wù)雲所提供的數據存儲服務，推出了一(yī)系列功能豐富、便捷易用的綜合環境數據REST API，配合詳盡的接口使用幫助，爲環境應用開(kāi)發者提供豐富可靠的氣象、環境、災害以及地理數據服務。此外(wài)，環境雲還爲環境研究人員(yuán)提供了自定義數據報表生(shēng)成和下(xià)載功能，并向公衆展示環境實況。目前，環境雲的入庫數據已經超過6億條。

　　政府的大(dà)數據

　　近期，奧巴馬政府宣布投資(zī)2億美元拉動大(dà)數據相關産業發展，将“大(dà)數據戰略”上升爲國家意志(zhì)。奧巴馬政府将數據定義爲“未來的新石油”，并表示一(yī)個國家擁有數據的規模、活性及解釋運用的能力将成爲綜合國力的重要組成部分(fēn)，未來，對數據的占有和控制甚至将成爲陸權、海權、空權之外(wài)的另一(yī)種國家核心資(zī)産。

　　在國内，政府各個部門都握有構成社會基礎的原始數據，比如，氣象數據，金融數據，信用數據，電(diàn)力數據，煤氣數據，自來水數據，道路交通數據，客運數據，安全刑事案件數據，住房數據，海關數據，出入境數據，旅遊數據，醫療數據，教育數據，環保數據等等。這些數據在每個政府部門裏面看起來是單一(yī)的，靜态的。但是，如果政府可以将這些數據關聯起來，并對這些數據進行有效的關聯分(fēn)析和統一(yī)管理，這些數據必定将獲得新生(shēng)，其價值是無法估量的。

　　具體(tǐ)來說，現在城市都在走向智能和智慧，比如，智能電(diàn)網、智慧交通、智慧醫療、智慧環保、智慧城市，這些都依托于大(dà)數據，可以說大(dà)數據是智慧的核心能源。從國内整體(tǐ)投資(zī)規模來看，到2012年底全國開(kāi)建智慧城市的城市數超過180個，通信網絡和數據平台等基礎設施建設投資(zī)規模接近5000億元。“十二五”期間智慧城市建設拉動的設備投資(zī)規模将達1萬億元人民币。大(dà)數據爲智慧城市的各個領域提供決策支持。在城市規劃方面，通過對城市地理、氣象等自然信息和經濟、社會、文化、人口等人文社會信息的挖掘，可以爲城市規劃提供決策，強化城市管理服務的科學性和前瞻性。在交通管理方面，通過對道路交通信息的實時挖掘，能有效緩解交通擁堵，并快速響應突發狀況，爲城市交通的良性運轉提供科學的決策依據。在輿情監控方面，通過網絡關鍵詞搜索及語義智能分(fēn)析，能提高輿情分(fēn)析的及時性、全面性，全面掌握社情民意，提高公共服務能力，應對網絡突發的公共事件，打擊違法犯罪。在安防與防災領域，通過大(dà)數據的挖掘，可以及時發現人爲或自然災害、恐怖事件，提高應急處理能力和安全防範能力。

　　另外(wài)，作爲國家的管理者，政府應該有勇氣将手中(zhōng)的數據逐步開(kāi)放(fàng)，供給更多有能力的機構組織或個人來分(fēn)析并加以利用，以加速造福人類。比如，美國政府就籌建了一(yī)個data.gov網站，這是奧巴馬任期内的一(yī)個重要舉措：要求政府公開(kāi)透明，而核心就是實現政府機構的數據公開(kāi)。截止目前，已經開(kāi)放(fàng)了有91054 個datasets；349citizen-developed apps；137 mobile apps；175 agencies and subagencies；87 galleries；295 Government APIs。

　　企業的大(dà)數據

　　企業的CXO們最關注的還是報表曲線的背後能有怎樣的信息，他該做怎樣的決策，其實這一(yī)切都需要通過數據來傳遞和支撐。在理想的世界中(zhōng)，大(dà)數據是巨大(dà)的杠杆，可以改變公司的影響力，帶來競争差異、節省金錢、增加利潤、愉悅買家、獎賞忠誠用戶、将潛在客戶轉化爲客戶、增加吸引力、打敗競争對手、開(kāi)拓用戶群并創造市場。

　　那麽，哪些傳統企業最需要大(dà)數據服務呢？抛磚引玉，先舉幾個例子：1) 對大(dà)量消費(fèi)者提供産品或服務的企業（精準營銷）；2) 做小(xiǎo)而美模式的中(zhōng)長尾企業（服務轉型）；3) 面臨互聯網壓力之下(xià)必須轉型的傳統企業（生(shēng)死存亡）。

　　對于企業的大(dà)數據，還有一(yī)種預測：随着數據逐漸成爲企業的一(yī)種資(zī)産，數據産業會向傳統企業的供應鏈模式發展，最終形成“數據供應鏈”。這裏尤其有兩個明顯的現象：1) 外(wài)部數據的重要性日益超過内部數據。在互聯互通的互聯網時代，單一(yī)企業的内部數據與整個互聯網數據比較起來隻是滄海一(yī)粟；2) 能提供包括數據供應、數據整合與加工(gōng)、數據應用等多環節服務的公司會有明顯的綜合競争優勢。

　　對于提供大(dà)數據服務的企業來說，他們等待的是合作機會，就像微軟史密斯說的：“給我(wǒ)(wǒ)提供一(yī)些數據，我(wǒ)(wǒ)就能做一(yī)些改變。如果給我(wǒ)(wǒ)提供所有數據，我(wǒ)(wǒ)就能拯救世界。”

　　然而，一(yī)直做企業服務的巨頭将優勢不在，不得不眼看新興互聯網企業加入戰局，開(kāi)啓殘酷競争模式。爲何會出現這種局面？從 IT 産業的發展來看，第一(yī)代 IT 巨頭大(dà)多是 ToB 的，比如 IBM、Microsoft、Oracle、SAP、HP這類傳統 IT 企業；第二代 IT 巨頭大(dà)多是ToC 的，比如 Yahoo、Google、Amazon、Facebook 這類互聯網企業。大(dà)數據到來前，這兩類公司彼此之間基本是井水不犯河水；但在當前這個大(dà)數據時代，這兩類公司已經開(kāi)始直接競争。比如 Amazon 已經開(kāi)始提供雲模式的數據倉庫服務，直接搶占 IBM、Oracle 的市場。這個現象出現的本質原因是：在互聯網巨頭的帶動下(xià)，傳統 IT 巨頭的客戶普遍開(kāi)始從事電(diàn)子商(shāng)務業務，正是由于客戶進入了互聯網，所以傳統 IT 巨頭們不情願地被拖入了互聯網領域。如果他們不進入互聯網，他們業務必将萎縮。在進入互聯網後，他們又(yòu)必須将雲技術，大(dà)數據等互聯網最具有優勢的技術通過封裝打造成自己的産品再提供給企業。

　　以IBM舉例，上一(yī)個十年，他們抛棄了PC，成功轉向了軟件和服務，而這次将遠離(lí)服務與咨詢，更多地專注于因大(dà)數據分(fēn)析軟件而帶來的全新業務增長點。IBM執行總裁羅睿蘭認爲，“數據将成爲一(yī)切行業當中(zhōng)決定勝負的根本因素，最終數據将成爲人類至關重要的自然資(zī)源。”IBM積極的提出了“大(dà)數據平台”架構。該平台的四大(dà)核心能力包括Hadoop系統、流計算（StreamComputing）、數據倉庫（Data Warehouse）和信息整合與治理（Information Integration and Governance）

　　IBM大(dà)數據

　　另外(wài)一(yī)家亟待通過雲和大(dà)數據戰略而複蘇的巨頭公司HP也推出了自己的産品：HAVEn，一(yī)個可以自由擴展伸縮的大(dà)數據解決方案。這個解決方案由HP Autonomy、HP Vertica、HP ArcSight 和惠普運營管理(HP OperationsManagement)四大(dà)技術組成。還支持Hadoop這樣通用的技術。HAVEn不是一(yī)個軟件平台，而是一(yī)個生(shēng)态環境。四大(dà)組成部分(fēn)滿足不同的應用場景需要，Autonomy解決音視頻(pín)識别的重要解決方案；Vertica解決數據處理的速度和效率的方案；ArcSight解決機器的記錄信息處理，幫助企業獲得更高安全級别的管理；運營管理解決的不僅僅是外(wài)部數據的處理，而是包括了IT基礎設施産生(shēng)的數據。

　　個人的大(dà)數據

　　個人的大(dà)數據這個概念很少有人提及，簡單來說，就是與個人相關聯的各種有價值數據信息被有效采集後，可由本人授權提供第三方進行處理和使用，并獲得第三方提供的數據服務。

　　舉個例子來說明會更清晰一(yī)些：

　　未來，每個用戶可以在互聯網上注冊個人的數據中(zhōng)心，以存儲個人的大(dà)數據信息。用戶可确定哪些個人數據可被采集，并通過可穿戴設備或植入芯片等感知(zhī)技術來采集捕獲個人的大(dà)數據，比如，牙齒監控數據，心率數據，體(tǐ)溫數據，視力數據，記憶能力，地理位置信息，社會關系數據，運動數據，飲食數據，購物(wù)數據等等。用戶可以将其中(zhōng)的牙齒監測數據授權給XX牙科診所使用，由他們監控和使用這些數據，進而爲用戶制定有效的牙齒防治和維護計劃；也可以将個人的運動數據授權提供給某運動健身機構，由他們監測自己的身體(tǐ)運動機能，并有針對的制定和調整個人的運動計劃；還可以将個人的消費(fèi)數據授權給金融理财機構，由他們幫你制定合理的理财計劃并對收益進行預測。當然，其中(zhōng)有一(yī)部分(fēn)個人數據是無需個人授權即可提供給國家相關部門進行實時監控的，比如罪案預防監控中(zhōng)心可以實時的監控本地區每個人的情緒和心理狀态，以預防自殺和犯罪的發生(shēng)。

　　以個人爲中(zhōng)心的大(dà)數據有這麽一(yī)些特性：

　　1- 數據僅留存在個人中(zhōng)心，其它第三方機構隻被授權使用（數據有一(yī)定的使用期限），且必須接受用後即焚的監管。

　　2- 采集個人數據應該明确分(fēn)類，除了國家立法明确要求接受監控的數據外(wài)，其它類型數據都由用戶自己決定是否被采集。

　　3- 數據的使用将隻能由用戶進行授權，數據中(zhōng)心可幫助監控個人數據的整個生(shēng)命周期。

　　展望過于美好，也許實現個人數據中(zhōng)心将遙遙無期，也許這還不是解決個人數據隐私的最好方法，也許業界對大(dà)數據的無限渴求會阻止數據個人中(zhōng)心的實現，但是随着數據越來越多，在缺乏監管之後，必然會有一(yī)場激烈的博弈：到底是數據重要還是隐私重要；是以商(shāng)業爲中(zhōng)心還是以個人爲中(zhōng)心。