當前位置 首頁 > 業界新聞 展開更多菜單
每天50TB 淘寶海量數據輕松“漫遊”記
作者:admin  點擊次數:513  發布時間:2016-05-29
導語:在電子商務領域,淘寶可謂是一支奇葩。它創造了中國最大的電子商務網站,形成了一個包括買家、買家、物流、金融、廣告、搜索在内的商業生态系統。據了解,淘寶目前每天的活躍數據量已經超過50TB,共有4億條産品訊息和2億多名注冊用戶在上面活動,每天超過4000萬人次訪問。如此巨大的數據訪問量,使得淘寶數據倉庫成為國内最忙碌的數據倉庫之一。每天大約要處理幾億次的用戶行為。那麼,淘寶是如何建立…

據江楓介紹,淘寶所有的商業數據基本上都是彙集到數據倉庫來集中,然後進行運算,最終會根據不同的BI模型,得出不同的結果。通過對各種訪問、交易、商鋪信息以及客服信息等的綜合處理,形成反映各種浏覽、交易和用戶行為、行業銷售趨勢方面的統計數據,可以給整個公司的決策提供數據方面的支持。因此,淘寶的數據庫系統對整個公司來說,是至關重要的。同時,江楓也表示,淘寶的數據除了給公司内部用以外,也有提供給外部用戶的。比如說淘寶2010年做的數據魔方産品,就是給淘寶的賣家提供商品的銷售情況,行業的銷售的趨勢,給淘寶賣家帶來更大的數據營銷方面的數據方面的支持;另外還有一個比較大的數據産品是電子統計,即提供給淘寶賣家的一些電子統計,包括賣家的訪客來源,訪客喜歡什麼時間段來,定了哪些商品等非常詳細的訂貨的統計,這些信息也有助于淘寶的産品商戶和賣家了解、分析用戶行為,設計增值服務。這不僅需要數據倉庫對海量數據進行更新、集中處理,也需要它能提供每天動态、實時的分析,無疑對于數據庫系統是個巨大的挑戰。

    淘寶網利用Oracle産品構建淘寶數據庫的技術已經有4年的時間。并于2007年、2008年和2009年三次利用Oracle RAC 10g和Oracle RAC 11g對數據倉庫系統進行了升級和擴充,将數據倉庫部署在RAC系統之上。4年來,淘寶的業務每年是保持100%以上的增長速度,淘寶的數據庫也在不斷增長。2006年,淘寶的RAC系統還是4個節點,2008年,淘寶将之升級到12個節點,2009年的時候又把它升到20個節點,使淘寶在數據倉庫規模每年成倍擴大的情況下,實現了數據處理和分析時效性的不斷提升,應對不斷增長的數據處理需求。

    同時,江楓強調,該數據庫系統的實時更新已經可以做到每小時,或者是每15分鐘,甚至可以做到秒級的水平——淘寶現在今年新開發的基于日期的複制已經可以做到秒級的實時更新數據到這個數據倉庫裡面來。

    對于淘寶來說,數據的安全性更加重要。江楓說,淘寶就是所有的數據庫肯定都是在集成網絡之後的,在外面任何地方都是沒有辦法訪問到淘寶上數據庫上的數據的。在監控上,淘寶有自己一整套監控系統在支持,包括我們防欺詐、防惡意的數據。在淘寶内部,專門設置了一個非常大的部門在做這個事情。

    目前,Oracle 11g産品也在淘寶的數據倉庫系統内進行着測試,并将在不久的将來,在淘寶網的數據庫系統建設中,發揮更大的作用。

用手機掃描二維碼關閉