2011年,數(shù)據(jù)湖(DataLake)的概念在福布斯一篇題為《Big Data?Requires a bignew Architecture》的文章中被首次提及。經(jīng)過(guò)了九個(gè)年頭的發(fā)展,在大數(shù)據(jù)時(shí)代紅極一時(shí)的數(shù)據(jù)湖也在理想與現(xiàn)實(shí)之間慢慢發(fā)生著蛻變,現(xiàn)在,數(shù)據(jù)湖已經(jīng)成為海量數(shù)據(jù)存儲(chǔ)與分析的重要承載方式。
一、什么是數(shù)據(jù)湖?
Data Lake,“數(shù)據(jù)湖”的中文翻譯已經(jīng)被越來(lái)越多的人所接受。數(shù)據(jù)湖是以集中方式存儲(chǔ)各種類(lèi)型數(shù)據(jù),提供彈性的容量和吞吐能力,能夠覆蓋廣泛的數(shù)據(jù)源,支持多種計(jì)算與處理分析引擎直接對(duì)數(shù)據(jù)進(jìn)行訪問(wèn)的統(tǒng)一存儲(chǔ)平臺(tái)。他能夠?qū)崿F(xiàn)數(shù)據(jù)分析、機(jī)器學(xué)習(xí),數(shù)據(jù)訪問(wèn)和管理等細(xì)粒度的授權(quán)、審計(jì)等功能。數(shù)據(jù)湖對(duì)存取的數(shù)據(jù)沒(méi)有格式類(lèi)型的限制,數(shù)據(jù)產(chǎn)生后,可以按照數(shù)據(jù)的原始內(nèi)容和屬性,直接存儲(chǔ)到數(shù)據(jù)湖,無(wú)需在數(shù)據(jù)上傳之前對(duì)數(shù)據(jù)進(jìn)行任何的結(jié)構(gòu)化處理。數(shù)據(jù)湖可以存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫(kù)中的表),半結(jié)構(gòu)化數(shù)據(jù)(如 CSV、JSON 、XML、日志等),非結(jié)構(gòu)化數(shù)據(jù)(如電子郵件、文檔、PDF 等)以及二進(jìn)制數(shù)據(jù)(如圖形、音頻、視頻等)。數(shù)據(jù)湖涵蓋的范圍較廣,在一些相關(guān)功能上與“數(shù)據(jù)倉(cāng)庫(kù)”概念類(lèi)似,一些企業(yè)的管理、決策者也總是混淆兩者的區(qū)別。其實(shí),僅僅從產(chǎn)品應(yīng)用場(chǎng)景上,數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)就表現(xiàn)出了明顯的不同:首先,數(shù)據(jù)湖的在功能上可以實(shí)現(xiàn)各種類(lèi)型數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)湖中的數(shù)據(jù)可以是非結(jié)構(gòu)化的、未處理的形態(tài),數(shù)據(jù)可以在確定需要使用時(shí)才會(huì)對(duì)數(shù)據(jù)進(jìn)行對(duì)應(yīng)處理與轉(zhuǎn)換;而數(shù)據(jù)倉(cāng)庫(kù)則通常存放的是經(jīng)過(guò)處理的、結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)存儲(chǔ)的 Schema 在數(shù)據(jù)存儲(chǔ)之前有需要被定義好。

其次,存儲(chǔ)到數(shù)據(jù)湖中的數(shù)據(jù)通常會(huì)按照原始形態(tài)直接存儲(chǔ),隨著業(yè)務(wù)和使用場(chǎng)景的發(fā)展,會(huì)使用不同的計(jì)算引擎對(duì)已經(jīng)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析與處理,數(shù)據(jù)湖中的數(shù)據(jù)在一個(gè)企業(yè)組織中通常會(huì)被多個(gè)不同應(yīng)用、系統(tǒng)和部門(mén)使用和分析,覆蓋的場(chǎng)景廣泛并且范圍也會(huì)動(dòng)態(tài)延展,因此需要提供更多的靈活性以適應(yīng)快速變化的應(yīng)用場(chǎng)景;數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)通常使用場(chǎng)景是在數(shù)據(jù)收集期間就已經(jīng)明確,數(shù)據(jù)倉(cāng)庫(kù)通常集中在 BI、業(yè)務(wù)、運(yùn)營(yíng)等商業(yè)決策相關(guān)場(chǎng)景中,數(shù)據(jù)倉(cāng)庫(kù)也可以把已經(jīng)存在的數(shù)據(jù)轉(zhuǎn)換到新場(chǎng)景,但在靈活性方面不如數(shù)據(jù)湖,需要有更多的數(shù)據(jù)轉(zhuǎn)換時(shí)間和開(kāi)發(fā)資源投入。
二、阿里云數(shù)據(jù)湖
1.強(qiáng)大的數(shù)據(jù)存儲(chǔ)引擎
數(shù)據(jù)湖一個(gè)重要目標(biāo)是將所有企業(yè)數(shù)據(jù)能夠集中存儲(chǔ),以供企業(yè)的各類(lèi)應(yīng)用在授權(quán)下進(jìn)行訪問(wèn)。結(jié)合數(shù)據(jù)湖的這一設(shè)計(jì)目標(biāo)以及元數(shù)據(jù)管理、自動(dòng)化數(shù)據(jù)采集、自動(dòng)化數(shù)據(jù)解析和處理等技術(shù)來(lái)解決各類(lèi)與應(yīng)用相關(guān)的日志埋點(diǎn)、采集與分析。
阿里云的數(shù)據(jù)湖底層基于阿里云自研的分布式存儲(chǔ)引擎搭建,提供體系化的數(shù)據(jù)采集能力,支持結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)源。數(shù)據(jù)湖統(tǒng)一存儲(chǔ),提供了數(shù)據(jù)的管理能力。冷熱分層的存儲(chǔ)方式解決了數(shù)據(jù)分散在各個(gè)集群,需要在不同存儲(chǔ)系統(tǒng)中反復(fù)拷貝等運(yùn)維困擾。同時(shí),在大數(shù)據(jù)訪問(wèn)方面更加優(yōu)化,支持基于 Ranger 的數(shù)據(jù)湖權(quán)限管理,支持混合云方案,總體成本可降低近 50%。
2 與計(jì)算/AI/IoT 平臺(tái)的深入結(jié)合
數(shù)據(jù)湖可以對(duì)接多種差異性的計(jì)算引擎,運(yùn)行在不同負(fù)載之上,多種計(jì)算引擎都共享同一套存儲(chǔ)系統(tǒng),打破數(shù)據(jù)孤島,洞察數(shù)據(jù)價(jià)值。
因?yàn)閿?shù)據(jù)湖對(duì)存儲(chǔ)數(shù)據(jù)的類(lèi)型提供了充足的靈活性,沒(méi)有傳統(tǒng)“入倉(cāng)”的各種限制,數(shù)據(jù)一產(chǎn)生,就能從對(duì)接的數(shù)據(jù)通道上傳到數(shù)據(jù)湖,根據(jù)后續(xù)對(duì)接的分析需求,再進(jìn)行數(shù)據(jù)抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load),生成的處理后數(shù)據(jù)可以再存儲(chǔ)到數(shù)據(jù)湖中,在其他階段或者分析中使用。這樣的好處在于:一來(lái)對(duì)于數(shù)據(jù)內(nèi)容的靈活性,可以讓各類(lèi)應(yīng)用、智能物聯(lián)網(wǎng)設(shè)備都可以輕松解決原數(shù)據(jù)的存儲(chǔ),而不需要設(shè)備消耗大量計(jì)算資源進(jìn)行轉(zhuǎn)換,降低終端智能設(shè)備能耗,當(dāng)數(shù)據(jù)需要分析的時(shí)候再進(jìn)行對(duì)應(yīng)的轉(zhuǎn)換;另一方面,數(shù)據(jù)湖中數(shù)據(jù)可以與多種計(jì)算與分析平臺(tái)結(jié)合使用,對(duì)于企業(yè)來(lái)說(shuō),計(jì)算存儲(chǔ)分離的資源規(guī)劃和架構(gòu)更靈活,在應(yīng)對(duì)業(yè)務(wù)的快速變化時(shí)更加容易的構(gòu)建應(yīng)用平臺(tái)和系統(tǒng),提升效率,對(duì)于數(shù)據(jù)的分析,可以更快、更輕量,減少整體的成本投入。

3 內(nèi)部及外部的有效驗(yàn)證
數(shù)經(jīng)過(guò)二十年的發(fā)展,阿里巴巴集團(tuán)已經(jīng)成為一個(gè)數(shù)字經(jīng)濟(jì)體,阿里巴巴集團(tuán)首先是阿里云數(shù)據(jù)湖產(chǎn)品的最佳實(shí)踐者,后者首先支撐了阿里巴巴集團(tuán)內(nèi)部的電商、移動(dòng)辦公、文娛、物流、本地生活等各種復(fù)雜業(yè)務(wù),建立了完善的自我實(shí)踐機(jī)制,產(chǎn)品和方案得到有效的驗(yàn)證。同時(shí),阿里云的數(shù)據(jù)湖方案也支撐了在線教育、互聯(lián)網(wǎng)廣告、新媒體、網(wǎng)絡(luò)游戲等行業(yè)用戶(hù)在快速發(fā)展過(guò)程中的實(shí)際業(yè)務(wù)需求,實(shí)現(xiàn)了技術(shù)的有效賦能。
三、為什么基于OSS構(gòu)建數(shù)據(jù)湖?
海量彈性: 計(jì)算存儲(chǔ)分離,存儲(chǔ)規(guī)模彈性擴(kuò)容
生態(tài)開(kāi)放:對(duì)Hadoop生態(tài)友好,且無(wú)縫對(duì)接阿里云各計(jì)算平臺(tái)
高性?xún)r(jià)比:統(tǒng)一存儲(chǔ)池,避免重復(fù)拷貝,多種類(lèi)型冷熱分層
更易管理:加密、授權(quán)、生命周期、跨區(qū)復(fù)制等統(tǒng)一管理
