數(shù)據(jù)湖要考慮的首要問題:
從定義看,一塊u盤即符合數(shù)據(jù)湖的定義。u盤可以是數(shù)據(jù)湖,OSS可以是數(shù)據(jù)湖,hdfs、盤古也可以是數(shù)據(jù)湖。它們均嚴(yán)格的符合數(shù)據(jù)湖的定義。作為企業(yè)的數(shù)據(jù)湖技術(shù)選型第一個需要考慮的問題就是:采用什么樣的存儲介質(zhì)或存儲系統(tǒng)作為自己的數(shù)據(jù)湖解決方案。眾所周知,不同的存儲介質(zhì)或存儲系統(tǒng)有不同的優(yōu)勢和劣勢。比如:有的存儲系統(tǒng)隨機(jī)讀取的響應(yīng)時(shí)間更好、有的系統(tǒng)批量讀取的吞吐量更好、有的系統(tǒng)存儲成本更低、有的系統(tǒng)擴(kuò)展性更好、有的系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)組織得更高效...相應(yīng)的,這些提到的各個指標(biāo)中有些恰恰是有些存儲所不擅長的,如何享有所有存儲系統(tǒng)的優(yōu)勢、規(guī)避所有存儲系統(tǒng)的劣勢變成了云上數(shù)據(jù)湖服務(wù)要考慮的首要問題。
要解決這個矛盾的問題,在理論上是不可能一勞永逸的。聰明的做法是對上提供一個邏輯上的存儲解決方案,然后讓需要不同訪問特點(diǎn)的數(shù)據(jù)靈活地在各種底層存儲系統(tǒng)中遷移。通過便捷的數(shù)據(jù)遷移(、以及數(shù)據(jù)格式轉(zhuǎn)化)的能力, 來充分發(fā)揮出各個存儲系統(tǒng)的優(yōu)勢。結(jié)論:成熟的數(shù)據(jù)湖一定是一個邏輯上的存儲系統(tǒng),它的底層是多個各種類型的存儲系統(tǒng)所組成。

數(shù)據(jù)湖要解決的三大問題:
元數(shù)據(jù)管理、數(shù)據(jù)集成、數(shù)據(jù)開發(fā)是數(shù)據(jù)湖需要解決的三大問題,阿里云的DataWorks作為一個通用的大數(shù)據(jù)平臺,除了很好的解決了數(shù)倉場景的各類問題,也同樣解決了數(shù)據(jù)湖場景中的核心痛點(diǎn)。
元數(shù)據(jù)管理:
用戶的湖上數(shù)據(jù)需要有個統(tǒng)一集中的管理能力,這就成了數(shù)據(jù)湖的第一個核心能力。dataworks的數(shù)據(jù)治理能力便是用來解決數(shù)據(jù)湖中的各類存儲系統(tǒng)的元數(shù)據(jù)管理的。目前它管理了云上11中數(shù)據(jù)源的元數(shù)據(jù)。涵蓋OSS、EMR、MaxCompute、Hologres、mysql、PostgreSQL、SQL Server、Oracle、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 2.0、AnalyticDB for MySQL 3.0 等云上主要數(shù)據(jù)源類型的元數(shù)據(jù)管理。功能上涵蓋元數(shù)據(jù)采集、存儲檢索、在線元數(shù)據(jù)服務(wù)、數(shù)據(jù)預(yù)覽、分類打標(biāo)、數(shù)據(jù)血緣、數(shù)據(jù)探查、影響分析、資源優(yōu)化等能力。

數(shù)據(jù)集成:
數(shù)據(jù)湖中的數(shù)據(jù)管理起來之后,就會面臨數(shù)據(jù)在各個存儲系統(tǒng)中遷移和轉(zhuǎn)化的能力。為此dataworks的數(shù)據(jù)集成能力可以做到40種類常見數(shù)據(jù)源的導(dǎo)入導(dǎo)出及格式轉(zhuǎn)化的能力,同時(shí)覆蓋了離線和實(shí)時(shí)兩大同步場景,以及可以解決對外對接時(shí)的復(fù)雜網(wǎng)絡(luò)場景。
解決了數(shù)據(jù)湖的存儲管理和數(shù)據(jù)遷移問題后,接下來就是如何讓數(shù)據(jù)湖中的數(shù)據(jù)更好的賦能業(yè)務(wù)。這就需要引入各類計(jì)算引擎,計(jì)算平臺事業(yè)部擁有豐富的各類計(jì)算引擎,有開源體系的spark、presto、hive、flink,還有自研的MaxCompute、Hologres,這里的挑戰(zhàn)在于如何方便的發(fā)揮各類引擎的長處,讓湖中的數(shù)據(jù)能夠被各類引擎訪問和計(jì)算。為此dataworks提供了便捷的數(shù)據(jù)遷移方式(方便數(shù)據(jù)在各類引擎中流轉(zhuǎn)穿梭)、提供一站式的數(shù)據(jù)開發(fā)環(huán)境,從即席查詢到周期的etl開發(fā),dataworks提供了各個計(jì)算引擎的統(tǒng)一計(jì)算任務(wù)的開發(fā)和運(yùn)維能力。
