數(shù)據(jù)倉庫中的數(shù)據(jù)主要用于企業(yè)決策分析,涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢。某個數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫,一般會保存很長時間,即數(shù)據(jù)倉庫中有大量的查詢操作,但修改和刪除操作很少,通常只需要定期加載和刷新即可。數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄從過去某一點(如數(shù)據(jù)倉庫開始使用的時間)到當(dāng)前階段的信息。通過這些信息,可以定量分析和預(yù)測企業(yè)的發(fā)展歷史和未來趨勢。
近兩年,大量資本涌入數(shù)據(jù)庫市場,導(dǎo)致數(shù)據(jù)庫市場競爭更加激烈。幾乎所有投資者都對數(shù)據(jù)庫上的云趨勢持樂觀態(tài)度。在云數(shù)據(jù)庫和云原生數(shù)據(jù)庫的呼聲高漲的同時,云數(shù)據(jù)倉庫成為一條新的賽道,開始進(jìn)入大眾的視野。但是,在分析什么是云數(shù)據(jù)倉庫,為什么云數(shù)據(jù)倉庫流行之前,我們需要先了解數(shù)據(jù)倉庫的定義。
什么是云數(shù)據(jù)倉庫?與本地數(shù)據(jù)倉庫相比有什么區(qū)別?
隨著云計算的深入發(fā)展,云已經(jīng)成為企業(yè)應(yīng)用的主流趨勢,而數(shù)據(jù)庫上的云已經(jīng)成為企業(yè)應(yīng)用的最后一步。眾所周知,云數(shù)據(jù)庫的概念是指在虛擬計算環(huán)境中優(yōu)化或部署的數(shù)據(jù)庫,能夠?qū)崿F(xiàn)按需付費、按需擴展、高可用性和存儲集成等優(yōu)勢。云數(shù)據(jù)倉庫和云數(shù)據(jù)庫的定義非常相似,這意味著數(shù)據(jù)倉庫可以部署在本地、云或混合環(huán)境中。
從過去的實踐來看,數(shù)據(jù)倉庫都部署在本地,但本地數(shù)據(jù)中心和服務(wù)器的可擴展性較差,因此云成為數(shù)據(jù)倉庫的主流趨勢。然而,云數(shù)據(jù)倉庫也有一個挑戰(zhàn),那就是將所有PB級的數(shù)據(jù)遷移到云中涉及到計算、存儲和內(nèi)存的成本。另外,如何快速上云也是一個挑戰(zhàn)。當(dāng)然,隨著市場的不斷發(fā)展,這些問題已經(jīng)不再是問題?,F(xiàn)在有超大規(guī)模的云服務(wù)提供商提供大容量的基于磁盤的數(shù)據(jù)傳輸服務(wù)。最后,是選擇本地數(shù)據(jù)倉庫、云數(shù)據(jù)倉庫還是數(shù)據(jù)湖和數(shù)據(jù)集市,要根據(jù)企業(yè)的具體數(shù)據(jù)量和增長率來決定。建議用戶先取少量數(shù)據(jù)進(jìn)行測試,或者將一些數(shù)據(jù)托管在云上,然后將成熟的架構(gòu)擴展到核心關(guān)鍵業(yè)務(wù)。
為什么數(shù)據(jù)倉庫特別重要?
企業(yè)使用數(shù)據(jù)倉庫的原因是,在OLTP中,索引的創(chuàng)建和使用受到數(shù)量和數(shù)據(jù)類型的限制,當(dāng)值接近峰值或數(shù)據(jù)類型不符合規(guī)范時,用戶的數(shù)據(jù)分析和查詢速度會變慢。但是如果把數(shù)據(jù)放在數(shù)據(jù)倉庫中,用戶可以自定義主題,根據(jù)需要對數(shù)據(jù)進(jìn)行分析和查詢。同時,在數(shù)據(jù)倉庫中使用數(shù)據(jù)不會影響OLTP數(shù)據(jù)庫的寫入性能。最重要的是,企業(yè)不僅可以提高數(shù)據(jù)處理速度,還可以分析多源數(shù)據(jù)。比如在使用OLTP支持的相關(guān)應(yīng)用時,銷售人員只能處理特定的事務(wù),卻看不到銷售場所的天氣,但銷售人員希望有天氣預(yù)報功能。我該怎么辦?如果所有與天氣相關(guān)的數(shù)據(jù)都添加到數(shù)據(jù)倉庫中,銷售可以使用數(shù)據(jù)模型來判斷當(dāng)?shù)氐奶鞖馇闆r。
什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫和商業(yè)智能是一回事嗎?
一般來說,數(shù)據(jù)庫分為關(guān)系數(shù)據(jù)庫(SQL)或非關(guān)系數(shù)據(jù)庫(NoSQL)、在線事務(wù)處理(OLTP)、事務(wù)處理、在線分析處理(OLAP)和混合業(yè)務(wù)處理(HTAP)。此外,除了這些常見的數(shù)據(jù)庫類型之外,專有數(shù)據(jù)庫極大地提升了業(yè)務(wù)升級,但隨著數(shù)據(jù)庫技術(shù)的發(fā)展,專有數(shù)據(jù)庫已經(jīng)成為“數(shù)據(jù)孤島”的代名詞。
之后,一些聰明的企業(yè)開始嘗試從不同的數(shù)據(jù)源收集數(shù)據(jù)。這些以原始格式存儲數(shù)據(jù)的方式被稱為數(shù)據(jù)湖;一般格式或經(jīng)過處理和集成的數(shù)據(jù)被歸類為數(shù)據(jù)倉庫。不同的數(shù)據(jù)倉庫以不同的方式獲取數(shù)據(jù)。例如,一些直接從操作環(huán)境中獲取數(shù)據(jù),而另一些從企業(yè)級數(shù)據(jù)倉庫中獲取數(shù)據(jù)。這些滿足不同場景需求的數(shù)據(jù)倉庫也被稱為數(shù)據(jù)集市。換句話說,數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個子集。
本質(zhì)上,數(shù)據(jù)倉庫是一個分析數(shù)據(jù)庫,通常是一個關(guān)系數(shù)據(jù)庫。它由兩個或兩個以上的數(shù)據(jù)源創(chuàng)建,通??梢源鎯?/span>PB或以上規(guī)模的歷史數(shù)據(jù),然后用大量的計算和內(nèi)存資源運行復(fù)雜的查詢操作,最后生成數(shù)據(jù)報告。此外,數(shù)據(jù)倉庫也是商業(yè)智能(BI)系統(tǒng)和機器學(xué)習(xí)獲取直接數(shù)據(jù)源的唯一途徑。
數(shù)據(jù)倉庫和數(shù)據(jù)湖是什么關(guān)系?
數(shù)據(jù)倉庫之所以不同于數(shù)據(jù)湖,是因為數(shù)據(jù)存儲格式不同,數(shù)據(jù)的“讀取模式”也不同。數(shù)據(jù)湖是一種讀取模式,許多數(shù)據(jù)以易于讀取的格式存儲。而數(shù)據(jù)倉庫是一種“寫模式”,可以支持各種數(shù)據(jù)類型的存儲,在索引查詢和各種數(shù)據(jù)關(guān)系的處理上更加方便快捷。這種“讀取模式”適合從多個聚合根(不同上下文)讀取數(shù)據(jù),避免數(shù)據(jù)丟失。但是有一個缺點就是很多數(shù)據(jù)會變成死數(shù)據(jù),應(yīng)用程序不會被使用,會占用大量的存儲資源。“寫入模式”適用于具有特定目的的數(shù)據(jù),并且所使用的數(shù)據(jù)必須與來自其他來源的數(shù)據(jù)正確關(guān)聯(lián)。但有時會因為數(shù)據(jù)格式錯誤而被丟棄,導(dǎo)致有價值的數(shù)據(jù)沒有被使用。
主流的數(shù)據(jù)倉庫架構(gòu)有哪些?
一般來說,數(shù)據(jù)倉庫架構(gòu)分為三層,包括源數(shù)據(jù)、數(shù)據(jù)倉庫和數(shù)據(jù)應(yīng)用。源數(shù)據(jù)層包括來自銷售、營銷和其他業(yè)務(wù)部門的運營數(shù)據(jù),也可能包括社交媒體和外部數(shù)據(jù),如人口統(tǒng)計調(diào)查和統(tǒng)計數(shù)據(jù)。臨時數(shù)據(jù)庫是指從數(shù)據(jù)源中檢索到的數(shù)據(jù),屬于臨時存儲區(qū),為下一次數(shù)據(jù)處理做準(zhǔn)備。例如,如果來源是非結(jié)構(gòu)化的,比如社交媒體文本,則需要通過質(zhì)量檢查,刪除質(zhì)量差的數(shù)據(jù)。數(shù)據(jù)倉庫層,也叫細(xì)節(jié)層,所有數(shù)據(jù)一致、準(zhǔn)確、干凈,對源數(shù)據(jù)進(jìn)行清洗去除雜質(zhì)。數(shù)據(jù)應(yīng)用層是指從前端應(yīng)用直接讀取的數(shù)據(jù)源,是指根據(jù)報表直接生成或根據(jù)科目要求計算的數(shù)據(jù)。
數(shù)據(jù)倉庫獲取的數(shù)據(jù)以及在倉庫中實現(xiàn)的轉(zhuǎn)換和流程可以看作是ETL過程,即通過ETL工具提取出清洗后的數(shù)據(jù),進(jìn)行任何需要的映射和轉(zhuǎn)換,將數(shù)據(jù)加載到數(shù)據(jù)存儲層。ELT(提取、加載和轉(zhuǎn)換)工具意味著先存儲數(shù)據(jù),然后轉(zhuǎn)換數(shù)據(jù)。使用ELT工具的好處是數(shù)據(jù)跳過傳統(tǒng)的臨時存儲層,直接進(jìn)入數(shù)據(jù)湖。租用服務(wù)器可咨詢夢飛云idc了解。