南京迪塔維數(shù)據(jù)技術(shù)有限公司,以數(shù)據(jù)之路為初心,自2014年成立以來(lái),經(jīng)過(guò)7年多的深耕,公司秉承著“孜孜問(wèn)道,數(shù)業(yè)專(zhuān)攻”的理念,在數(shù)據(jù)技術(shù)上不斷顛覆力求精進(jìn),在產(chǎn)品理念上也堅(jiān)持了 “客戶(hù)定義產(chǎn)品”的發(fā)展思路,逐步在數(shù)據(jù)技術(shù)和教育行業(yè)的交叉口站穩(wěn)腳跟。
在解決方案正式發(fā)布前,我們將多年來(lái)積累的理念與解決方案進(jìn)行分享,歡迎轉(zhuǎn)發(fā)、關(guān)注。本文作為系列文章的開(kāi)篇,首先重點(diǎn)介紹數(shù)據(jù)倉(cāng)庫(kù)技術(shù)相關(guān)架構(gòu)、概念和組成。
概念解讀
01
數(shù)據(jù)倉(cāng)庫(kù)
目前數(shù)據(jù)倉(cāng)庫(kù)的主流定義是數(shù)據(jù)倉(cāng)庫(kù)之父Bill Inmon在1991年出版的《Building the Data Warehouse》一書(shū)中所提出的。
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。
根據(jù)定義,我們逐條解讀一下數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)如下:
面向主題:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)按照主題域進(jìn)行組織、存儲(chǔ),非嚴(yán)格第三范式結(jié)構(gòu)。
集成的:分散的數(shù)據(jù)經(jīng)過(guò)抽取、清洗后,經(jīng)過(guò)系統(tǒng)加工、匯總和整理后,消除源數(shù)據(jù)的不一致性,形成整體的全局的信息。
相對(duì)穩(wěn)定的:數(shù)據(jù)主要應(yīng)用數(shù)據(jù)查詢(xún)、分析、輔助決策類(lèi)應(yīng)用,進(jìn)入倉(cāng)庫(kù)的數(shù)據(jù)一般會(huì)長(zhǎng)期保存、相對(duì)穩(wěn)定。
反應(yīng)歷史變化:包含歷史信息(常用的數(shù)據(jù)切片、快照及數(shù)據(jù)拉鏈技術(shù)),歷史數(shù)據(jù)可追溯。
看到上述的特征大家會(huì)發(fā)現(xiàn),數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)也正是目前數(shù)據(jù)中臺(tái)和數(shù)據(jù)治理的核心建設(shè)目標(biāo)。
02
數(shù)倉(cāng)組成
數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)包含:
基礎(chǔ)數(shù)據(jù)存儲(chǔ),主要特點(diǎn)支持海量數(shù)據(jù)存儲(chǔ),支持快速檢索。
數(shù)據(jù)集成工具,主要是ETL工具,以T+1的周期性同步、CDC增量同步、觸發(fā)式實(shí)時(shí)同步為主,數(shù)據(jù)源最早定義為關(guān)系型數(shù)據(jù)庫(kù)。
元數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)建模以星型模型為主,事實(shí)表+維表作為核心存儲(chǔ)結(jié)構(gòu),多表之間星型或者雪花型結(jié)構(gòu)延展。表模型數(shù)據(jù)、描述信息以元數(shù)據(jù)的方式抽象重構(gòu)。
可視化分析工具,主要是以T+1報(bào)表的形式,將數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行可視化呈現(xiàn),例如經(jīng)典的28分析、庫(kù)存周轉(zhuǎn)率分析、商品關(guān)聯(lián)銷(xiāo)售分析等。
以上作為數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)組成部分,在數(shù)據(jù)存儲(chǔ)方面,數(shù)倉(cāng)又逐步形成了一直影響至今的幾個(gè)概念:
數(shù)據(jù)集市:以一個(gè)業(yè)務(wù)場(chǎng)景或應(yīng)用域?yàn)檫吔?,?gòu)建出一個(gè)數(shù)倉(cāng)子集,數(shù)據(jù)經(jīng)過(guò)預(yù)計(jì)算后進(jìn)行存儲(chǔ)。
ODS:用來(lái)存儲(chǔ)來(lái)自各業(yè)務(wù)系統(tǒng)的原始數(shù)據(jù),是數(shù)據(jù)倉(cāng)庫(kù)的前置庫(kù),主要用于業(yè)務(wù)數(shù)據(jù)備份及減少ETL的復(fù)雜度。
03
數(shù)倉(cāng)的沿革
隨著技術(shù)的沿革,我們可以發(fā)現(xiàn),數(shù)據(jù)倉(cāng)庫(kù)到大數(shù)據(jù)平臺(tái)再到數(shù)據(jù)中臺(tái),各個(gè)基本架構(gòu)依然存在,只是名稱(chēng)和功能外延發(fā)生了擴(kuò)展。舉例來(lái)說(shuō):
ODS從最早的數(shù)倉(cāng)前置庫(kù),逐步演進(jìn)到現(xiàn)階段的數(shù)據(jù)湖,貼源層這樣的概念,數(shù)據(jù)內(nèi)容從單純的關(guān)系型數(shù)據(jù),逐步擴(kuò)展到日志、信號(hào)數(shù)據(jù),音視頻數(shù)據(jù)、圖文數(shù)據(jù)等,但是其核心作用依然與ODS的定義保持一致。
再比如說(shuō)數(shù)據(jù)集市,在現(xiàn)在的中臺(tái)架構(gòu)中,數(shù)據(jù)集市逐步演變?yōu)榱藢?zhuān)題庫(kù)、主題庫(kù)的概念,但是本質(zhì)依然是為數(shù)據(jù)價(jià)值萃取,數(shù)據(jù)分析可視化等目標(biāo)服務(wù)。
總結(jié)來(lái)說(shuō):
數(shù)據(jù)倉(cāng)庫(kù)從提出概念到落地再到成熟,時(shí)間跨度上和Oracle從非主流到一統(tǒng)江湖的時(shí)間基本一致,在2010年左右數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)理念在企業(yè)、政府、金融等領(lǐng)域不斷落地、更新迭代,達(dá)到架構(gòu)發(fā)展的頂峰時(shí)期。
隨著Hadoop開(kāi)源大數(shù)據(jù)架構(gòu)的推出,數(shù)據(jù)倉(cāng)庫(kù)理念的統(tǒng)治地位也和 Oracle數(shù)據(jù)庫(kù)的地位一樣,逐漸開(kāi)始進(jìn)入了下行階段。
然而,無(wú)論是大數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)還是數(shù)據(jù)庫(kù)云都沒(méi)有在本質(zhì)上顛覆數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),數(shù)據(jù)倉(cāng)庫(kù)的核心理念依然存在于各個(gè)最新概念當(dāng)中,不得不承認(rèn)其思想和架構(gòu)的經(jīng)典。
迪塔維公司在創(chuàng)業(yè)伊始,有幸參與蘇州市國(guó)稅局的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)體系建設(shè),截止到目前為止公司也一直在參與江蘇省稅務(wù)局的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)體系。
經(jīng)過(guò)多年的發(fā)展,稅務(wù)數(shù)據(jù)倉(cāng)庫(kù)體系的基礎(chǔ)依然屹立不倒,依然作為目前大數(shù)據(jù)風(fēng)險(xiǎn)管理、稅收風(fēng)險(xiǎn)識(shí)別等內(nèi)部業(yè)務(wù)的主要支撐平臺(tái)。
但是,隨著新興技術(shù)的發(fā)展,原有數(shù)據(jù)倉(cāng)庫(kù)的核心組成部分已經(jīng)發(fā)生了一些變化,這與高校信息化行業(yè)中數(shù)據(jù)平臺(tái)的發(fā)展非常類(lèi)似。
下一期我們將重點(diǎn)解讀一下數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在近20年間教育行業(yè)落地中的發(fā)展和變化。
作者:王珂