共享數(shù)據(jù)平臺&主數(shù)據(jù)平臺
在DataV數(shù)據(jù)之路文章連載第一篇關(guān)于數(shù)據(jù)倉庫基礎(chǔ)概念介紹的文章中,我們提到數(shù)據(jù)倉庫的理論自始至終貫穿了數(shù)據(jù)技術(shù)的整個發(fā)展脈絡(luò)。在教育信息化領(lǐng)域中,數(shù)據(jù)倉庫的落地和演變過程也很有既視感。
啟蒙階段:共享數(shù)據(jù)平臺
在2000年-2010年(粗略估計,不要抬杠),教育信息化整體處于啟蒙階段,被廣泛認(rèn)可的建設(shè)方針是“硬件集群、數(shù)據(jù)集成、應(yīng)用集中”,在這樣的指導(dǎo)方針下,教育信息化軟件誕生了三大平臺“共享數(shù)據(jù)平臺、身份認(rèn)證平臺、信息門戶平臺”,一直到現(xiàn)在,三大平臺的理論基礎(chǔ)依然存在。根據(jù)軟文的主旨,這三大平臺當(dāng)中,我們只聊聊共享數(shù)據(jù)平臺。
高校共享數(shù)據(jù)平臺作為三大平臺之一主要有以下定位:
目標(biāo)作用:打通數(shù)據(jù)孤島、實現(xiàn)數(shù)據(jù)共享。
核心技術(shù):ETL、ESB。
建設(shè)效果:基本實現(xiàn)了教職工、學(xué)生以及身份信息的集中存儲,實現(xiàn)身份數(shù)據(jù)的共享和同步?;緦崿F(xiàn)了統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)(落地強的高校),但絕大多數(shù)落地場景只完成了學(xué)號、工號、組織架構(gòu)編碼等基礎(chǔ)校標(biāo)的制定。先后形成了兩個版本的教育信息化國標(biāo)版本,在高校初步形成了“數(shù)據(jù)倉庫明細(xì)表”的模型。
主要采用的工具:Oracle或IBM的數(shù)據(jù)倉庫構(gòu)建工具,例如OWB(OracleWareHouse Builder),數(shù)據(jù)集成工具例如ODI(OracleData Integrator)、應(yīng)用集成工具例如OSB(OracleService Bus)。
主要遇到的問題:
A、很多高校都會提出為什么要落地、冗余存儲一份共享數(shù)據(jù)?因為當(dāng)年的存儲計算資源賊貴,而共享庫中間要落地一次數(shù)據(jù)導(dǎo)致數(shù)據(jù)交換延遲,還造成存儲冗余帶來額外的開銷。一般的可接受的回答是:按照2002年第一版試行的教育部《教育信息化行業(yè)標(biāo)準(zhǔn)》要求,對上可以用于數(shù)據(jù)上報,對中可以屏蔽業(yè)務(wù)源頭數(shù)據(jù)的結(jié)構(gòu)變化(例如更換了系統(tǒng)),對下可以實現(xiàn)標(biāo)準(zhǔn)數(shù)據(jù)下發(fā)、訂閱,冗余本身也是數(shù)據(jù)倉庫的核心理念。
B、哪些數(shù)據(jù)應(yīng)該作為共享數(shù)據(jù)?對于“共享”二字沒有標(biāo)準(zhǔn),甚至沒有理論依據(jù),所有數(shù)據(jù)共享按需分配,每個學(xué)校90%以上的共享都是人員基礎(chǔ)信息,而大量的業(yè)務(wù)數(shù)據(jù)在共享數(shù)據(jù)平臺中并沒有得到共享,究其原因主要還是當(dāng)時高校信息化還停留在“面向管理”的階段,更多的割裂式閉環(huán)管理,對共享和交換的訴求并沒有那么強烈,所以共享數(shù)據(jù)只是一個圖騰,無法用現(xiàn)實刻畫。這時數(shù)據(jù)倉庫的ODS層的理念被派上了用場,共享庫被定義為ODS,業(yè)務(wù)數(shù)據(jù)都應(yīng)該存進來,這個理由也基本上模糊了啥是共享數(shù)據(jù)的問題,總之基本上被接受了。
C、增量及變化數(shù)據(jù)同步如何處理?在“共享數(shù)據(jù)平臺”時期,各個廠商都會遇到“準(zhǔn)實時”、“增量及變化數(shù)據(jù)同步”的場景,最典型的就是基本信息(Oracle數(shù)據(jù)庫居多)與統(tǒng)一身份認(rèn)證(LDAP數(shù)據(jù)存儲居多)之間的同步問題,總之八仙過海各顯神通,例如借助Oracle數(shù)據(jù)庫minus函數(shù),通過一張臨時基本信息表用于比對變化,短周期內(nèi)實現(xiàn)數(shù)據(jù)同步等等,但基本都會依托數(shù)據(jù)庫自身的能力,很難形成“完美”的解決方案。針對這個問題,還是數(shù)據(jù)倉庫理論特性出來救場,T+1,完美的闡述了共享數(shù)據(jù)庫就是一個自帶延遲的體系。
在共享數(shù)據(jù)平臺建設(shè)的階段,迪塔維公司的創(chuàng)始人和核心骨干都參與其中,印象最深刻的是復(fù)旦大學(xué)共享數(shù)據(jù)平臺,學(xué)校先后在DB2和Oracle之間做了多次的驗證切換,核心的共享交換工具從OWB到ESB最后到ODI,逐步形成了教育信息化共享數(shù)據(jù)平臺的建設(shè)標(biāo)準(zhǔn)。記得我當(dāng)時也參與了教育部標(biāo)準(zhǔn)制定的意見收集,復(fù)旦大學(xué)依托自身多年的共享數(shù)據(jù)建設(shè)經(jīng)驗,為教育部2012年《教育信息化行業(yè)標(biāo)準(zhǔn)》提供了多個業(yè)務(wù)域的數(shù)據(jù)模型建設(shè)標(biāo)準(zhǔn),成為當(dāng)時的高校信息化建設(shè)的引路人。
發(fā)展階段:主數(shù)據(jù)平臺
以上是最早的高校數(shù)據(jù)中心建設(shè)方案的介紹,在共享數(shù)據(jù)平臺之后,出現(xiàn)了主數(shù)據(jù)平臺的概念,我就不再詳細(xì)展開介紹了,因為主數(shù)據(jù)平臺和共享數(shù)據(jù)平臺之間的區(qū)別只有兩點:
由虛到實:給共享數(shù)據(jù)下了一個定義,解決了什么數(shù)據(jù)是共享數(shù)據(jù)的問題,稱之為主數(shù)據(jù)。其實主數(shù)據(jù)是有標(biāo)準(zhǔn)定義的,也是數(shù)據(jù)倉庫中的一個概念,準(zhǔn)確且通俗的來說,主數(shù)據(jù)就是各個業(yè)務(wù)系統(tǒng)之間交集的合集。明白了吧?說穿了還是需要共享的數(shù)據(jù)的合集,還是按需定義。
由分到合:主數(shù)據(jù)合并了信息標(biāo)準(zhǔn)、元數(shù)據(jù)、數(shù)據(jù)共享訂閱等共享數(shù)據(jù)平臺階段產(chǎn)生的各個分散的子模塊,變成了一個完整的數(shù)據(jù)資源管理平臺,簡稱主數(shù)據(jù)平臺。
所以,主數(shù)據(jù)平臺與共享數(shù)據(jù)平臺對比,并沒有質(zhì)的突破,只是版本功能升級。高校信息化數(shù)據(jù)建設(shè)的真正突破和爆發(fā)是在2015年前后,隨著Hadoop架構(gòu)和大數(shù)據(jù)相關(guān)技術(shù)基本成熟,逐漸開始了快速的架構(gòu)和技術(shù)升級,迎來了一波大的突破,具體情況我們在下一期的軟文中繼續(xù)為您介紹。
作者:王珂