上一篇文章中我們介紹了高校信息化共享數(shù)據(jù)平臺的相關(guān)情況,本來應(yīng)該要繼續(xù)聊大數(shù)據(jù)平臺了,不過今天我想先插播一則“廣告”,你、你、你還記得“大明湖畔的高基報表”嗎?為什么插播?因為在共享數(shù)據(jù)平臺、主數(shù)據(jù)平臺的建設(shè)階段,前端的數(shù)據(jù)應(yīng)用很難繞開“報表”二字,報表,尤其是高基報表,是那個時代的印記。
報表作為數(shù)據(jù)倉庫最為經(jīng)典的應(yīng)用場景,到目前為止也是各行各業(yè)最重要數(shù)據(jù)價值輸出形式之一。不過報表這個詞應(yīng)該拆開來解讀,分為“報”和“表”兩個過程,“表”顧名思義,是展現(xiàn)、是形式;而“報”是個動詞,是指如何把數(shù)據(jù)生成到表里的過程。
“表”應(yīng)用
在今天文章中我們溫故而知新,大家先隨我一起回顧一下那些年的“表”應(yīng)用:
基本校情分析、迎評系統(tǒng)、院系數(shù)據(jù)分析、綜合查詢、主題分析等等。這些是最早在教育信息化領(lǐng)域涌現(xiàn)出的數(shù)據(jù)應(yīng)用名詞。當(dāng)時數(shù)據(jù)應(yīng)用及可視化,最主要的是利用Flash、中國式報表工具、甚至使用瀏覽器插件、Java小程序來構(gòu)建前端圖表,整體來說“丑”而且交互不靈活。假設(shè)使用類似BIEE、Cognos之類的航空母艦級BI工具,則會涉及到高昂的費(fèi)用,讓學(xué)校無力承擔(dān),如果使用“愛國版”則會擔(dān)驚受怕,終歸不是個終極的解決辦法。
在這種自身兵源不足(數(shù)據(jù)量不夠、質(zhì)量不高)、無糧草(經(jīng)費(fèi)不足)、有追兵(各類正版化要求、學(xué)校業(yè)務(wù)要求)的情況下,各個學(xué)校信息中心的同仁們還是頂著壓力完成了類似教學(xué)評估的迎評數(shù)據(jù)分析、基本校情展示、各類科研、教學(xué)主題分析等數(shù)據(jù)“表”應(yīng)用,實(shí)現(xiàn)了數(shù)據(jù)呈現(xiàn)到需求認(rèn)領(lǐng)的過程,可視化報表成為了數(shù)據(jù)應(yīng)用的建設(shè)主線路,也逐漸一步步發(fā)展為今天百花齊放的數(shù)據(jù)應(yīng)用格局。
“報”應(yīng)用
聊完了“表”我們再重點(diǎn)聊一下“報”,也就是數(shù)據(jù)上報。上報的應(yīng)用特點(diǎn)有兩個,一個是上報的表格有標(biāo)準(zhǔn)樣式和內(nèi)容的要求,二是上報要有審核校對數(shù)據(jù)的過程。其中高基報表最為復(fù)雜,一直到目前為止也是個難題。
高基報表全稱《高等教育事業(yè)基層統(tǒng)計報表》,高基上報過程一般的開展邏輯是指定一個負(fù)責(zé)部門,比如校辦或者發(fā)規(guī)處等,將上報任務(wù)按照數(shù)據(jù)口徑進(jìn)行拆解,例如教職工相關(guān)數(shù)據(jù)拆解到人事處,本??粕鷶?shù)據(jù)上報任務(wù)拆解給教務(wù)處,各個部門如果數(shù)據(jù)基礎(chǔ)不好或者不全面,那還要再將上報任務(wù)拆解到院系,由院系上報后進(jìn)行匯集,最終逐層匯集到上報責(zé)任部門,部門管理人員再結(jié)合數(shù)據(jù)指標(biāo)之間的對應(yīng)、限定關(guān)系,結(jié)合歷史上報數(shù)據(jù),結(jié)合未來學(xué)校發(fā)展規(guī)劃進(jìn)行“微調(diào)”,以此來保證上報的數(shù)據(jù)的“真實(shí)”、“穩(wěn)定”。
以下這段文字來自互聯(lián)網(wǎng)搜索引擎,是動員高基上報的發(fā)文,大家可以一起品鑒一下高基上報過程的復(fù)雜:
一、依法規(guī)范統(tǒng)計行為,保證統(tǒng)計數(shù)據(jù)客觀真實(shí)。各部門填報過程中要注意各表間關(guān)系,確保數(shù)據(jù)準(zhǔn)確連貫、符合邏輯,并認(rèn)真核實(shí)檢查,避免出現(xiàn)相互矛盾。
二、各填報部門指定兼職統(tǒng)計員負(fù)責(zé)填報數(shù)據(jù),兼職統(tǒng)計員要認(rèn)真研究相關(guān)表格的指標(biāo)解釋和填報說明,數(shù)據(jù)交叉部門要協(xié)調(diào)配合、統(tǒng)一口徑,務(wù)必使同類數(shù)據(jù)一致。
三、各填報部門在填報過程中要結(jié)合歷年數(shù)據(jù),準(zhǔn)確合理填報今年數(shù)據(jù),確保數(shù)據(jù)增減幅度保持穩(wěn)定,同時各部門要認(rèn)真研究數(shù)據(jù),合理使用數(shù)據(jù),讓數(shù)據(jù)為工作決策提供科學(xué)依據(jù)。
四、各填報部門填寫的報表由兼職統(tǒng)計員簽字,部門負(fù)責(zé)人審核簽字,報分管校領(lǐng)導(dǎo)審閱后交紙張稿和電子稿送校辦匯總。
高基上報的難點(diǎn)及過程
從上面的描述不難看出,高基上報過程難點(diǎn)很多,總結(jié)一下來說包括以下幾點(diǎn):
1、共享數(shù)據(jù)范圍的限制
假設(shè)所有數(shù)據(jù)是真實(shí)的,那么一般40多張高基報表中只有60%左右的數(shù)據(jù)可以依托教育管理信息化標(biāo)準(zhǔn)中的數(shù)據(jù)集計算產(chǎn)生,剩余40%包括定性數(shù)據(jù),依然需要?dú)w口部門填報,無法完全自動生成。
2、錯綜復(fù)雜的數(shù)據(jù)關(guān)系
除了真實(shí)數(shù)據(jù)的支撐外,高基上報還要考慮到“連續(xù)性”、“穩(wěn)定性”以及“學(xué)校發(fā)展的客觀需要”,這就有難度了,啥意思?高基數(shù)據(jù)得尊重歷史,尊重事實(shí),還要尊重未來規(guī)劃,等同于上一柱香得拜燃燈、如來、彌勒三位佛,難度很大啊,只能靠人腦協(xié)調(diào)解決數(shù)據(jù)矛盾。
3、周期性重復(fù)工作
每年都要重新收集、填報數(shù)據(jù),1.5個月左右的工期,很多指標(biāo)數(shù)據(jù)并不通用,需要手工計算合并,工作量很大。
4、流程不清晰
一次上報工作經(jīng)常會涉及20個以上的部門和二級學(xué)院,每個學(xué)校的具體工作安排也不盡相同,數(shù)據(jù)之間的交叉會出現(xiàn)一個數(shù)據(jù)指標(biāo)涉及幾個部門之間的溝通協(xié)調(diào),上報過程中扯皮現(xiàn)象時有出現(xiàn)。
那基于共享數(shù)據(jù)庫能不能輔助一下高基上報過程呢,答案是可以,但有限。能做哪些事情?
1、歷史數(shù)據(jù)采集:早期的高基上報數(shù)據(jù)是DBF文件形式,基于數(shù)據(jù)轉(zhuǎn)換技術(shù),可以把往年的DBF文件導(dǎo)入到結(jié)構(gòu)化數(shù)據(jù)庫中,方式是每個單元格作為一條記錄獨(dú)立存儲,標(biāo)注單元格序號,由于不同年份的高基報表之間會有格式和指標(biāo)變化,因此針對每年的數(shù)據(jù)也要對應(yīng)做版本化個性處理;
2、自動計算填充:基于共享數(shù)據(jù)庫和高基統(tǒng)計口徑,通過SQL語句做計算,基本上count,sum等數(shù)據(jù)庫聚合函數(shù)就足夠了,畢竟是當(dāng)年的數(shù)據(jù)上報,不涉及時間序列,也不涉及數(shù)據(jù)挖掘算法。只是,共享數(shù)據(jù)庫中所存儲的內(nèi)容不足以支撐高基上報的所有指標(biāo)要求,很多內(nèi)容無法自動計算生成,但是通過共享數(shù)據(jù)庫基本上能夠覆蓋高基50%以上的數(shù)據(jù)上報項,可以解決一部分?jǐn)?shù)據(jù)填報的痛點(diǎn)。
3、數(shù)據(jù)可視化:共享數(shù)據(jù)庫之上通過中國式報表工具(例如早期的潤乾、帆軟等)可以快速繪制出前端報表樣式,脫離單機(jī)的束縛,提供了BS架構(gòu)的數(shù)據(jù)可視化的功能。
4、數(shù)據(jù)比對分析:能夠?qū)崿F(xiàn)歷史數(shù)據(jù)、當(dāng)前上報數(shù)據(jù)、自動計算數(shù)據(jù)三者之間的比對分析,這樣的分析雖然意義只限于輔助填報,但畢竟也是共享數(shù)據(jù)庫體系帶來的突破。
5、明細(xì)數(shù)據(jù)溯源:基于指標(biāo)數(shù)據(jù)可以對應(yīng)到后端的SQL語句,找出上報指標(biāo)(例如專任教職工人數(shù))所對應(yīng)的明細(xì)數(shù)據(jù),實(shí)現(xiàn)商業(yè)智能當(dāng)中常見的數(shù)據(jù)下鉆功能,找出指標(biāo)背后的依托。
最終高基的上報過程還是需要人為的干預(yù),當(dāng)下的高基上報工作可以通過全域數(shù)據(jù)中心逐步提升數(shù)據(jù)范圍和數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)數(shù)據(jù)自動計算,同時節(jié)省上報時間。但是解決高基上報的難題不能只從上報本身來考慮,整理一堆SQL語句、Excel文檔、后臺存儲過程,并不會帶來實(shí)質(zhì)性的進(jìn)步。
真正要解決問題的辦法是,要有一個學(xué)校全局的、可迭代、可編輯、可追溯的指標(biāo)數(shù)據(jù)管理體系,類似銀行的KPI,類似企業(yè)管理的核心經(jīng)營指標(biāo)。要通過統(tǒng)一的指標(biāo)管理抽象出高校的核心指標(biāo)體系,形成學(xué)校級、學(xué)院級(專業(yè))、部門級、師生級標(biāo)準(zhǔn)的、區(qū)分視角的指標(biāo)及標(biāo)簽,一個ID對應(yīng)多個場景再對應(yīng)N個指標(biāo),這些指標(biāo)可以應(yīng)用在全景畫像,也可以用于高基上報、學(xué)科評估、教學(xué)數(shù)據(jù)采集、學(xué)院綜合競爭力對比分析等等,同時指標(biāo)是業(yè)務(wù)化的,普通業(yè)務(wù)人員能夠可視可讀,能看得懂,指標(biāo)結(jié)合分析工具才能真正驅(qū)動數(shù)據(jù)價值的快速落地。
高基上報給我們的啟示,我們需要在基礎(chǔ)數(shù)據(jù)之上形成體系化的業(yè)務(wù)指標(biāo)及標(biāo)簽,實(shí)現(xiàn)數(shù)據(jù)價值的外延、實(shí)現(xiàn)數(shù)據(jù)價值的可復(fù)用,達(dá)成業(yè)務(wù)場景驅(qū)動數(shù)據(jù)治理的最終目標(biāo)。
最后再插播一則廣告,高校指標(biāo)管理解決方案、數(shù)據(jù)可視化解決方案DataV都有,歡迎咨詢惠顧。
作者:王珂