上一篇文章中我們介紹了高校信息化共享數據平臺的相關情況,本來應該要繼續(xù)聊大數據平臺了,不過今天我想先插播一則“廣告”,你、你、你還記得“大明湖畔的高基報表”嗎?為什么插播?因為在共享數據平臺、主數據平臺的建設階段,前端的數據應用很難繞開“報表”二字,報表,尤其是高基報表,是那個時代的印記。
報表作為數據倉庫最為經典的應用場景,到目前為止也是各行各業(yè)最重要數據價值輸出形式之一。不過報表這個詞應該拆開來解讀,分為“報”和“表”兩個過程,“表”顧名思義,是展現、是形式;而“報”是個動詞,是指如何把數據生成到表里的過程。
“表”應用
在今天文章中我們溫故而知新,大家先隨我一起回顧一下那些年的“表”應用:
基本校情分析、迎評系統(tǒng)、院系數據分析、綜合查詢、主題分析等等。這些是最早在教育信息化領域涌現出的數據應用名詞。當時數據應用及可視化,最主要的是利用Flash、中國式報表工具、甚至使用瀏覽器插件、Java小程序來構建前端圖表,整體來說“丑”而且交互不靈活。假設使用類似BIEE、Cognos之類的航空母艦級BI工具,則會涉及到高昂的費用,讓學校無力承擔,如果使用“愛國版”則會擔驚受怕,終歸不是個終極的解決辦法。
在這種自身兵源不足(數據量不夠、質量不高)、無糧草(經費不足)、有追兵(各類正版化要求、學校業(yè)務要求)的情況下,各個學校信息中心的同仁們還是頂著壓力完成了類似教學評估的迎評數據分析、基本校情展示、各類科研、教學主題分析等數據“表”應用,實現了數據呈現到需求認領的過程,可視化報表成為了數據應用的建設主線路,也逐漸一步步發(fā)展為今天百花齊放的數據應用格局。

“報”應用
聊完了“表”我們再重點聊一下“報”,也就是數據上報。上報的應用特點有兩個,一個是上報的表格有標準樣式和內容的要求,二是上報要有審核校對數據的過程。其中高基報表最為復雜,一直到目前為止也是個難題。
高基報表全稱《高等教育事業(yè)基層統(tǒng)計報表》,高基上報過程一般的開展邏輯是指定一個負責部門,比如校辦或者發(fā)規(guī)處等,將上報任務按照數據口徑進行拆解,例如教職工相關數據拆解到人事處,本專科生數據上報任務拆解給教務處,各個部門如果數據基礎不好或者不全面,那還要再將上報任務拆解到院系,由院系上報后進行匯集,最終逐層匯集到上報責任部門,部門管理人員再結合數據指標之間的對應、限定關系,結合歷史上報數據,結合未來學校發(fā)展規(guī)劃進行“微調”,以此來保證上報的數據的“真實”、“穩(wěn)定”。

以下這段文字來自互聯(lián)網搜索引擎,是動員高基上報的發(fā)文,大家可以一起品鑒一下高基上報過程的復雜:
一、依法規(guī)范統(tǒng)計行為,保證統(tǒng)計數據客觀真實。各部門填報過程中要注意各表間關系,確保數據準確連貫、符合邏輯,并認真核實檢查,避免出現相互矛盾。
二、各填報部門指定兼職統(tǒng)計員負責填報數據,兼職統(tǒng)計員要認真研究相關表格的指標解釋和填報說明,數據交叉部門要協(xié)調配合、統(tǒng)一口徑,務必使同類數據一致。
三、各填報部門在填報過程中要結合歷年數據,準確合理填報今年數據,確保數據增減幅度保持穩(wěn)定,同時各部門要認真研究數據,合理使用數據,讓數據為工作決策提供科學依據。
四、各填報部門填寫的報表由兼職統(tǒng)計員簽字,部門負責人審核簽字,報分管校領導審閱后交紙張稿和電子稿送校辦匯總。
高基上報的難點及過程
從上面的描述不難看出,高基上報過程難點很多,總結一下來說包括以下幾點:
1、共享數據范圍的限制
假設所有數據是真實的,那么一般40多張高基報表中只有60%左右的數據可以依托教育管理信息化標準中的數據集計算產生,剩余40%包括定性數據,依然需要歸口部門填報,無法完全自動生成。
2、錯綜復雜的數據關系
除了真實數據的支撐外,高基上報還要考慮到“連續(xù)性”、“穩(wěn)定性”以及“學校發(fā)展的客觀需要”,這就有難度了,啥意思?高基數據得尊重歷史,尊重事實,還要尊重未來規(guī)劃,等同于上一柱香得拜燃燈、如來、彌勒三位佛,難度很大啊,只能靠人腦協(xié)調解決數據矛盾。
3、周期性重復工作
每年都要重新收集、填報數據,1.5個月左右的工期,很多指標數據并不通用,需要手工計算合并,工作量很大。
4、流程不清晰
一次上報工作經常會涉及20個以上的部門和二級學院,每個學校的具體工作安排也不盡相同,數據之間的交叉會出現一個數據指標涉及幾個部門之間的溝通協(xié)調,上報過程中扯皮現象時有出現。
那基于共享數據庫能不能輔助一下高基上報過程呢,答案是可以,但有限。能做哪些事情?
1、歷史數據采集:早期的高基上報數據是DBF文件形式,基于數據轉換技術,可以把往年的DBF文件導入到結構化數據庫中,方式是每個單元格作為一條記錄獨立存儲,標注單元格序號,由于不同年份的高基報表之間會有格式和指標變化,因此針對每年的數據也要對應做版本化個性處理;
2、自動計算填充:基于共享數據庫和高基統(tǒng)計口徑,通過SQL語句做計算,基本上count,sum等數據庫聚合函數就足夠了,畢竟是當年的數據上報,不涉及時間序列,也不涉及數據挖掘算法。只是,共享數據庫中所存儲的內容不足以支撐高基上報的所有指標要求,很多內容無法自動計算生成,但是通過共享數據庫基本上能夠覆蓋高基50%以上的數據上報項,可以解決一部分數據填報的痛點。
3、數據可視化:共享數據庫之上通過中國式報表工具(例如早期的潤乾、帆軟等)可以快速繪制出前端報表樣式,脫離單機的束縛,提供了BS架構的數據可視化的功能。
4、數據比對分析:能夠實現歷史數據、當前上報數據、自動計算數據三者之間的比對分析,這樣的分析雖然意義只限于輔助填報,但畢竟也是共享數據庫體系帶來的突破。
5、明細數據溯源:基于指標數據可以對應到后端的SQL語句,找出上報指標(例如專任教職工人數)所對應的明細數據,實現商業(yè)智能當中常見的數據下鉆功能,找出指標背后的依托。
最終高基的上報過程還是需要人為的干預,當下的高基上報工作可以通過全域數據中心逐步提升數據范圍和數據質量,實現數據自動計算,同時節(jié)省上報時間。但是解決高基上報的難題不能只從上報本身來考慮,整理一堆SQL語句、Excel文檔、后臺存儲過程,并不會帶來實質性的進步。

真正要解決問題的辦法是,要有一個學校全局的、可迭代、可編輯、可追溯的指標數據管理體系,類似銀行的KPI,類似企業(yè)管理的核心經營指標。要通過統(tǒng)一的指標管理抽象出高校的核心指標體系,形成學校級、學院級(專業(yè))、部門級、師生級標準的、區(qū)分視角的指標及標簽,一個ID對應多個場景再對應N個指標,這些指標可以應用在全景畫像,也可以用于高基上報、學科評估、教學數據采集、學院綜合競爭力對比分析等等,同時指標是業(yè)務化的,普通業(yè)務人員能夠可視可讀,能看得懂,指標結合分析工具才能真正驅動數據價值的快速落地。
高基上報給我們的啟示,我們需要在基礎數據之上形成體系化的業(yè)務指標及標簽,實現數據價值的外延、實現數據價值的可復用,達成業(yè)務場景驅動數據治理的最終目標。
最后再插播一則廣告,高校指標管理解決方案、數據可視化解決方案DataV都有,歡迎咨詢惠顧。
作者:王珂