數據治理--元數據
元數據是(Yes) 對某個(Indivual)潛在(Exist)信息性對象做出(Out)的(Of)陳述 。在(Exist)浏覽其他(He)網頁的(Of)時(Hour)候會看到元數據被稱之爲(For) “數據的(Of)數據”。爲(For)了(Got it)更好的(Of)描述元數據到底是(Yes)什麽東西,我(I)以(By)一(One)本《Metadata》書作(Do)爲(For)例子進行說明。《Metadata》第二頁記錄着該書的(Of) CIP 信息、作(Do)者、出(Out)版社、書号、定價、印次、字數等信息,而這(This)些信息都是(Yes)用(Use)于(At)描述《Metadata》這(This)本書的(Of)元數據。
一(One)條元數據記錄就是(Yes)關于(At)一(One)個(Indivual)資源的(Of)主謂賓陳述集合。例如:達芬奇(賓語)是(Yes)蒙娜麗莎(主語)的(Of)創作(Do)者(謂語)。
主數據、元數據與參考數據
元數據
元數據(meta-data)是(Yes)描述企業數據的(Of)相關數據,指在(Exist)IT系統建設過程中所産生的(Of)有關數據定義,目标定義,轉換規則等相關的(Of)關鍵數據,包括 對數據的(Of)業務、結構、定義、存儲、安全等各方面對數據的(Of)描述 。地市表這(This)個(Indivual)實體的(Of)數據模型如何進行定義正是(Yes)元數據所關心的(Of)範疇。
元數據可以(By)說是(Yes)企業的(Of)數據地圖(Sitemap),它直接反映了(Got it)企業中有什麽樣的(Of)數據,數據是(Yes)如何存放的(Of),例如,數據結構是(Yes)什麽樣子,數據與業務之間的(Of)關系是(Yes)怎麽樣,數據與數據之間的(Of)關系是(Yes)怎麽樣,數據有什麽樣的(Of)安全需求,數據有什麽樣的(Of)存儲需求。
主數據
主數據(main data)主要(Want)是(Yes)指經實例化的(Of)企業 關鍵數據 。
我(I)們在(Exist)上(Superior)面設計完成數據模型設計的(Of)“城市表”中填寫了(Got it)相應的(Of)城市數據,例如,北京、上(Superior)海、廣州、南甯等等。這(This)些在(Exist)城市表中 填充的(Of)數據 ,正是(Yes)組織中國(Country)地理協會的(Of)主數據,因爲(For)這(This)些數據是(Yes)中國(Country)地理協會這(This)個(Indivual)組織的(Of)關鍵業務實體, 它爲(For)組織的(Of)業務開展提供關聯環境 ,而且它可能在(Exist)企業業務開展過程中 被反複引用(Use) 。針對這(This)些核心關鍵數據,組織和(And)企業無論從數據的(Of)質量、一(One)緻性、可用(Use)性、管理規範等方面都應該有着最嚴格的(Of)數據要(Want)求。
主數據就是(Yes)企業被不(No)同運營場合反複引用(Use)關鍵的(Of)狀态數據,它需要(Want)在(Exist)企業範圍内保持高度一(One)緻。它可以(By)随着企業的(Of)經營活動而改變,例如,客戶的(Of)增加,組織架構的(Of)調整,産品下線等;但是(Yes), 主數據的(Of)變化頻率應該是(Yes)較低的(Of) 。所以(By),企業運營 過程産生過程數據,如生産過程産生各種如訂購記錄、消費記錄等,一(One)般不(No)會納入主數據的(Of)範圍 。當然,在(Exist)不(No)同行業,不(No)同企業對主數據有不(No)同的(Of)看法和(And)做法,正如我(I)們與國(Country)内大(Big)型航空企業的(Of)實施相關數據項目時(Hour),也在(Exist)爲(For)航班動态是(Yes)不(No)是(Yes)主數據而糾結不(No)已。
個(Indivual)人(People)覺得 主數據具有跨行業也能存在(Exist)能力,同時(Hour)實例數據變更是(Yes)低頻的(Of)。例如商品價格信息、會員信息是(Yes)主數據,而訂單信息不(No)是(Yes)主數據,它具有高頻更新存在(Exist)。因而怎麽算高頻就是(Yes)一(One)個(Indivual)仁者見仁智者見智的(Of)情況了(Got it),需要(Want)結合自己所在(Exist)的(Of)行業進行判斷。
參考數據——數據的(Of)字典
在(Exist)本文引用(Use)的(Of)假設案例中,我(I)們将會注意到剛才填寫的(Of)地市這(This)類數據有些列,如省份、城市類型等。 如果沒有缺少上(Superior)下文的(Of)環境,我(I)們是(Yes)無法理解其具體含義 ,這(This)時(Hour)候我(I)們往往引入參考數據(reference data)加以(By)解釋和(And)理解。
參考數據是(Yes)增加數據可讀性、可維護性以(By)及後續應用(Use)的(Of)重要(Want)數據。例如,你看到“性别”的(Of)這(This)個(Indivual)字段,很可能是(Yes)1代表男性、2代表女性。在(Exist)許多企業中有這(This)樣的(Of)約定俗成,而更多的(Of)參考數據可能記錄在(Exist)開發人(People)員和(And)運營人(People)員的(Of)大(Big)腦當中。但問題是(Yes)一(One)旦這(This)些人(People)離開,您系統裏面的(Of)數據就成了(Got it)一(One)堆沒有注釋的(Of)天書。
大(Big)家可能覺得,這(This)所謂參考數據不(No)就是(Yes)數據字典嗎?對,我(I)們在(Exist)很多系統裏面都會有這(This)樣和(And)那樣的(Of)數據字典。但是(Yes)正是(Yes)由于(At)這(This)些數據字典僅局限于(At)個(Indivual)别系統而沒有統一(One)标準,從一(One)個(Indivual)側面間接造就了(Got it)大(Big)量的(Of)數據孤島。企業爲(For)了(Got it)進行更有效率的(Of)數據整合、數據共享和(And)數據分析應用(Use),開始嘗試對參考數據進行企業或者部門層面的(Of)整合和(And)管理,利用(Use)參考數據集記錄系統嘗試爲(For)範圍内的(Of)IT系統中的(Of)數據庫提供統一(One)的(Of)參考數據。
小結
主數據則是(Yes)真實的(Of)企業業務數據,是(Yes)企業的(Of)關鍵業務數據。
參考數據則是(Yes)對數據的(Of)解釋,針對一(One)些數據範圍和(And)取值的(Of)數據解釋,讓人(People)們容易讀取相關的(Of)數據。
元數據是(Yes)對數據的(Of)描述,用(Use)于(At)描述企業數據的(Of)所有信息和(And)數據,如結構、關系、安全需求等,除增加數據可讀性外,也是(Yes)後續數據管理的(Of)基礎。
一(One)般而言,企業中這(This)三類數據與其它數據的(Of)數據量、質量需求,更新頻率、數據生命周期的(Of)關系大(Big)緻如下圖:
中台與元數據
中台強調的(Of)是(Yes)複用(Use)性,利用(Use)提高服務的(Of)重複使用(Use),降低開發時(Hour)間和(And)提高工作(Do)效率。但現實生活中,大(Big)量的(Of)數據孤島和(And)重複建設存在(Exist),從而存在(Exist)大(Big)量的(Of)數據指标定義不(No)同帶來(Come)的(Of)歧義問題。由于(At)不(No)同的(Of)項目 PM 管理風格迥異,存在(Exist)有些必要(Want)信息沒有進行存檔,而是(Yes)通過口口相傳的(Of)不(No)靠譜形式,信息準确性大(Big)打折扣。
數據中台建設中需要(Want)尋找共性數據,通過數據建模,将其進行抽取形成一(One)張公共的(Of)數據大(Big)寬表。如何快速了(Got it)解掌握數據關系,定位表與表之間的(Of)共性部分,往往需要(Want)對業務有一(One)定的(Of)了(Got it)解,但現實情況大(Big)量的(Of)開發人(People)員隻了(Got it)解自己負責的(Of)那一(One)個(Indivual)模塊内容,對于(At)其他(He)人(People)或者項目的(Of)内容一(One)無所知。
而元數據就是(Yes)爲(For)了(Got it)消除二義性,同時(Hour),對元數據的(Of)管理,形成結構化的(Of)權威數據,降低數據傳遞成本和(And)提高準确性。
常見元數據分類
元數據包括業務元數據、技術元數據和(And)管理元數據。
常見的(Of)業務元數據包括:業務定義、業務術語、業務規則、業務指标等。
常見的(Of)技術元數據包括:存儲位置、數據模型、數據庫表、字段長度、字段類型、ETL腳本、SQL腳本、接口程序、數據關系等。
常見的(Of)管理元數據包括:數據所有者、數據質量定責、數據安全等級等。
業務問題
在(Exist)沒有元數據管理的(Of)情況下,從使用(Use)問題、管理問題、數據問題等三個(Indivual)方面進行說明:
使用(Use)問題
查看表結構信息不(No)方便(查看、檢索、表複用(Use))
表依賴關系不(No)清楚(血緣)
表信息缺少(表維護者,表狀态)
管理問題
表權限管理
數據管理
數據質量監控
數據問題
建表規則混亂,沒有統一(One)标準
表結構變更之後,信息不(No)同步
如何設計元數據管理
數據治理
數倉構建
名詞說明
業務闆塊
定義數據倉庫的(Of)名稱和(And)業務空間,以(By)企業内一(One)個(Indivual) 相對獨立的(Of)業務 爲(For)分配單元。例如,如果業務涉及零售、文娛,且系統間 相對獨立 ,則需要(Want)構建兩個(Indivual)業務闆塊,即零售、文娛。如果業務僅涉及零售,且業務内的(Of)系統間隔離較少,則隻需要(Want)構建一(One)個(Indivual)業務闆塊,即零售。
公共定義
定義企業構建數據所需的(Of)全局概念對象或參數,以(By) 保證全局概念統一(One) 。當定義完成後,系統内其他(He)指标(例如派生指标)可以(By)按需統一(One)、通用(Use)化引用(Use)這(This)些對象,例如統計周期,年、月、日、每周、每日。
項目管理
項目是(Yes)一(One)種 物理空間上(Superior) 的(Of)劃分。項目管理,即用(Use)戶在(Exist)數據中台建設過程中,對物理資源及開發人(People)員進行隔離化管理。 一(One)個(Indivual)業務闆塊可以(By)包含多個(Indivual)項目 ,每個(Indivual)系統成員可以(By)加入多個(Indivual)不(No)同的(Of)項目。
維度
維度即 進行統計的(Of)對象 。通常情況下,維度是(Yes) 實際存在(Exist) 、不(No)因事件發生就存在(Exist)的(Of)實體。創建維度,即從頂層規範業務中的(Of)實體(主數據),并保證實體的(Of)唯一(One)性。例如訂單、商品。
業務過程
業務過程即業務活動中的(Of) 所有事件 (它是(Yes)一(One)個(Indivual)事件集合)。創建業務過程,即從頂層規範業務中事務内容的(Of)類型及唯一(One)性。因此業務過程是(Yes)一(One)個(Indivual)不(No)可拆分的(Of)行爲(For)事件。例如下單、支付、退款都是(Yes)業務過程。
指标
指标分爲(For)原子指标和(And)派生指标。
原子指标:對指标統計口徑(即計算邏輯)、具體算法的(Of)一(One)個(Indivual)抽象,是(Yes)業務定義中不(No)可再拆分的(Of)指标,例如支付金額。一(One)般都爲(For)數值(統計)。原子指标=業務過程(動作(Do))+度量, 如支付(事件)金額(度量)。
派生指标:業務中常用(Use)的(Of)統計指标。派生指标=原子指标+業務限定+統計周期+統計粒度。例如,自然周、會員、采用(Use)優惠券支付的(Of)訂單。
統計粒度
統計的(Of)最小顆粒度,數據唯一(One)性的(Of)保證,統計分析的(Of)對象或視角,定義數據需要(Want)彙總的(Of)程度,可以(By)理解爲(For)聚合運算時(Hour)的(Of)分組條件(類似于(At)SQL中group by的(Of)對象)。 粒度是(Yes)維度的(Of)一(One)個(Indivual)組合,指明您的(Of)統計範圍 。例如,某個(Indivual)指标是(Yes)某個(Indivual)賣家在(Exist)某個(Indivual)省份的(Of)成交額,則粒度就是(Yes)賣家、省份這(This)兩個(Indivual)維度的(Of)組合。
這(This)裏需要(Want)注意粒度與維度的(Of)關系,通過一(One)個(Indivual)或多個(Indivual)維度構建粒度。
流程
維度構建 DIM 維度模型。
數據域與項目是(Yes)相互獨立的(Of)不(No)同統計指标,但同屬于(At)同一(One)個(Indivual)業務闆塊下面。
以(By)源表和(And)維表構建得到事實明細表。
以(By)原子指标、業務限定、統計周期、統計粒度構建得到派生指标,結合統計粒度構建 DWS 彙總表
示例