在BI/DW領域中,圍繞“哪一種
數(shù)據(jù)倉庫架構(Data Warehouse Architecture)最佳?”的爭論一直沒有休止,這個問題同時也是企業(yè)在建立DW時需要決策的關鍵問題。Bill Inmon的集線器架構/企業(yè)信息工廠架構(Hub and Spoke / CIF – Corporate Information Factory)與Ralph Kimball的數(shù)據(jù)集市/數(shù)據(jù)倉庫總線架構(Data Mart Bus Architecture/Data Warehouse Bus Architecture)則是DW架構的爭論焦點。
但是,這些爭論一直無法形成統(tǒng)一的結論。到底哪種DW架構最好,不同的BI/DW從業(yè)者在不同的項目中,面對不同企業(yè)的不同情況時,往往持有不同的說法。
2005年,Thilini Ariyachandra 與Hugh Watson針對DW架構做了一個深入的調(diào)查,調(diào)查題目為“哪種數(shù)據(jù)倉庫最成功?”,受訪者由454位曾在各種不同規(guī)模的企業(yè)(絕大多數(shù)是美國企業(yè))中參與了DW規(guī)劃與實施的人員組成,受訪者根據(jù)DW應用實際情況及經(jīng)驗體會做出回答。
為了合理設計調(diào)查問卷,在調(diào)查問卷中合理設置調(diào)查對象(參與調(diào)查的DW架構)和評判標準(影響DW架構選擇的因素及判斷DW架構成功的因素等)等內(nèi)容,Watson和Ariyachandra邀請了20位專家組成專家組設計調(diào)查問卷及判斷標準等,這20位專家包括了DW領域的兩位先驅——赫赫有名的Bill Inmon和Ralph Kimball。因此我們可以認為這份調(diào)查的結果是權威可信的。
參與調(diào)查的DW架構
參與“哪種數(shù)據(jù)倉庫架構最成功?”調(diào)查的5種DW架構
2005年DW架構調(diào)查情況
調(diào)查結果顯示集線器架構(hub-and-spoke)、總線架構(Bus Architecture)、集中式架構(Centralized)三種DW架構在接受調(diào)查的企業(yè)的DW實施中均擁有一定的占有率,分別為39%、26%和17%。
不同數(shù)據(jù)倉庫架構的占有率 – 2005年調(diào)查
調(diào)查問卷中針對評判DW架構是否成功設置4個方面的考察標準,每個方面的標準都都由多個評分項(子因素)構成。考察標準包括:
1)信息質(zhì)量(Information quality)—— 架構能否有效保證數(shù)據(jù)準確性、完整性和一致性等;
2)系統(tǒng)質(zhì)量(System quality)—— 架構的靈活性、可擴展性和集成能力等;
3)用戶影響(Individual impacts)—— 架構是否方便用戶簡單快速的獲取數(shù)據(jù),圍繞相關問題以前所未有的方式進行分析和探索,從而提高用戶數(shù)據(jù)決策的速度和能力;
4)組織影響(Organizational impacts)—— 架構是否滿足業(yè)務業(yè)務需求,支持BI相關分析應用,從而保障戰(zhàn)略業(yè)務目標的達成并改進業(yè)務過程,具有可度量的高投資回報率(ROI)。
調(diào)查結果顯示,各種DW架構的得分情況如下(評分因素采取7分制,得分越高表示DW架構越成功):
從調(diào)查結果可以看出,獨立數(shù)據(jù)集市架構(Independent Data Marts)各項得分最低,這證明了獨立數(shù)據(jù)集市架構是糟糕的架構這一共識是正確的。
集線器架構(hub-and-spoke)在企業(yè)范圍內(nèi)構建大型數(shù)據(jù)倉庫時應用的最為廣泛,同時集線器架構也是花費最昂貴和最花費時間的架構,另外,集線器架構還需要在建設之前的前期規(guī)劃中投入大量時間和預算進行全面而慎重的考慮。
調(diào)查結果還顯示出數(shù)據(jù)倉庫總線架構、集線器架構、集中式架構三者得分相近,從而解釋了為什么這幾種架構相互競爭的局面長期存在——因為他們在各自特定的應用場景中都同樣成功,在幾個考評角度上沒有哪一種能夠占據(jù)主導地位。
調(diào)查者認為經(jīng)過不斷的演化,數(shù)據(jù)倉庫總線架構、集線器架構、集中式架構三者之間在不斷相互借鑒和趨同,三者的趨同主要體現(xiàn)在以下方面:
1)他們的架構在趨同 —— 比如集線器架構中數(shù)據(jù)集市采用了維度模型,而總線架構在改進后強調(diào)事實表中必須納入細節(jié)粒度的數(shù)據(jù);
2)交付策略在趨同 —— 都開始強調(diào)在做好長期規(guī)劃的前提下實現(xiàn)短期內(nèi)的成功交付等做法;
3)實施方法論也在不斷趨同 —— 比如集線器架構的自頂向下top down、總線架構的自底向上Bottom up及生命周期life cycle等逐漸變得大同小異。
2010年DW架構調(diào)查情況
2010年,Watson和Ariyachandra在另一個收集了400多份回答的調(diào)查中,又一次調(diào)查了DW架構的占有率,結果如下所示:
不同數(shù)據(jù)倉庫架構的占有率 – 2010年調(diào)查
注:2005年的集線器架構(Hub-and-Spoke)和集中式架構(Centralized)在上圖2010年的調(diào)查中,已經(jīng)演化為企業(yè)數(shù)據(jù)倉庫架構(EDW,Ent
ERPrise Data Warehouse)。
轉載請注明出處:拓步ERP資訊網(wǎng)http://www.lukmueng.com/
本文標題:哪種數(shù)據(jù)倉庫架構最成功?
本文網(wǎng)址:http://www.lukmueng.com/html/consultation/10839311786.html