當前位置:首頁  >  資訊列表

大數據時代的商業智能

2015-11-07 10:12:42 來源: 浙江易網科技股份有限公司(杭州)
和云計算、大數據的概念相比,數據挖掘和商業智能的概念早已被學術界和工業界所接受,但由于大數據的出現,又為它們注入了新的活力,“大數據時代的商業智能”的概念不斷被業界所提及,那么它們究竟是什么呢?

數據挖掘的定義
先來看一個例子,Google的Flu Trends(流感趨勢)使用特殊的搜索項作為流感活動的指示器。它發現了搜索流感相關信息的人數與實際具有流感癥狀的人數之間的緊密聯系。當與流感相關的所有搜索聚集在一起時,一個模式就出現了。使用聚集的搜索數據,Google的Flu Trends可以比傳統的系統早兩周對流感活動做出評估。這個例子說明了數據挖掘如何把大型數據集轉化為知識。現在,我們可以對數據挖掘做一個簡短的定義,數據挖掘就是“數據→知識”。

帶著這個概念,我們來一步一步分析數據挖掘的本質。數據挖掘可以看作是信息技術自然而然進化的結果。數據庫和數據管理產業的一些關鍵功能不斷發展,大量數據庫系統提供的查詢和事務處理已經司空見慣,高級數據分析自然成為下一步。

20世紀60年代,數據庫和信息技術已經系統地從原始文件處理演變成復雜的功能強大的數據庫系統。
20世紀70年代,數據庫從層次型數據庫、網狀數據庫發展到關系型數據庫,用戶可以通過查詢語言靈活方便地訪問數據。
20世紀80年代中后期,數據庫技術轉向高級數據庫系統、支持高級數據分析的數據倉庫和數據挖掘,基于Web的數據庫。
硬件的飛速發展,導致了功能強大和價格可以接受的計算機、數據收集設備和存儲介質大量涌現。這些軟件和硬件的進步大大推動了數據庫和信息產業的發展,也導致了數據庫管理系統分成了兩個發展方向:OLTP(聯機事務處理)和OLAP(聯機分析處理)。圖1-10展示了數據庫管理系統的發展過程。


圖1-10 數據管理系統的發展

而OLAP的出現也導致數據倉庫這種數據存儲結構的出現。數據倉庫是一種多個異構數據源在單個站點以統一的模式組織的存儲,以支持管理決策。大量的數據累積在數據庫和數據倉庫中,數據豐富但數據分析工具缺乏,這種情況被描述為“數據豐富但信息貧乏”。快速增長的“大數據”,沒有強有力的工具,理解它們已經遠遠超出了人的能力。結果,收集了大量數據的數據庫和數據倉庫變成了“數據墳墓”——幾乎不再訪問的數據檔案(如歷史訂單)。這樣,重要的決策常常不是基于數據庫和數據倉庫中含有豐富信息的數據,而是基于決策者的直覺。盡管在開發專家系統和知識庫系統方面已經做出很大的努力,但是這種系統通常依賴用戶或領域專家人工地將知識輸入知識庫。不幸的是,這一過程常常有偏差和錯誤,并且費用高、耗費時間。數據和信息之間的鴻溝越來越寬,這就要求必須系統地開發數據挖掘工具,將數據墳墓轉換為“數據金塊”。

作為一個多學科交叉的領域,數據挖掘可以用多種方式定義,例如“從數據中挖掘知識”、“知識挖掘”等。許多人把數據挖掘視為另一個流行術語——數據中的知識發現(Knowledge Discovery in Database,KDD)的同義詞,而另一些人只是把數據挖掘視為知識發現過程的一個基本步驟。知識發現的過程如圖1-11所示,由以下步驟的迭代序列組成[2]。

(1)數據清理:消除噪聲和刪除不一致數據。
(2)數據集成:多種數據源可以組合在一起。
(3)數據選擇:從數據庫中提取與分析任務相關的數據。
(4)數據變換:通過匯總或聚集操作,把數據變換和統一成適合挖掘的形式。
(5)數據挖掘:基本步驟,使用智能方法提取數據模式。
(6)模式評估:根據某種興趣度量,識別代表知識的真正有趣模式。


{圖1-11 知識發現的過程}

(7)知識表示:使用可視化和知識表示技術,向用戶提供挖掘的知識。
目前信息產業界的一個流行趨勢是將數據清理和數據集成作為數據預處理步驟執行,結果數據存放在數據倉庫中。步驟1~步驟4都是在為數據挖掘準備數據。數據挖掘步驟可與用戶或知識庫交互,將有趣的模式提供給用戶,或作為新的知識存放在知識庫中。

數據倉庫
因為數據倉庫對于數據挖掘和本書都是一個比較關鍵的概念,在這里我們詳細地來分析一下數據倉庫的概念。
按照數據倉庫系統構造方面的領銜設計師William H.Inmon的說法,數據倉庫是一個面向主題的、集成的、時變的、非易失的數據集合,支持管理者的決策過程。這個簡短而又全面的定義指出了數據倉庫的主要特征,4個關鍵字:面向主題的、集成的、時變的、非易失的。
  • 面向主題的(subject-oriented):數據倉庫圍繞一些重要的主題,如顧客、供應商、產品和銷售組織。數據倉庫關注決策者的數據建模和分析,而不是單位的日常操作和事務處理。因此數據倉庫通常排除對于決策無用的數據,提供特定主題的簡明視圖。

  • 集成的(integrated):通常,構造數據倉庫是將多個異構數據源,如關系型數據庫、一般文件和聯機事務處理記錄集成在一起。使用數據清理和數據集成技術,確保命名約定、編碼結構、屬性度量等的一致性。

  • 時變的(time-variant):數據倉庫從歷史的角度(例如,過去5~10年)提供信息。數據倉庫中的關鍵結構都隱式地或顯式地包含時間元素。

  • 非易失的(nonvolatile):數據倉庫總是物理地分離存放數據,這些數據源于操作環境下的應用數據。由于這種分離,數據倉庫不需要事務處理、恢復和并發控制機制。數據的易失性在于操作型系統是一次訪問和處理一個記錄,可以對操作環境中的數據進行更新。但是數據倉庫中的數據呈現出非常不同的特性,數據倉庫中的數據通常是一次載入和訪問的,但在數據倉庫環境中并不進行一般意義上的數據更新。通常,它只需要兩種數據訪問操作:數據的初始化裝入和數據訪問。


操作數據庫系統和數據倉庫系統的區別
操作數據庫系統的主要任務是執行聯機事務和查詢處理。這種系統稱作聯機事務處理(OLTP)系統。它們涵蓋了單位的大部分日常操作,如購物、庫存、工資等,也被稱作業務系統。另一方面,數據倉庫系統在數據分析和決策方面為用戶提供服務,這種系統稱作聯機分析處理(OLAP)系統。
OLTP和OLAP的主要區別有以下幾個方面。
  • 用戶和系統的面向性:OLTP是面向客戶的,用于辦事員、客戶和信息技術專業人員的事務和查詢處理。OLAP是面向市場的,用于知識工人(包括經理、主管和分析人員)的數據分析。

  • 數據內容:OLTP系統管理當前數據。通常,這種數據太瑣碎,很難用于決策。OLAP系統管理大量歷史數據,提供匯總和聚集機制,并在不同的粒度層上存儲和管理信息。這些特點使得數據更容易用于有根據的決策。

  • 視圖:OLTP系統主要關注一個企業或部門內部的當前數據,而不涉及歷史數據或不同單位的數據。相比之下,由于單位的演變,OLAP系統常常跨越數據庫模式的多個版本。OLAP系統還要處理來自不同單位的信息,以及由多個數據庫集成的信息。由于數據量巨大,OLAP系統的數據通常也存放在多個存儲介質上。

  • 訪問模式:OLTP系統主要由短的原子事務組成。這種系統需要并發控制和恢復機制。然而,對OLAP系統的訪問大部分是只讀操作(由于大部門數據倉庫存放歷史數據,而不是最新數據),盡管這其中的許多操作可能是復雜的查詢。

OLTP和OLAP的其他區別包括數據庫大小、操作的頻繁程度以及性能度量等。

為什么需要分離的數據倉庫
既然操作數據庫存放了大量數據,讀者可能奇怪,為什么不直接在這種數據庫上進行聯機分析處理(OLAP),而是另外花費時間和資源去構造分離的數據倉庫?。分離的主要原因是有助于提高兩個系統的性能。操作數據庫是為已知的任務和負載設計的,例如使用的主鍵索引、檢索特定的記錄、優化定制的查詢。另一方面,數據倉庫的查詢通常是復雜的,涉及大量數據在匯總級的計算,可能需要特殊的基于多維視圖的數據組織、存取方法和實現方法。在操作數據庫上處理OLAP查詢,可能會大大降低操作任務的性能。

此外,操作數據庫支持多事務的并發處理,需要并發控制和恢復機制(例如,加鎖和記日志),以確保一致性和事務的魯棒性。通常,OLAP查詢只需要對匯總和聚集數據記錄進行只讀訪問。如果將并發控制和恢復機制用于這種OLAP操作,就會危害并行事務的運行,從而大大降低OLTP系統的吞吐量。
最后,數據倉庫與操作數據庫分離是由于這兩種系統中數據的結構、內容和用法都不同。決策支持需要歷史數據,而操作數據庫一般不維護歷史數據。在這種情況下,操作數據庫中的數據盡管很豐富,但對于決策是遠非完整的。決策支持需要整合來自異構源的數據(例如,聚集和匯總),產生高質量的、純凈的和集成的數據。相比之下,操作數據庫只維護詳細的原始數據(如事務),這些數據在進行分析之前需要整理。由于兩種系統提供大不相同的功能,需要不同類型的數據,因此需要維護分離的數據庫。

商業智能
哪里有數據,哪里就有數據挖掘應用,這句話用來形容商業智能再合適不過了。數據倉庫解決了存儲問題,而OLAP技術提供了挖掘手段,企業自然而然會想到將數據利用起來,而商業智能就是最好的途徑。

商業智能(Business Intelligence,BI)是一個統稱,指的是用于支持制定業務決策的技能、流程、技術、應用和實踐。商業智能對當前數據或歷史數據進行分析,在理想情況下輔助決策者制定未來的業務決策。商業智能通常被理解為將企業中現有的數據轉化為知識,幫助企業做出明智的業務經營決策的工具。商業智能是對商業信息的搜集、管理和分析過程,目的是使企業的各級決策者獲得知識或洞察力(insight),促使他們做出對企業更有利的決策。從技術層面上講,商業智能不是什么新技術,它只是數據倉庫、OLAP等技術的綜合運用[3]。

大多數的數據倉庫是為了挖掘某種商業價值而創建的,但是商業智能和數據倉庫之間的區別在于商業智能是定位于生成可向業務用戶交付的產品,而數據倉庫的目標只是著眼于對數據進行結構化的存儲和組織,所以對于數據倉庫,還需要OLAP技術,才能完成數據倉庫到商業智能的轉換過程。對于數據倉庫來說,可以只關注數據本身,不需要專門考慮業務,而商業智能則更主要的是基于數據倉庫的數據從業務的角度進行分析。如圖1-12所示,商業智能主要使用到數據倉庫技術和OLAP技術。商業智能系統通過對數據倉庫的數據進行數據選擇、抽取、加載后,使用數據挖掘方法提取知識,再用BI報表將知識呈現給決策者供其參考。

一款優秀的商業智能系統應該滿足以下4個特性:準確、及時、價值高和可操作。準確性的意義是數據是可信的,及時性意味著數據可定期獲取、價值高表示對商業用戶有用,可操作性是指信息可以用于業務決策過程。


圖1-12 商業智能系統

大數據時代的商業智能
據預測,到2020年,全球需要存儲的數據量將達到35萬億GB,是2009年數據存儲量的44倍。根據IDC的研究,2010年底全球的數據量已經達到120萬PB(或1.2 ZB)。這些數據如果使用光盤存儲,摞起來可以從地球到月球一個來回。對于商業智能而言,這里孕育著巨大的市場機會,龐大的數據就是一個信息金礦,但是海量數據也帶給傳統商業智能前所未有的壓力。

數據是企業的重要資產。由于數據挖掘等商業智能技術的應用,讓不少企業從大量的歷史數據中剝繭抽絲,發現很多有價值的信息,大大改善了管理人員決策的科學性。不過,長期以來,商業智能的應用一直局限于結構化數據,其核心組件數據倉庫最為擅長的也是結構化數據的存儲與管理。

在大數據時代,一批新的數據挖掘技術正在涌現,有望改變我們分析處理海量數據的方式,使得我們更快、更經濟地獲得所需的結果。大數據技術就是要打破傳統商業智能領域的局限,它在處理數據量上有了質的提高,傳統商業智能限于技術瓶頸很大程度上是對抽樣數據進行分析,而大數據技術的引入使得商業智能可以基于全量數據,這樣讓結果更加準確可信。大數據技術不但能處理結構化數據,而且還能分析和處理各種半結構化和非結構化數據,甚至從某種程度上,更擅長處理非結構化數據,比如Hadoop。而在現實生活中,這樣的數據更為普遍,增長得也更為迅速。比如,社交媒體中的各種交互活動、購物網站用戶點擊行為、圖片、電子郵件等。可以說,正是此類數據的爆炸性增長催生了大數據相關技術的出現和完善。

而對于Hadoop來說,首先HDFS解決了海量數據存儲的問題,Hive負責結構化數據的分析,而半結構化、非結構化數據的分析和數據清洗可根據需要編寫MapReduce作業完成,整個過程都是對基于分布式存儲的數據進行分布式計算,擴展性將比傳統商業智能系統大大提升。另外Hadoop生態圈的Sqoop、Flume等實現了傳統商業智能的一些功能模塊,如日志收集、數據抽取等。可以說Hadoop及Hadoop生態圈為大數據的商業智能系統提供了一套完整、高效的解決方案。在本書的后半部分,將基于Hadoop設計和實現一個商業智能系統,在實現這個商業系統的過程中,讀者可以發現我們無論采取大數據技術還是傳統數據挖掘技術,遵循的方法論其實是一致的,希望讀者可以從這個項目中舉一反三,融會貫通。


您給我們信任,我們給您驚喜!
易網10年對大數據技術和行業趨勢的深入洞察和積淀后,結合中國企業的實際情況和特色,已經探索出了一條商業智能可持續發展之路,形成了成熟的中國“平臺一體,智慧應用”的產業推進模式。
一向本著穩健的原則開拓與絕對領先的研發實力,保證公司在行業內的市場信用度和企業形象,使得公司能夠在智能科技領域保持領先地位。
聯系 Contact
057188848892
傳真:057187157782
郵箱:[email protected]
地址:浙江省杭州市西湖區雙龍街199號金色西溪商務中心1號樓1至2層
留言 Message
Copyright ? 2012 The things 浙江易網科技股份有限公司 make. All rights reserved. 浙ICP備09052236號-7

浙公網安備 33010602000702號

福彩3d稳赚不赔的技巧