數據挖掘評估
數據倉庫
數據倉庫表現出以下特點,以支持管理層的決策過程:
面向主題 - 數據倉庫是面向主題的,因爲它爲我們提供圍繞一個主題而組織的持續經營的信息。這些主題可以是產品,客戶,供應商,銷售,收入等數據倉庫不注重持續經營,而它專注於建模和決策分析數據。
集成 - 數據倉庫是集成來自異類源如關係數據庫,平面文件等,這整合提高數據的有效分析數據構成。
時間變量 - 在數據倉庫中的數據是確定與一個特定的時間段。在數據倉庫中的數據從歷史的角度來看提供的信息。
非易失性 - 非揮發性的是指當新的數據被添加到它的先前的數據不會被刪除。數據倉庫是分開的操作數據庫,因此經常發生的改變操作數據庫不反映在數據倉庫中。
數據倉庫
數據倉庫的建設和使用數據倉庫的過程。數據倉庫是通過整合來自多個異構數據源的數據構成。這個數據倉庫支持的分析報告,結構和/或特殊查詢和決策。
數據倉庫涉及數據清理,數據集成和數據整合。集成異構數據庫集成到我們有兩種方法如下異構數據庫:
查詢驅動的方法
更新驅動的方法
查詢驅動的方法
這是傳統的方法來集成異構數據庫。這種方法被用來建立封裝和集成多個異構數據庫的頂部。這些積分器也被稱爲介質。
處理查詢驅動的方法
當查詢被頒發給一個客戶端,一個元數據字典查詢翻譯成適合於所涉及的各個異構的網站查詢。
現在,這些查詢映射併發送到局部查詢處理器。
從異構位點的結果都集成到一個全局回答集。
缺點
這種方法有以下缺點:
查詢驅動的方法需要複雜的整合和篩選的過程。
這種做法是非常低效的。
這種方法是常用的查詢非常昂貴。
這種方法也是查詢非常昂貴,需要聚合。
更新驅動的方法
我們提供了另一種方法來傳統的方法。今天的數據倉庫系統如下更新驅動的方法,而不是前面討論的傳統方法。在更新驅動的方法從多個異構數據源的信息集成在預先存儲在倉庫中。此信息可直接查詢和分析。
優點
這種方法具有以下優點:
這種方法提供了高性能。
該數據被複制,處理,集成,註釋,總結和調整的提前語義數據存儲。
查詢處理不需要接口與所述處理在本地源。
從數據倉庫(OLAP)數據挖掘(OLAM)
聯機分析挖掘整合了聯機分析處理與多維數據庫的數據挖掘和知識挖掘。下面是顯示集成OLAP和OLAM的圖:
OLAM重要性:
這裏是OLAM的重要性列表:
數據在數據倉庫的高品質 - 數據挖掘工具都需要工作在集成的,一致的,並清理數據。這些步驟是非常昂貴的數據預處理。通過這樣的預處理構建的數據倉庫均採用優質有價值的數據源,OLAP和數據挖掘爲好。
圍繞數據倉庫可用信息處理基礎設施 - 信息處理的基礎設施指的是訪問,集成,整合和多個異構數據庫,網絡接入和服務設施,報表和OLAP分析工具的轉變。
基於OLAP的探索性數據分析 - 需要有效的數據挖掘探索性數據分析。 OLAM提供各種子組數據,並在不同的抽象層次的機構進行數據挖掘。
在線選擇數據挖掘功能 - OLAP集成多個數據挖掘功能,聯機分析挖掘爲用戶提供了靈活動態地選擇所需的數據挖掘功能和交換數據挖掘任務。