數據挖掘的任務

數據挖掘涉及什麼樣的模式可以開採。挖掘出來的數據在基礎上有2種涉及數據挖掘的功能,列出如下:

  • 描述性

  • 分類和預測

描述性

描述功能處理數據在數據庫中的一般屬性。下面是描述性的功能列表:

  • 類/概念描述

  • 頻繁模式挖掘

  • 社團挖掘

  • 相關性的挖掘

  • 集羣挖掘

分類/概念描述

類/概念指的是可以與類或概念相關聯的數據。例如,在一個公司類出售的物品包括電腦和打印機,以及客戶的概念包括揮金如土和預算揮金如土。一個類或概念的這種描述稱爲類/概念描述。這些描述可以得出通過以下兩種方式:

  • 數據表徵 -  這是指在研究總結類的數據。此類別下的研究被稱爲目標類。

  • 數據辨析 - 它是指映射一類或分類有一些預定義的組或一類。

頻繁模式挖掘

頻繁模式是那些經常出現在交易數據模式。下面是那種頻繁模式的列表:

  • 頻繁項集 - 它是指設置經常一起出現,例如牛奶和麪包的項目。

  • 頻繁子序列 - 經常出現諸如購買相機的模式序列其次是存儲卡。

  • 頻繁子結構 - 子結構是指不同的結構形式,如圖形,樹木,或晶格,其可與項集或子組合。

關聯挖掘

關聯被用在零售銷售,以識別經常一起購買的模式。這個過程是指揭示數據之間的關係,並確定關聯規則的過程。

例如零售商生成顯示時間牛奶70%,銷售麪包,並且只有30%的時間用餅乾麪包出售的關聯規則。

相關性的挖掘

它是一種進行揭露相關的屬性 - 值對之間或兩者之間的有趣的統計相關性的其他分析項目設置來分析,如果他們對對方正面,負面或沒有影響。

集羣挖掘

集羣是指一組相似的對象的類型的。聚類分析是指形成組非常相似彼此但與在其他簇中的對象高度不同的對象。

分類和預測

分類是找到一個模型,描述了數據類或概念的過程。的目的是爲了能夠使用該模型來預測類別的對象,它的類標籤是未知的。此派生模型是基於訓練數據集的分析。導出的模型可以提出下列形式:

  • 分類(IF-THEN)規則

  • 決策樹

  • 數學公式

  • 神經網絡

以下是參與這個功能的列表:

  • 分類 - 它預測類的對象,它的類標籤是未知的。它的目標是找到一個派生模型,描述並區分數據類或概念。派生模型是基於分析組訓練數據,即數據對象的類標籤是衆所周知的。

  • 預測 - 它是用來預測丟失或不可用的數字數據值,而不是類的標籤。迴歸分析通常被用於預測。預測還可以用於分佈趨勢的基礎上提供數據的識別。

  • 異常值分析 - 異常值可以被定義爲不符合一般行爲或數據的可用模型的數據對象。

  • 進化分析 - 進化分析指,描述和模型的規律或趨勢的對象,其行爲隨時間變化。

數據挖掘任務原語

  • 我們可以在數據挖掘查詢的形式指定數據挖掘任務。

  • 該查詢被輸入到系統中。

  • 數據挖掘查詢中的數據挖掘任務原語來定義。

Note: 使用這些原語讓我們的互動形式與數據挖掘系統通信。下面是數據挖掘任務原語的列表:

  • 設置任務的可供開採相關的數據

  • 類型的知識才能開採出來的

  • 在發現過程中使用的背景知識

  • 興趣度度量和閾值模式評估

  • 代表性的可視化發現的模式

設置任務相關數據進行挖掘

這是數據庫,其中用戶感興趣的部分。這部分包括以下內容:

  • 數據庫屬性

  • 感興趣的數據倉庫維度

形式的知識來進行開採

它指的是種將要執行的功能。這些功能是:

  • 描述

  • 區別

  • 關聯和相關性分析

  • 分類

  • 預測

  • 聚類

  • 異常值分析

  • 進化分析

背景知識可以用於發現過程

背景知識允許數據在多個層次的抽象挖掘。例如,概念層次結構的背景知識,使數據在多個抽象層次挖掘之一。

興趣度度量和閾值模式評估

這是用來評估是發現通過知識發現過程的模式。有不同的興趣度度量不同類型的知識。

陳述的可視化發現的模式

這是指在其中發現的模式是將要顯示的形式。這些陳述可能包括以下內容:

  • 規則

  • 表格

  • 圖表

  • 曲線圖

  • 決策樹

  • 多維數據集