數據挖掘分類與預測
有兩種形式的數據的分析,可以用於描述一種重要的類提取物的模型或預測未來的數據趨勢。這兩種形式如下:
分類
預測
這些數據的分析,有助於我們更好地理解大數據。分類預測分類和預測模型預測連續值函數。例如,我們可以建立一個分類模型,以銀行貸款申請歸類爲安全或危險的,或者預測模型來預測在計算機設備給他們的收入和職業美元的潛在客戶的支出。
什麼是分類?
以下情況下數據分析任務是分類的例子:
銀行信貸員要對數據進行分析,以便知道哪些客戶(借款申請人)是有風險的,或哪些是安全的。
營銷經理在一家公司需要分析猜測與給定輪廓的顧客會購買一臺新電腦。
在上述兩個例子,一個模型或分類器被構造來預測類別的標籤。這些標籤都是有風險的或安全的貸款申請資料和yes或no的營銷數據。
什麼是預測?
以下情況下的數據分析任務是預測的例子:
假設營銷經理需要預測多少給定的客戶將在出售他的公司花。在這個例子中,我們刻意去預測數值。因此,數據分析的任務就是例子數值預測的。在這種情況下,模型或預測將構造,預測的連續值的函數或指令值。
注:迴歸分析是最常用的數字預測的統計方法。
如何分類運作?
我會盡量讓你明白如何分類的?與我們上面所討論的銀行申請貸款的幫助。數據分類過程包括兩個步驟:
構建分類器或模型
利用分類器進行分類
建設中的分類器或模型
這個步驟是在學習步驟或學習階段。
在此步驟中,分類算法構建分類器。
分類器是從訓練集由數據庫元組和其相關聯的類別標籤的構建。
構成所述訓練集合中的每個元組被稱爲一個類或類。這些元組也可以被稱爲樣品,對象或數據點。
利用分類器進行分類
在此步驟中,分類器被用於分類。這裏的測試數據來估算的分類規則的準確性。分類規則可以應用到新的數據元組,如果準確度被認爲是可以接受的。
分類和預測問題
主要的問題是準備數據的分類和預測。準備數據包括以下活動:
數據清理 - 數據清理涉及刪除缺失值的噪聲和治療。噪聲是通過運用平滑技術和遺漏值的問題是由最常出現的值該屬性替換缺失值解決了刪除。
相關分析 - 數據庫也可具有不相關的屬性。相關分析是用於瞭解任意兩個給定的屬性是否相關。
數據轉換和減少 - 該數據可通過任何以下方法進行變換。
正常化- 該數據是使用歸一化變換。歸一化處理包括縮放爲給定屬性的所有值,以使它們落入一個小的指定範圍內。歸一化時使用的學習步驟中,涉及計量的神經網絡或方法的使用。
概括 - 該數據也可以通過將其推廣到更高的概念轉化。爲此,我們可以使用概念層次。
注意:數據也可以通過一些其他方法,如小波變換,離散化,直方圖分析,聚類和減少。
分類和預測方法的比較
這裏是標準的分類比較和預測的方法:
準確性 - 分類的準確性是指分類的正確預測的類標籤的能力和預測的準確性是指在給定的預測在多大程度上能夠猜出預測屬性的值的一個新的數據。
速度 - 這指的是計算成本中生成和使用的分類器或預測。
穩健性- 它指的是分類或預測的,從給定的噪聲數據做出正確的預測能力。
可擴展性- 可擴展性是指構建分類或預測有效地給予大量數據的能力。
解釋性- 這指的是在何種程度上的分類或預測理解。