數據挖掘集羣分析
什麼是集羣?
集羣是一組屬於同一類的對象。換句話說,類似對象被分組在一個簇和異種分組在其他集羣。
什麼是聚類?
集羣是製作小組抽象對象到類相似對象的過程。
你需要記住的
數據對象的一個集羣可以被視爲一組。
而這樣做的聚類分析,我們首先根據數據相似性劃分的一組數據分組,然後將標籤分配給該組。
聚類在分類的主要優點是,它是適應變化,並幫助該區分不同羣體挑出有用的功能。
聚類分析中的應用
聚類分析被廣泛用於許多應用,如市場調查,模式識別,數據分析和圖像處理。
羣集也可以幫助營銷人員發現不同的羣體在他們的客戶基礎。他們可以根據購買模式的客戶羣體特徵。
在生物學領域,可以用於推導植物和動物分類法進行分類的基因相似的功能,並深入瞭解所固有的種羣結構。
集羣也有助於識別類似土地利用在地球觀測數據庫的區域。它還有助於房子的羣體在一個城市,根據房子的類型,價值,地理位置識別。
集羣也有助於在網絡上的信息發現文件分類。
聚類也可用於異常檢測的應用,如檢測信用卡欺詐的。
作爲數據挖掘功能聚類分析作爲一種工具來洞察數據,觀察每個簇的分佈性特點。
聚類在數據挖掘需求
這裏是聚類數據挖掘的典型要求:
可擴展性 - 我們需要高度可擴展的聚類算法來處理大型數據庫。
能夠處理不同類型的屬性 - 算法應該能夠在任何種類的數據,如基於間隔(數字)數據,類別,二進制數據被應用。
集羣與屬性形狀的發現 - 聚類算法應能夠檢測任意形狀的簇。本不應該爲界,往往發現小尺寸的球狀星團只有距離測量。
高維 - 該聚類算法不僅能夠處理低維數據,而且該高維空間。
能夠處理噪聲數據 - 數據庫包含嘈雜,丟失或錯誤的數據。一些算法是這樣的數據敏感,並且可能導致質量差的集羣。
解釋性 - 聚類結果應該是可解釋的,可理解的和可用的。
聚類方法
聚類方法可以分爲以下幾種:
劃分方法
分層方法
基於密度的方法
基於網格的方法
基於模型的方法
基於約束的方法
分割方法
假設我們給出n個對象的數據庫,該劃分方法構建數據的k個分區。每個分區將代表一個集羣和k≤| N。這意味着它將對數據進行分類成k個組,其中滿足下列要求:
各組至少包含一個對象。
每個對象必須屬於正好一個組。
要記住的要點:
對於分區(K)的一個給定的數目,分區方法將創建一個初始劃分。
然後,它使用了迭代搬遷技術,通過移動的物體從一組到其他改善分區。
層次方法
這個方法創建給定數據對象的層次分解。我們可以的層次分解是如何形成如下基礎分層分類方法:
凝聚法
分裂法
凝聚進近
這種方法也被稱爲自下而上的方法。在此,我們開始與每個對象形成一個單獨的組。它不斷合併是彼此接近的物體或基團。它繼續這樣做,直到所有的組都合併成一個或直到終止條件成立。
分裂的進近
這種方法也被稱爲自頂向下的方法。在此,我們開始都在同一個簇中的對象的。在連續的迭代中,簇被分裂成更小的簇。這是直到在一個集羣或終止條件的每個對象保存。
壞處
這個方法是剛性的,即,一旦合併或拆分完成後,它不可能被撤消。
方法以提高質量層次聚類
這裏是用來提高層次聚類的質量的兩種方法:
在每個層次劃分進行認真分析對象的聯繫。
首先使用分層凝聚算法組對象到微簇,然後在微簇進行宏簇整合分層結塊。
基於密度的方法
此方法是基於密度的概念。其基本思路是將繼續增長給定的簇,只要在附近的密度超過某個閾值,即對於一個給定集羣內的每一個數據點,在給定簇的半徑必須包含點中的至少一個最小數目。
基於網格的方法
在這個對象一起從一個網格。對象空間量化成形成一個網格結構單元的數量有限。
優點
這種方法的主要優點是快速的處理時間。
它僅依賴於細胞中的量化空間的每個維度的數目。
基於模型的方法
在該方法中,模型是假設每個簇並找到數據的給定模型的最佳擬合。此方法通過聚類的密度函數找出集羣。這反映了數據點的空間分佈。
這種方法也有助於自動決定基於標準的統計聚類數,取異常或噪聲考慮的方式。因此,產生強大的聚類方法。
基於約束的方法
在該方法中,聚類是由用戶或應用程序面向約束摻入執行。約束是指用戶期望或希望的聚類結果的屬性。約束給我們的集羣進程間通信的交互方式。該約束可以由用戶或應用程序的要求來指定。