數據挖掘查詢語言
數據挖掘查詢語言提出由Han, Fu, Wang等DBMiner 數據挖掘系統。數據挖掘查詢語言實際上是基於結構化查詢語言(SQL)。數據挖掘查詢語言可以設計爲支持ad hoc和交互式數據挖掘。DMQL提供的命令來指定原語。DMQL可以與數據庫中的數據倉庫正常工作。數據挖掘查詢語言可以用來定義數據挖掘任務。特別是我們研究如何定義數據挖掘查詢語言數據倉庫和數據集市。
任務相關的數據的語法規範
這裏是DMQL的指定任務相關的數據的語法:
use database database_name, or use data warehouse data_warehouse_name in relevance to att_or_dim_list from relation(s)/cube(s) [where condition] order by order_list group by grouping_list
指定類型的知識語法
在這裏,我們將討論的語法特徵,辨析,關聯,分類和預測。
表徵
特徵語法是:
mine characteristics [as pattern_name] analyze {measure(s) } The analyze clause, specifies aggregate measures, such as count, sum, or count%. For example: Description describing customer purchasing habits. mine characteristics as customerPurchasing
analyze count%
判別
判別語法是:
mine comparison [as {pattern_name]} For {target_class } where {t arget_condition } {versus {contrast_class_i } where {contrast_condition_i}} analyze {measure(s) }
例如,用戶可以定義bigSpenders作爲購買物品的售價爲100美元或以上的平均水平,budgetSpenders作爲誰在低於100美元,平均購買商品的客戶的客戶。 判別描述從每一類客戶的挖掘可以在DMQL作爲被指定:
mine comparison as purchaseGroups for bigSpenders where avg(I.price) ≥$100
versus budgetSpenders where avg(I.price)< $100
analyze count
關聯
關聯的語法是:
mine associations [ as {pattern_name} ] {matching {metapattern} }
實例:
mine associations as buyingHabits
matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)
注:其中,X是客戶關係的關鍵,P和Q是謂詞變量和W,Y和Z是對象變量。
分類
分類的語法是:
mine classification [as pattern_name] analyze classifying_attribute_or_dimension
例如,礦山模式進行分類客戶信用評級,其中類由屬性credit_rating確定,礦山劃分爲classifyCustomerCreditRating
analyze credit_rating
預測
預測的語法是:
mine prediction [as pattern_name] analyze prediction_attribute_or_dimension {set {attribute_or_dimension_i= value_i}}
概念層次規格語法
指定要使用什麼概念層次:
use hierarchy
我們使用不同的語法來定義不同的類型層次結構,如:
-schema hierarchies
define hierarchy time_hierarchy on date as [date,month quarter,year] - set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as level1: {young, middle_aged, senior} < level0: all
level2: {20, ..., 39} < level1: young
level3: {40, ..., 59} < level1: middle_aged
level4: {60, ..., 89} < level1: senior -operation-derived hierarchies
define hierarchy age_hierarchy for age on customer as {age_category(1), ..., age_category(5)} := cluster(default, age, 5) < all(age) -rule-based hierarchies
define hierarchy profit_margin_hierarchy on item as level_1: low_profit_margin < level_0: all if (price - cost)< $50
level_1: medium-profit_margin < level_0: all if ((price - cost) > $50) and ((price - cost) ≤ $250)) level_1: high_profit_margin < level_0: all
興趣度度量規範語法
興趣度度量和閾值可通過指定的語句的用戶:
with <interest_measure_name> threshold = threshold_value
實例:
with support threshold = 0.05 with confidence threshold = 0.7
格局呈報及可視化規約語法
我們有自己的語法,它允許用戶指定一個或多個形式發現的模式的顯示。
display as <result_form>
實例:
display as table
DMQL全規格
作爲一家公司的市場部經理,你想描繪誰購買售價不低於100美元的物品,WRT顧客的年齡,購買類型的項目,與發生在哪一個項目是做顧客的購買習慣。你想知道客戶具有該特性的百分比。特別是,只關心在加拿大製造,及與美國運通(「美國運通」)信用卡支付購買。你想查看的一個表的形式所得到的描述。
use database AllElectronics_db use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count% in relevance to C.age,I.type,I.place_made from customer C, item I, purchase P, items_sold S, branch B where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100 with noise threshold = 5% display as table
數據挖掘語言的標準化
標準化的數據挖掘語言將達到以下目的:
數據挖掘解決方案的系統開發。
提高互操作性多個數據挖掘系統和功能之一。
推動教育。
推廣使用在行業和社會數據挖掘系統。