資料探勘(Data Mining)

資料探勘(英語:Data mining),又譯為資料採礦、資料探勘。它是資料庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關聯性(屬於Association rule learning)的資訊的過程。資料挖掘通常與電腦科學有關,並通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

那維基上的定義雖然被分成兩個條目,但其實意思是相同的,資料探勘就是門透過從大量資料中獲得有用(潛在)的資訊(規則)

而資料探勘的方法大致上可以分成:

  • 關聯規則
  • 分類
    • 決策樹
    • 貝氏分類
    • 類神經網路
    • SVM (Support Vector Machine, 支援向量機)
  • 分群/聚類/叢集分析
    • K-Means
  • 迴歸
  • 奇異值偵測

當然,上面並未把所有的資料探勘技術全列上去,事實上要全列完似乎也是個不小的難度...
然後記得老師有提到 SVM 其實可以跑分類、分群、迴歸、奇異值偵測,也就是大多數的資料探勘也是可以透過 SVM 來作到(SVM 是種演算法,他並不是像 SPSS 或 Weka 是工具)

而資料探勘常常第一堂課會提到的例子就是「啤酒與尿布的關聯」,這屬於關聯規則的探勘(事實上也有很多管理學相關的課程也會提到這個例子)
故事的時間跨度從上個世紀八O年代到本世紀初,甚至連故事的主角和地點都會發生變化--從美國跨越到歐洲。認真地查了一下資料,發現沃爾瑪的"啤酒與尿布"案例正式刊登在一九九八年的《哈佛商業評論》,這是目前發現的最權威報導。

"啤酒與尿布"的故事產生於二十世紀九十年代的美國沃爾馬超市中,沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難於理解的現象:在某些特定的情況下,啤酒與尿布這兩件看上去毫無關係的商品會經常出現在同一個購物籃中,經過調查發現,這種現象出現在年輕的父親身上。

在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親錢去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現再同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,並很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品,而不是一件,從而獲得了很好的商品銷售收入,這就是"啤酒與尿布"故事的由來。

當然"啤酒與尿布"的故事必須具有技術方面的支持。一九九三年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關連關係的關聯算法,並根據商品之間的關連,找出客戶的購買行為。Agrawal從數學及計算機法角度提出了商品關聯關係的計算方法--Aprior算法。沃爾瑪從上個世紀九O年代嘗試將Aprior算法引入到POS機數據分析中,並獲得了成功,於是產生了"啤酒與尿布"的故事。
而事實上該文提到的 Aprior 演算法就是資料探勘最基礎的演算法,而事實上也有相當多的論文是進行改進該演算法或試圖提出一個相同結果但更快速或更省空間的演算法,畢竟這個演算法會產生十分大量的候選集。

而資料探勘常用的工具大致有SPSS,Weka 等
(或許有其他的,不過我目前腦中浮現的就這兩個...)

Reference:

留言

這個網誌中的熱門文章

DB 資料庫呈現復原中

Outlook 刪除大量重覆信件

[VB.Net] If vs IIf ,兩者的差異