Data mining

Z Wikipédie

Tento článok alebo jeho časť si vyžaduje úpravu, aby zodpovedal vyššiemu štandardu kvality.
Pozri aj stránky Ako upravovať stránku a Návody a štýl alebo diskusiu k článku.

Data-mining je časť umelej inteligencie, ktorá sa venuje objavovaniu znalostí a súvislostí vo veľkých objemoch dát.



Existujú dva základne prístupy k data-miningu:

  • zhora nadol (top-bottom) nazývaný aj priamy prístup
  • zdola nahor (bottom-up) nazývaný aj nepriamy prístup


Prístup zhora nadol je charakterizovaný presne definovaných cieľom, ktorý sa snažíme dosiahnuť. Metodólogia aj použité prostriedky sa snažia dosiahnuť dosiahnutie tohoto cieľa s čo najväčšiou presnosťou.
Príklad: Ktorý z našich doterajších klientov si zakúpia aj náš nový produkt?

Prístup zdola nahor hľadá v dátach vzory, ktoré môžu byť potenciálne zaujímavé a necháva užívateľa rozhodnúť, či je daný vzor skutočne zaujímavých ako s novou získanou informáciu naložíme. Tento prístup je využívaný zväčša vo fáze skúmania dát na určenie možných cieľov a predbežného ohodnotenia ich prínosu.
Príklad: Existujú v portfóliou našich klientov špecifické skupiny s podobným správaním?

Metodológie data-miningu:

  • CRISP DM (SPSS)
  • SEMA (SAS)
  • Virtuos cycle of data mining (Berry & Linoff)
  • rôzne ďalšie


Úlohy riešené data-miningom:

  • klasifikácia, zatriedenie objektov do skupín na základe predošlej skúsenosti
  • predikcia, predikovanie budúceho správania sa objektov na základe skúsensti z minulosti
  • zhlukovane, vytváranie skupín objektov na základe podobných vlastností


Aplikácie data-miningu v praxy:

  • cross-sell, predaj ďalších produktov existujúcim zákazníkom
  • up-sell, zvýšenie predaja daného produktu novým zákazníkom, predaj drahších produktov
  • credit risk, modelovanie kreditného rizika klientov, t.j. pravdepodobnosti nesplácania úveru
  • fraudy, identifikácia podvodov
  • churn, identifikácia zákazníkov náchylných na prechod ku konkurencii


Odvetvia využívajúce data-mining:

  • marketing, podpora pri výbere klientov do marketigových kampaní (cross-sell, up-sell)
  • poisťovníctvo, identifikácia podvodov (churn), určovanie poistných sadzieb
  • bankovníctvo, manažment rizika (credit risk)
  • medicína, podpora pri stanovení pravdepobnosti danej diagnózy
  • veľa iných


Algoritmy najčastejšie využívané pre data-mining:

  • rozhodovanie stromy
  • lineárna regresia
  • logistická regresia
  • naivný Bayesov klasifikátor
  • Bayesove siete
  • algoritmus k najbližsích susedov (KNN)
  • k-means
  • Kohonenove mapy
  • neurónové siete


Softvér pre data-mining:

  • SAS
  • SPSS Clementine, SPSS Basev
  • Statistica
  • R (open source)
  • Weka (open source)
  • Yale (open source)
  • Matlab



Odkazy: