데이터 마이닝

위키백과 ― 우리 모두의 백과사전.

데이터 마이닝(Data Mining)은 대규모로 저장된 데이터 속에서 특정 패턴을 자동적으로 찾고자 하는 노력을 말한다. 다른 말로, 데이터베이스에서 지식을 발견한다는 의미로 KDD(knowledge-discovery in databases)라고도 불린다. 이를 위해서, 데이터 마이닝은 통계학에서 패턴 인식에 이르는 다양한 계량 기법을 사용한다.

데이터 마이닝의 기법은 통계학쪽에서 발전된 탐색적자료분석, 가설검정, 다변량분석, 시계열분석, 일반선형모형 등의 방법론과 데이터베이스쪽에서 발전된 OLAP (On-Line Analytic Processing), 인공지능진영에서 발전된 SOM, Neural Network, Expert System 등의 기술적인 방법론이 사용된다.

데이터 마이닝의 응용분야로 신용평점시스템(Credit Scoring System)의 신용평가모형 개발, 사기탐지시스템(Fraud Detection System), 장바구니분석(Market Basket Analysis), 최적포트폴리오 구축 등 다양한 산업분야에서 광범위하게 사용되고 있다. 단점으로 자료에 의존하여 현상을 해석하고 개선하려고 하기 때문에 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할 수가 있다.


이 문서는 토막글입니다. 서로의 지식을 모아 알차게 문서를 완성해 갑시다.