Khai phá dữ liệu

Bách khoa toàn thư mở Wikipedia

Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có.

Mục lục

[sửa] Diễn giải

Khai phá dữ liệu là một bước của Quá trình khai phá tri thức(Knowledge Discovery Process), bao gồm:

  • Problem Understanding and Data Understanding: xác định vấn đề và không gian dữ liệu để giải quyết vấn đề.
  • Data preparation : chuẩn bị dữ liệu.Bao gồm quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu(data selection), biến đổi dữ liệu(data transformation)
  • Data Mining : khai phá dữ liệu. Xác định nhiệm vụ khai phá dữ liệu và lựa chọn kỹ thuật khai phá dữ liệu. Kết quả cho ta một nguồn trí thức thô.
  • Evaluation : đánh giá. Dựa trên một số tiêu chí tiến hành kiểm tralọc nguồn trí thức thu được .
  • Deployment :triển khai.

Quá trình khai phá trí thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay hồi lại các bước đã qua.

[sửa] Các phương pháp khai phá dữ liệu

  • Phân loại (Classification): Discovery of a predictive learning function that classifies a data item into one of several predefined classes.
  • Hồi qui (Regression): Discovery of a prediction learning function, which maps a data item to a real-value prediction variable.
  • Phân nhóm (Clustering): A common descriptive task in which one seeks to identify a finite set of categories or clusters to describe the data.
  • Tổng hợp (Summarization): An additional descriptive task that involves methods for finding a compact description for a set (or subset) of data.
  • Mô hình ràng buộc (Dependency modeling): Finding a local model that describes significant dependencies between variables or between the values of a feature in a data set or in a part of a data set.
  • Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Discovering the most significant changes in the data set.

[sửa] Các vấn đề về tính riêng tư

Vẫn có các mối lo ngại về tính riêng tư gắn với việc khai phá dữ liệu. Ví dụ, nếu một ông chủ có quyền truy xuất vào các hồ sơ y tế, họ có thể loại những người có bệnh tiểu đường hay bệnh tim. Việc loại ra những nhân viên như vậy sẽ cắt giảm chi phí bảo hiểm, nhưng tạo ra các vấn đề về tính hợp pháp và đạo đức.

Khai phá dữ liệu các tập dữ liệu thương mại hay chính phủ cho các mục đích áp đặt luật pháp và an ninh quốc gia cũng là những mối lo ngại về tính riêng tư đang tăng cao. 5

Có nhiều cách sử dụng hợp lí với khai phá dữ liệu. Ví dụ, một CSDL các mô tả về thuốc được thực hiện bởi một nhóm người có thể được dùng để tìm kiếm sự kết hợp của các loại thuốc tạo ra các phản ứng (hóa học) khác nhau. Vì việc kết hợp có thể chỉ xảy ra trong 1 phần 1000 người, một trường hợp đơn lẻ là rất khó phát hiện. Một dự án liên quan đến y tế như vậy có thể giúp giảm số lượng phản ứng của thuốc và có khả năng cứu sống con người. Không may mắn là, vẫn có khả năng lạm dụng đối với một CSDL như vậy.

Về cơ bản, khai phá dữ liệu đưa ra các thông tin mà sẽ không có sẵn được. Nó phải được chuyển đổi sang một dạng khác để trở nên có nghĩa. Khi dữ liệu thu thập được liên quan đến các các nhân, thì có nhiều câu hỏi đặt ra liên quan đến tính riêng tư, tính hợp pháp, và đạo đức.

[sửa] Vét dữ liệu

Used in the technical context of data warehousing and analysis, the term "data mining" is neutral. However, it sometimes has a more pejorative usage that implies imposing patterns (and particularly causal relationships) on data where none exist. This imposition of irrelevant, misleading or trivial attribute correlation is more properly criticized as "data dredging" in the statistical literature. Another term for this misuse of statistics is data fishing.

Used in this latter sense, data dredging implies scanning the data for any relationships, and then when one is found coming up with an interesting explanation. (This is also referred to as "overfitting the model".) The problem is that large data sets invariably happen to have some exciting relationships peculiar to that data. Therefore any conclusions reached are likely to be highly suspect. In spite of this, some exploratory data work is always required in any applied statistical analysis to get a feel for the data, so sometimes the line between good statistical practice and data dredging is less than clear. The common approach, in data mining, to overcoming the problem of overfitting is to separate the data into two or three separate data sets (called the training set, validation set, and testing set). The model is built using the training and validation set, and is then tested using the testing set; the procedure can be repeated many times by resampling the data sets, in order to be more certain that a real pattern has been found and that the model is not merely capitalizing on random chance (i.e. overfitting).

A more significant danger is finding correlations that do not really exist. Investment analysts appear to be particularly vulnerable to this. "There have always been a considerable number of pathetic people who busy themselves examining the last thousand numbers which have appeared on a roulette wheel, in search of some repeating pattern. Sadly enough, they have usually found it." 3. However, when properly done, determining correlations in Investment analysis has proven to be very profitable for statistical arbitrage operations (such as pairs trading strategies), and furthermore correlation analysis has shown to be very useful in risk management. Indeed, finding correlations in the financial markets, when done properly, is not the same as finding false patterns in roulette wheels.

Most data mining efforts are focused on developing a finely-grained, highly detailed model of some large data set. Other researchers have described an alternate method that involves finding the minimal differences between elements in a data set, with the goal of developing simpler models that represent relevant data. 4


[sửa] Sự kết hợp giữa khai phá dữ liệu và trò chơi

  • Data mining from combinatorial game oracles:

Since the early 1990's, with the availability of oracles for certain combinatorial games, also called tablebases (e.g. for 3x3-chess) with any beginning configuration, small-board dots-and-boxes, small-board-hex, and certain endgames in chess, dots-and-boxes, and hex; a new area for data mining has been opened up. This is the extraction of human-usable strategies from these oracles. This is pattern-recognition at too high an abstraction for known Statistical Pattern Recognition algorithms or any other algorithmic approaches to be applied: at least, no one knows how to do it yet (as of January 2005). The method used is the full force of Scientific Method: extensive experimentation with the tablebases combined with intensive study of tablebase-answers to well designed problems, combined with knowledge of prior art i.e. pre-tablebase knowledge, leading to flashes of insight. Berlekamp in dots-and-boxes etc. and John Nunn in chess endgames are notable examples of people doing this work, though they were not and are not involved in tablebase generation.

[sửa] Các lĩnh vực ứng dụng

Các lĩnh vực hiện tại có ứng dụng Khai phá dữ liệu bao gồm:

[sửa] Những ứng dụng đáng chú ý của khai phá dữ liệu

  • Khai phá dữ liệu được xem là phương pháp mà đơn vị Able Danger của Quân đội Mỹ đã dùng để xác định kẻ đứng đầu cuộc tấn công ngày 9/11, Mohamed Atta, và ba kẻ tấn công ngày 9/11 khác là các thành viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một năm trước cuộc tấn công.

[sửa] Xem thêm

[sửa] Tham khảo

Endnotes:

Chú giải 1:  W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge Discovery in Databases: An Overview. AI Magazine, Fall 1992, pages 213-228.

Chú giải 2:  D. Hand, H. Mannila, P. Smyth: Principles of Data Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X

Chú giải 3:  Fred Schwed, Jr, Where Are the Customers' Yachts? ISBN 0471119792 (1940).

Chú giải 4:  T. Menzies, Y. Hu, Data Mining For Very Busy People. IEEE Computer, October 2003, pages 18-25.

Chú giải 5:  K. A. Taipale, Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data, Center for Advanced Studies in Science and Technology Policy. 5 Colum. Sci. & Tech. L. Rev. 2 (December 2003).

Chú giải 6:  Eddie Reed, Jing Jie Yu, Antony Davies, et al., Clear Cell Tumors Have Higher mRNA Levels of ERCC1 and XPB than Other Types of Epithelial Ovarian Cancer, Clinical Cancer Research, 2003.

Other:

  • Rakesh Agrawal, Tomasz Imielinski, and Arun Swami. Mining Association Rules between Sets of Items in Large Databases (1993). Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, months 26–28, pp.207–216.
  • Rakesh Agrawal and Ramakrishnan Srikant. Fast Algorithms for Mining Association Rules (1994). Proceedings of the 20th International Conference on Very Large Data Bases (VLDB), month 12–15, pp.487–499.
  • Jaiwei Han and Micheline Kamber, Data Mining: Concepts and Techniques (2001), ISBN 1-55860-489-8
  • Ruby Kennedy et al., Solving Data Mining Problems Through Pattern Recognition (1998), ISBN 0-13-095083-1
  • O. Maimon and M. Last, Knowledge Discovery and Data Mining – The Info-Fuzzy Network (IFN) Methodology, Kluwer Academic Publishers, Massive Computing Series, 2000.
  • Hari Mailvaganam, Future of Data Mining, (December 2004)
  • Sholom Weiss and Nitin Indurkhya, Predictive Data Mining (1998), ISBN 1-55860-403-0
  • Ian Witten and Eibe Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations (2000), ISBN 1-55860-552-5
  • Yike Guo and Robert Grossman, editors, "High Performance Data Mining: Scaling Algorithms, Applications and Systems", Kluwer Academic Publishers, 1999.

[sửa] Các liên kết ngoài

[sửa] Tổng hợp thông tin báo chí tự động

[sửa] Phần mềm

  • YALE Là công cụ miễn phí cho học máy và khai phá dữ liệu
  • Weka Phần mềm mã nguồn mở phục vụ cho khai phá dữ liệu viết bằng Java
  • Parago Khai phá dữ liệu và Quản lí ICT Asset cho trường học
  • Tanagra Phần mềm thống kê và khai phá dữ liệu mã nguồn mở