Khai phá Dữ liệu (Data Mining)
Định nghĩa
Khai phá Dữ liệu (Data Mining) là một quy trình liên ngành (sử dụng thống kê, AI, Học máy (Machine Learning)) nhằm khám phá (discover) các mẫu (patterns), liên kết (associations), và tri thức (insights) tiềm ẩn có giá trị từ các tập dữ liệu lớn mà trước đây chưa được biết đến.
Nó không chỉ là truy vấn (query) dữ liệu (việc đó chỉ lấy ra cái bạn đã biết), mà là phát hiện ra những điều bạn chưa biết.
Mục tiêu
Mục tiêu của Data Mining là biến dữ liệu thô (raw data) thành thông tin hữu ích để hỗ trợ Ra Quyết định, thường là cho phân tích dự báo.
Các Kỹ thuật Phổ biến
-
Phân loại (Classification): (Học có giám sát)
- Mô tả: Xây dựng mô hình để phân loại dữ liệu mới vào các nhóm đã biết.
- Ví dụ: Lọc email (Spam / Không Spam), Phê duyệt tín dụng (Rủi ro / An toàn).
-
Hồi quy (Regression): (Học có giám sát)
- Mô tả: Dự đoán một giá trị số liên tục.
- Ví dụ: Dự đoán giá nhà, dự báo doanh số.
-
Phân cụm (Clustering): (Học không giám sát)
- Mô tả: Tự động nhóm các đối tượng tương tự nhau lại thành cụm, mà không biết trước các nhóm.
- Ví dụ: Phân khúc Thị trường (nhóm các khách hàng có hành vi giống nhau).
-
Luật Kết hợp (Association Rules): (Học không giám sát)
- Mô tả: Tìm ra các quy tắc kết hợp (ví dụ: “Nếu… thì…”).
- Ví dụ kinh điển: “Nếu khách hàng mua [Bia] thì 80% sẽ mua [Tã lót]” (Phân tích giỏ hàng).