Học không giám sát (Unsupervised Learning)

Định nghĩa

Học không giám sát là một loại hình học máy, trong đó thuật toán học từ một tập Dữ liệu không nhãn (Unlabeled Data).

Dữ liệu không nhãn (Unlabeled Data) là gì?

Dữ liệu không nhãn là tập dữ liệu huấn luyện chỉ bao gồm dữ liệu đầu vào (Input)không có “đáp án” hay nhãn (Label) đi kèm.

Ví dụ: Một tập hợp ảnh động vật (mèo, chó) nhưng không được gán nhãn “mèo” hay “chó”.

Cách thức Hoạt động

Vì không có “đáp án” để học theo, mục tiêu của thuật toán không giám sát là tự mình tìm ra cấu trúc (structure) hoặc các mẫu (patterns) tiềm ẩn bên trong dữ liệu.

Nó tự khám phá cách dữ liệu được tổ chức.

2 Bài toán Chính

  1. Phân cụm (Clustering):

    • Mục tiêu: Tự động nhóm các điểm dữ liệu giống nhau vào chung một cụm (cluster).
    • Câu hỏi: “Những cái nào trông giống nhau?”
    • Ví dụ: Phân khúc Thị trường (tự động nhóm các khách hàng có hành vi/đặc điểm tương tự nhau), phân loại gen.
  2. Luật Kết hợp (Association Rules):

    • Mục tiêu: Khám phá các quy tắc kết hợp thú vị giữa các biến.
    • Câu hỏi: “Nếu A xảy ra, thì B có thường xảy ra cùng không?”
    • Ví dụ: Phân tích giỏ hàng (Market Basket Analysis) “Những người mua bia cũng thường mua tã lót”.