Dữ liệu không nhãn (Unlabeled Data)
Định nghĩa
Dữ liệu không nhãn (Unlabeled Data) là dữ liệu thô (raw data) không được gắn kèm bất kỳ thẻ (tag) hay nhãn (label) giải thích ý nghĩa nào. Nó chỉ bao gồm các đặc trưng đầu vào (input features) mà không có “đáp án” tương ứng.
Ví dụ
- Một kho lưu trữ hàng triệu bức ảnh trên internet mà không có mô tả (caption) hay thẻ tag “mèo”, “chó”.
- Dữ liệu giao dịch mua hàng của khách hàng mà không được phân loại trước thành các nhóm “khách hàng tiềm năng”, “khách hàng trung thành”.
- Các bài báo tin tức chưa được phân loại theo chủ đề “thể thao”, “chính trị”, “kinh tế”.
Tầm quan trọng
- Sự phổ biến: Dữ liệu không nhãn chiếm phần lớn dữ liệu trên thế giới. Việc thu thập nó dễ dàng và rẻ hơn nhiều so với Dữ liệu có nhãn (Labeled Data).
- Học không giám sát (Unsupervised): Dữ liệu không nhãn là đầu vào cho các thuật toán học không giám sát, giúp máy tính tự khám phá ra cấu trúc và các mẫu tiềm ẩn trong dữ liệu (ví dụ: Phân cụm (Clustering), Luật Kết hợp (Association Rules)).