Dữ liệu không nhãn (Unlabeled Data)

Định nghĩa

Dữ liệu không nhãn (Unlabeled Data) là dữ liệu thô (raw data) không được gắn kèm bất kỳ thẻ (tag) hay nhãn (label) giải thích ý nghĩa nào. Nó chỉ bao gồm các đặc trưng đầu vào (input features) mà không có “đáp án” tương ứng.

Ví dụ

  • Một kho lưu trữ hàng triệu bức ảnh trên internet mà không có mô tả (caption) hay thẻ tag “mèo”, “chó”.
  • Dữ liệu giao dịch mua hàng của khách hàng mà không được phân loại trước thành các nhóm “khách hàng tiềm năng”, “khách hàng trung thành”.
  • Các bài báo tin tức chưa được phân loại theo chủ đề “thể thao”, “chính trị”, “kinh tế”.

Tầm quan trọng