Dữ liệu có nhãn (Labeled Data)
Định nghĩa
Dữ liệu có nhãn (Labeled Data) là dữ liệu thô (raw data) đã được gắn thẻ (tagged) hoặc chú thích (annotated) với một hoặc nhiều nhãn (labels) mang ý nghĩa, cung cấp ngữ cảnh cho dữ liệu đó.
Nhãn này chính là “đáp án đúng” hoặc “kết quả mong muốn” mà mô hình học có giám sát cần học để dự đoán.
Ví dụ
- Bài toán Phân loại (Classification):
- Dữ liệu thô: Một bức ảnh.
- Nhãn: “Mèo”, “Chó”.
- Dữ liệu có nhãn: (Ảnh con mèo, “Mèo”).
- Bài toán Hồi quy (Regression):
- Dữ liệu thô: Thông tin một ngôi nhà (diện tích, số phòng).
- Nhãn: Giá bán thực tế (ví dụ: 5 tỷ).
- Dữ liệu có nhãn: (Diện tích=100m2, Số phòng=3; Giá=5 tỷ).
Tầm quan trọng
Dữ liệu có nhãn là yêu cầu bắt buộc để huấn luyện các mô hình Học có giám sát (Supervised). Chất lượng và số lượng của dữ liệu có nhãn ảnh hưởng trực tiếp đến hiệu suất của mô hình.
Thách thức
Việc tạo ra dữ liệu có nhãn (gọi là “gán nhãn dữ liệu” - data labeling) thường là một quá trình tốn kém và mất thời gian, đòi hỏi công sức của con người (human annotators).