Data Lake

Định nghĩa

Data Lake (Hồ Dữ liệu) là một kho lưu trữ trung tâm, có khả năng lưu trữ một lượng lớn dữ liệu thô (raw data)định dạng gốc (native format), không cần cấu trúc trước (schema-on-read).

Nó giống như một “hồ nước” tự nhiên, nơi bạn có thể đổ mọi loại dữ liệu (có cấu trúc, bán cấu trúc, phi cấu trúc) vào mà không cần xử lý trước.

Data Lake vs. Kho Dữ liệu (Data Warehouse)

Đây là hai kiến trúc lưu trữ dữ liệu khác nhau:

Đặc điểmData LakeKho Dữ liệu (Data Warehouse)
Dữ liệuThô (Raw), Định dạng gốcĐã xử lý (Processed), Có cấu trúc
SchemaSchema-on-Read (Đọc rồi mới định nghĩa cấu trúc)Schema-on-Write (Phải định nghĩa cấu trúc trước khi ghi)
Quy trìnhELT (Extract, Load, Transform) (Tải trước, biến đổi sau)ETL (Extract, Transform, Load) (Biến đổi trước, tải sau)
Người dùngNhà khoa học Dữ liệu (Data Scientists)Nhà phân tích Kinh doanh (Business Analysts)
Mục đíchKhám phá, Học máy, Khai phá Dữ liệu (Data Mining)Báo cáo BI, Dashboard
Linh hoạtRất linh hoạtKém linh hoạt (do cấu trúc cứng)

Ưu điểm

  • Linh hoạt: Lưu trữ được mọi loại dữ liệu.
  • Chi phí Thấp (Lưu trữ): Thường dùng các công nghệ lưu trữ rẻ hơn (như Hadoop HDFS).
  • Phù hợp Dữ liệu lớn (Big Data): Xử lý tốt Volume, Velocity, Variety.

Nhược điểm

  • “Đầm lầy Dữ liệu” (Data Swamp): Nếu không được quản lý tốt (metadata, data governance), Data Lake có thể trở thành một mớ hỗn độn, khó tìm kiếm và khai thác (giống đầm lầy).