ELT (Extract, Load, Transform)

Định nghĩa

ELT (Extract - Load - Transform) là một quy trình tích hợp dữ liệu, tương tự như ETL, nhưng với thứ tự các bước khác đi. Trong ELT, dữ liệu được tải (Load) vào hệ thống đích (thường là Data Lake) trước khi được biến đổi (Transform).

Quy trình ELT

  1. E - Extract (Trích xuất):

    • Giống ETL: Lấy dữ liệu thô từ các hệ thống nguồn.
  2. L - Load (Tải):

    • Khác ETL: Tải dữ liệu thô (raw), chưa qua xử lý vào một kho lưu trữ có khả năng xử lý dữ liệu phi cấu trúc, thường là Data Lake.
  3. T - Transform (Biến đổi):

    • Khác ETL: Các bước làm sạch, chuẩn hóa, cấu trúc dữ liệu được thực hiện sau khi dữ liệu đã nằm trong Data Lake, thường là “theo yêu cầu” (on-demand) khi cần phân tích. Việc biến đổi này tận dụng sức mạnh tính toán của hệ thống đích (như Hadoop, Spark).

ETL vs. ELT

Đặc điểmETL (Extract, Transform, Load)ELT (Extract, Load, Transform)
Thứ tựBiến đổi TảiTải Biến đổi
Nơi Biến đổiTrên một máy chủ trung gian (staging server)Bên trong hệ thống đích (Data Lake/DWH hiện đại)
Dữ liệu Tải vàoĐã xử lý, có cấu trúcThô, định dạng gốc
Hệ thống ĐíchThường là Kho Dữ liệu (Data Warehouse) truyền thốngThường là Data Lake hoặc Kho dữ liệu đám mây
SchemaSchema-on-WriteSchema-on-Read
Phù hợp vớiDữ liệu có cấu trúc, báo cáo BI[[Dữ liệu lớn (Big Data)], dữ liệu phi cấu trúc, Khoa học Dữ liệu

ELT đang ngày càng phổ biến hơn nhờ sự phát triển của công nghệ lưu trữ và xử lý dữ liệu lớn trên đám mây.