ELT (Extract, Load, Transform)
Định nghĩa
ELT (Extract - Load - Transform) là một quy trình tích hợp dữ liệu, tương tự như ETL, nhưng với thứ tự các bước khác đi. Trong ELT, dữ liệu được tải (Load) vào hệ thống đích (thường là Data Lake) trước khi được biến đổi (Transform).
Quy trình ELT
-
E - Extract (Trích xuất):
- Giống ETL: Lấy dữ liệu thô từ các hệ thống nguồn.
-
L - Load (Tải):
- Khác ETL: Tải dữ liệu thô (raw), chưa qua xử lý vào một kho lưu trữ có khả năng xử lý dữ liệu phi cấu trúc, thường là Data Lake.
-
T - Transform (Biến đổi):
- Khác ETL: Các bước làm sạch, chuẩn hóa, cấu trúc dữ liệu được thực hiện sau khi dữ liệu đã nằm trong Data Lake, thường là “theo yêu cầu” (on-demand) khi cần phân tích. Việc biến đổi này tận dụng sức mạnh tính toán của hệ thống đích (như Hadoop, Spark).
ETL vs. ELT
| Đặc điểm | ETL (Extract, Transform, Load) | ELT (Extract, Load, Transform) |
|---|---|---|
| Thứ tự | Biến đổi Tải | Tải Biến đổi |
| Nơi Biến đổi | Trên một máy chủ trung gian (staging server) | Bên trong hệ thống đích (Data Lake/DWH hiện đại) |
| Dữ liệu Tải vào | Đã xử lý, có cấu trúc | Thô, định dạng gốc |
| Hệ thống Đích | Thường là Kho Dữ liệu (Data Warehouse) truyền thống | Thường là Data Lake hoặc Kho dữ liệu đám mây |
| Schema | Schema-on-Write | Schema-on-Read |
| Phù hợp với | Dữ liệu có cấu trúc, báo cáo BI | [[Dữ liệu lớn (Big Data)], dữ liệu phi cấu trúc, Khoa học Dữ liệu |
ELT đang ngày càng phổ biến hơn nhờ sự phát triển của công nghệ lưu trữ và xử lý dữ liệu lớn trên đám mây.