Tommy owner Express Magazine
Drupal Developer having 9+ year experience, implementation and having strong knowledge of technical specifications, workflow development. Ability to perform effectively and efficiently in team and individually. Always enthusiastic and interseted to study new technologies
- Skype ID: tthanhthuy
Bình luận (1)
Hi mọi người, mình có bài toán về lựa chọn công cụ về data pipeline cần mn giúp đỡ.
Nguồn dữ liệu là Redshift DB từ 1 account khác, có enable Data Sharing
Đích là Redshift DB bên mình
Data cần xử lý là dạng bảng, số lượng trên 1 trăm và total size chưa nén tầm hơn 100 GB. Transformation từ nguồn tới đích chủ yếu là join table, aggregate, clean…
Mình phân vân 2 hướng sau
Cách 1: Sử dụng SQL procedure trên Redshift đầu đích để transform. Orchestrate bằng Step Functions + Lambda call các SP. Cách này m thấy cost khá thấp tuy nhiên để step functions call tới các SP trên redshift lại hơi phức tạp.
Cách 2: Dùng Glue, connect nguồn và đích bằng jdbc, dùng glue transform… mình chưa dùng Glue end to end nhưng mình đã dùng Spark và hiểu join table lớn yêu cầu suffle data giữa các node rất nhiều nên performance khá kém.
Có thể có cách khác tối ưu hơn, nhờ mn tư vấn thêm nhé. Thanks in advance
Add Comment