Ngày 7 giới thiệu Big Data – MapReduce là gì?

Ngày 7 giới thiệu Big Data – MapReduce là gì?

MapReduce là gì?

MapReduce được thiết kế bởi Google như 1 mô hình lập trình xử lý tập dữ liệu lớn song song, thuật toán được phân tán trên 1 cụm. Mặc dù, MapReduce ban đầu là công nghệ độc quyền của Google, nó đã trở thành thuật ngữ tổng quát hóa trong thời gian gần đây.

>> Ngày 6 nền tảng mềm mã nguồn mở Apache Hadoop

>> Ngày 5 - Học về Big Data – NoSQL là gì?

>> Ngày 4 - học về cơ bản về kiến trúc Big Data

>> Ngày 3 - Học về sự tiến hóa của Big Data

MapReduce gồm các thủ tục: 1 Map() và 1 Reduce(). Thủ tục Map() lọc (filter) và phân loại (sort) trên dữ liệu trong khi thủ tục Reduce() thực hiện tổng hợp dữ liệu. Mô hình này dựa tre7m các khái niệm biến đổi của bản đồ và reduce các chức năng trong lập trình hướng chức năng. Thư viện thủ tục Map() và Reduce() được viết bằng nhiều ngôn ngữ. Cài đặt miễn phí, phổ biến nhất của MapReduce là Apache Hadoop.

What_is_MapReduce

Các thuận lợi của các thủ tục MapReduce

Nền tảng MapReduce thường gồm các máy chủ phân tán và nó chạy nhiều tác vụ khác nhau song song. Có nhiều thành phần quản lý việc giao tiếp giữa các nodes khác nhau của dữ liệu và cung cấp tính sẵn sàng cao và mức độ chịu lỗi. Chương trình được viết theo chức năng MapReduce đợc tự động được phân tán và thực thi song song trên các máy chủ. Nền tảng MapReduce quan tâm cả chi tiết của phân vùng dữ liệu và thực thi quá trình xử lý trên máy chủ phân tán lúc chạy. Trong khi xử lý nếu có lỗi, nền tảng cung cấp tính sẵn sàng cao và các node khác thực hiện thay thế nhiệm vụ của node bị lỗi.

Như bạn đã thấy toàn bộ nền tảng MapReduce cung cấp nhiều hơn là chỉ các thủ tục Map() và Reduce(); nó cũng cung cấp khả năng mở rộng và chịu lỗi. Cài đặt điển hình của nền tảng MapReduce xử lý nhiều petabytes dữ liệu và hàng ngàn máy chủ.

Nền tảng MapReduce hoạt động như thế nào?

Đây là giải thích cơ bản quy trình MapReduce dùng nhiều máy chủ.

Thủ tục Map()

Luôn có 1 master node trong hạ tầng để nhận đầu vào. Ngay sau master node là các sub-inputs / sub-problems. Các sub-problems được phân phối đến các worker nodes. Một worker node sau đó xử lý chúng. Một khi worker node hoàn thành xử lý với sub-problem, nó trả kết quả trở về master node.

Thủ tục Reduce()

Tất cả worker nodes trả kết quả của sub-problem đã gán cho chúng về master node. Master node thu thập kết quả và tổng hợp thành kết quả của vấn đề lớn (big problem) ban đầu đã được gán cho master node.

Nền tảng MapReduce thực hiện các thủ tục Map() và Reduce() ở trên song song và độc lập nhau. Tất cả thủ tục Map() có thể chạy song song và khi mỗi worker node hoàn thành tác vụ thì chúng gửi trở về master node. Thủ tục cụ thể này có thể rất hiệu quả khi nó được thực hiện trên một số lượng rất lớn dữ liệu (big data).

Nền tảng MapReduce có 5 bước khác nhau:

  • Chuẩn bị dữ liệu đầu vào cho Map()
  • Thực thi mã Map() được cung cấp bởi người dùng
  • Trộn dữ liệu xuất của Map vào Reduce Processor
  • Thực thi mã Reduce() được cung cấp bởi người dùng
  • Tạo dữ liệu xuất cuối cùng

Đây là luồng dữ liệu (dataflow) của nền tảng MapReduce:

  • Input Reader
  • Map Function
  • Partition Function
  • Compare Function
  • Reduce Function
  • Output Writer

MapReduce trong 1 câu đơn nhất

MapReduce tương đương với SELECT và GROUP BY của 1 cơ sở dữ liệu quan hệ cho 1 cơ sở dữ liệu rất lớn.

Bạn thấy bài viết này như thế nào?: 
Average: 4.5 (2 votes)
Ảnh của Tommy Tran

Tommy Tran owner Express Magazine

Drupal Developer having 9+ year experience, implementation and having strong knowledge of technical specifications, workflow development. Ability to perform effectively and efficiently in team and individually. Always enthusiastic and interseted to study new technologies

  • Skype ID: tthanhthuy
  • Phone/Zalo: (+84) 944 225 212
  • WhatsApp: (+84) 944 225 212
  • Line Messenger: (+84) 944 225 212
  • Email: asaleotestf@gmail.com
  • Telegram Messenger: https:/t.me/tommytran0401

Quảng cáo việc làm

 

Thích hợp các bạn nữ mảng thợ may làm việc tại nước NGA

Đơn hàng Tuyển dụng 100 Thợ may đi Nga(đợt 1 tháng 3.2021, đợt 2 tháng 5.2021). Lương thực lãnh 800 USD, bao ăn ở, vé máy bay và visa, phí xuất cảnh(1800 USD)trả khi đi làm có lương. Bạn có thể liên hệ CÔNG TY qua Phone/Zalo: (+84) 944 225 212. Công ty sẽ tư vấn cho bạn.

Xem chi tiết: >>> https://bit.ly/3o9NOfR

Tìm kiếm bất động sản

 

Advertisement

 

jobsora

Dich vu khu trung tphcm

Dich vu diet chuot tphcm

Dich vu diet con trung

Quảng Cáo Bài Viết

 
Google tạo Doodle kỷ niệm người đồng tạo ra vi chip

Google tạo Doodle kỷ niệm người đồng tạo ra vi chip

Robert Noyce, một nhà công nghệ tiên phong, người đồng tạo ra vi chip - được Google tôn vinh bằng một Doodle vào ngày 12/12/2011.

qua trinh thu tinh

Tìm hiểu quá trình thụ thai: Thiên thần nhỏ được tạo ra như thế nào?

Chắc hẳn bạn đã biết, quá trình thụ thai xảy ra khi tinh trùng kết hợp cùng tế bào trứng. Sự kết hợp này không hề đơn giản, thậm chí phải mất một khoảng thời gian khá dài tinh trùng mới có thể tiếp cận được trứng.

10 ứng dụng nằm top chỉnh sửa ảnh tốt nhất năm 2014 sắp tới

Bạn đang cần tìm một phần mềm chỉnh sửa ảnh để cài đặt trên máy tính nhưng không biết phần mềm nào mới là tốt và tốt ở điểm gì? Bài viết dưới đây là 10 ứng dụng chỉnh sửa ảnh tốt nhất năm 2014 được tạp chí uy tín toptenreviews.com công bố dựa theo kết quả bình chọn của người dùng trên khắp thế giới.