Giới thiệu những kiến thức cơ bản về Apache Hive

Giới thiệu những kiến thức cơ bản về Apache Hive

Như đã biết thuật ngữ “big data” được sử dụng để nói đến tập dữ liệu lớn trong đó hàng ngày nó gia tăng về cả khối lượng, tốc độ và đa dạng về kiểu dữ liệu. Việc quản lý và xử lý đống dữ liệu này tạo ra một thách thức vô cùng lớn.Và Apache đã tạo ra một framework để quản lý và xử lý các thách thức mà big data mang lại, đó là Hadoop.

Hadoop có thể hiểu là một framework mã nguồn mở sử dụng để lưu trữ và xử lý dữ liệu lớn. Nó bao gồm hai thành phần chính là: MapReduct và HDFS (Hadoop Distributed File System)

  • MapReduce: Đây là một mô hình lập trình song song, nó xử lý dữ liệu có cấu trúc, bán cấu trúc, và không có cấu trúc.
  • HDFS: Hệ thống HDFS là nơi được sử dụng để lưu trữ và xử lý dữ liệu.

Câu hỏi đặt ra lúc này là: Làm thế nào để làm việc với hadoop? Tất nhiên là apache cũng cung cấp cho chúng ta các công cụ để có thể làm việc được với hadoop một cách dễ dàng nhất. Sqoop, Pig, Hive là các công cụ đó.

  • Sqoop: Dùng để chuyển đổi dữ liệu qua lại giữa RDBMS(dữ liệu quan hệ) với HDFS.
  • Pig: nền tảng là ngôn ngữ thủ tục được sử dụng để phát triển một kịch bản cho các hoạt động MapReduce.
  • Hive: Nền tảng là SQL script để làm hoạt động MapReduce.

Việc có nhiều các công cụ để làm việc với Hadoop cũng đặt cho chúng ta một câu hỏi là. Khi nào thì sử dụng Sqoop, pig, Hive. Câu trả lời là chúng ta sẽ lựa chọn chúng dựa trên dữ liệu phân tích. Với những dữ có cấu trúc rõ ràng thì Hive là lựa chọn tốt. Với những dữ liệu có cấu trúc và bán cấu trúc thì Pig sẽ dễ dàng tếp cận trong việc tạo kịch bản cho MapReduce. Còn với những dữ liệu đa dạng(có cấu trúc, bán cấu trúc, phi cấu trúc) thì các tiếp cận là tạo trương trình Java MapReduce truyền thống.

Cơ bản về Hive

    Hive là một kho dữ liệu (data warehouse)  xử lý các dữ liệu dạng cấu trúc trên nền tảng hadoop. Sử dụng hive để tổng hợp, tạo truy vấn và phân tích dữ liệu một cách dễ dàng mà không cần phải hiểu nhiều về MapReduce.

Kiến trúc của Apache Hive

  • Interface: Hive cung cấp một giao diện web để tương tác với hdfs. Tương tác command line.
  • Meta store: Lưu thông tin cơ bản về cấu trúc dữ liệu. Các thông tin gồm ID của database (schema), ID của table, ID của index, định dạng của table, ...
  • Hive QL: Tương tự như SQL, dùng để truy vấn dữ liệu dựa trên thông tin metastore cung cấp. Đây là phương pháp thay thế cho việc phải viết trương trình mapreduce truyền thống.
  • Execution Engine: Chuyển hóa các lệnh Hive QL thành MapReduce
  • HDFS: lưu trữ dữ liệu.

Flow hoạt động của apache hive

Trong bài tiếp theo mình sẽ giới thiệu về việc làm sao để cài đặt Apache Hive trên hệ điều hành linux

Bạn thấy bài viết này như thế nào?: 
Average: 4.5 (2 votes)
Ảnh của Tommy Tran

Tommy owner Express Magazine

Drupal Developer having 9+ year experience, implementation and having strong knowledge of technical specifications, workflow development. Ability to perform effectively and efficiently in team and individually. Always enthusiastic and interseted to study new technologies

  • Skype ID: tthanhthuy

Tìm kiếm bất động sản

 

Advertisement

 

jobsora

Dich vu khu trung tphcm

Dich vu diet chuot tphcm

Dich vu diet con trung

Quảng Cáo Bài Viết

 
5 lý do để register for Drupal Dev Days tại Szeged

5 lý do để register for Drupal Dev Days tại Szeged

As you may have heard, Drupal Dev Days is going back to DrupalCon Europe 2008's host town Szeged, Hungary on March 24th to 30th, 2014!

 Năm 2012 MacBook Pro sẽ được thiết kế lại để giống như MacBook Air?

Năm 2012 MacBook Pro sẽ được thiết kế lại để giống như MacBook Air?

Apple hiện đang có một kế hoạch để thiết kế lại máy tính xách tay MacBook Pro và có thể nó sẽ lấy cảm hứng từ gia đình MacBook Air.

Sinh viên học online trong đại dịch

Covid-19 đang thúc đẩy phương pháp học tập linh hoạt ở các trường trên thế giới

Covid-19 đang thúc đẩy phương pháp học tập linh hoạt ở các trường đại học trên thế giới.

Tomdesgin.vn

 

Drupal Services