Giới thiệu những kiến thức cơ bản về Apache Hive

Giới thiệu những kiến thức cơ bản về Apache Hive

Như đã biết thuật ngữ “big data” được sử dụng để nói đến tập dữ liệu lớn trong đó hàng ngày nó gia tăng về cả khối lượng, tốc độ và đa dạng về kiểu dữ liệu. Việc quản lý và xử lý đống dữ liệu này tạo ra một thách thức vô cùng lớn.Và Apache đã tạo ra một framework để quản lý và xử lý các thách thức mà big data mang lại, đó là Hadoop.

Hadoop có thể hiểu là một framework mã nguồn mở sử dụng để lưu trữ và xử lý dữ liệu lớn. Nó bao gồm hai thành phần chính là: MapReduct và HDFS (Hadoop Distributed File System)

  • MapReduce: Đây là một mô hình lập trình song song, nó xử lý dữ liệu có cấu trúc, bán cấu trúc, và không có cấu trúc.
  • HDFS: Hệ thống HDFS là nơi được sử dụng để lưu trữ và xử lý dữ liệu.

Câu hỏi đặt ra lúc này là: Làm thế nào để làm việc với hadoop? Tất nhiên là apache cũng cung cấp cho chúng ta các công cụ để có thể làm việc được với hadoop một cách dễ dàng nhất. Sqoop, Pig, Hive là các công cụ đó.

  • Sqoop: Dùng để chuyển đổi dữ liệu qua lại giữa RDBMS(dữ liệu quan hệ) với HDFS.
  • Pig: nền tảng là ngôn ngữ thủ tục được sử dụng để phát triển một kịch bản cho các hoạt động MapReduce.
  • Hive: Nền tảng là SQL script để làm hoạt động MapReduce.

Việc có nhiều các công cụ để làm việc với Hadoop cũng đặt cho chúng ta một câu hỏi là. Khi nào thì sử dụng Sqoop, pig, Hive. Câu trả lời là chúng ta sẽ lựa chọn chúng dựa trên dữ liệu phân tích. Với những dữ có cấu trúc rõ ràng thì Hive là lựa chọn tốt. Với những dữ liệu có cấu trúc và bán cấu trúc thì Pig sẽ dễ dàng tếp cận trong việc tạo kịch bản cho MapReduce. Còn với những dữ liệu đa dạng(có cấu trúc, bán cấu trúc, phi cấu trúc) thì các tiếp cận là tạo trương trình Java MapReduce truyền thống.

Cơ bản về Hive

    Hive là một kho dữ liệu (data warehouse)  xử lý các dữ liệu dạng cấu trúc trên nền tảng hadoop. Sử dụng hive để tổng hợp, tạo truy vấn và phân tích dữ liệu một cách dễ dàng mà không cần phải hiểu nhiều về MapReduce.

Kiến trúc của Apache Hive

  • Interface: Hive cung cấp một giao diện web để tương tác với hdfs. Tương tác command line.
  • Meta store: Lưu thông tin cơ bản về cấu trúc dữ liệu. Các thông tin gồm ID của database (schema), ID của table, ID của index, định dạng của table, ...
  • Hive QL: Tương tự như SQL, dùng để truy vấn dữ liệu dựa trên thông tin metastore cung cấp. Đây là phương pháp thay thế cho việc phải viết trương trình mapreduce truyền thống.
  • Execution Engine: Chuyển hóa các lệnh Hive QL thành MapReduce
  • HDFS: lưu trữ dữ liệu.

Flow hoạt động của apache hive

Trong bài tiếp theo mình sẽ giới thiệu về việc làm sao để cài đặt Apache Hive trên hệ điều hành linux

Bạn thấy bài viết này như thế nào?: 
Average: 4.5 (2 votes)
Ảnh của Tommy Tran

Tommy owner Express Magazine

Drupal Developer having 9+ year experience, implementation and having strong knowledge of technical specifications, workflow development. Ability to perform effectively and efficiently in team and individually. Always enthusiastic and interseted to study new technologies

  • Skype ID: tthanhthuy

Tìm kiếm bất động sản

 

Advertisement

 

jobsora

Dich vu khu trung tphcm

Dich vu diet chuot tphcm

Dich vu diet con trung

Quảng Cáo Bài Viết

 
Phân tích Drupal 8 Plugins, là một concept hoàn toàn mới

Phân tích Drupal 8 Plugins, là một concept hoàn toàn mới

Plugins are a new concept in Drupal 8 that will be important for any aspiring Drupal 8 module developer to understand. Some common use cases where you'll encounter plugins are defining custom blocks

Khuyên bạn nên sử dụng 15 Outstanding Drupal Modules

Khuyên bạn nên sử dụng 15 Outstanding Drupal Modules

Drupal is a (CMS) any web developer should get to know. It is in my opinion the best open source CMS available at the moment, and it has a huge community of contributors

Công cụ cho người phát triển Drupal

Những module cần thiết cho người phát triển Drupal site

Drupal là một khung sườn phát triển phần mềm hướng module, một hệ thống quản trị nội dung miễn phí và mã nguồn mở hàng đầu hiện nay.

Công ty diệt chuột T&C

 

Diet con trung