Giới thiệu những kiến thức cơ bản về Apache Hive

Giới thiệu những kiến thức cơ bản về Apache Hive

Như đã biết thuật ngữ “big data” được sử dụng để nói đến tập dữ liệu lớn trong đó hàng ngày nó gia tăng về cả khối lượng, tốc độ và đa dạng về kiểu dữ liệu. Việc quản lý và xử lý đống dữ liệu này tạo ra một thách thức vô cùng lớn.Và Apache đã tạo ra một framework để quản lý và xử lý các thách thức mà big data mang lại, đó là Hadoop.

Hadoop có thể hiểu là một framework mã nguồn mở sử dụng để lưu trữ và xử lý dữ liệu lớn. Nó bao gồm hai thành phần chính là: MapReduct và HDFS (Hadoop Distributed File System)

  • MapReduce: Đây là một mô hình lập trình song song, nó xử lý dữ liệu có cấu trúc, bán cấu trúc, và không có cấu trúc.
  • HDFS: Hệ thống HDFS là nơi được sử dụng để lưu trữ và xử lý dữ liệu.

Câu hỏi đặt ra lúc này là: Làm thế nào để làm việc với hadoop? Tất nhiên là apache cũng cung cấp cho chúng ta các công cụ để có thể làm việc được với hadoop một cách dễ dàng nhất. Sqoop, Pig, Hive là các công cụ đó.

  • Sqoop: Dùng để chuyển đổi dữ liệu qua lại giữa RDBMS(dữ liệu quan hệ) với HDFS.
  • Pig: nền tảng là ngôn ngữ thủ tục được sử dụng để phát triển một kịch bản cho các hoạt động MapReduce.
  • Hive: Nền tảng là SQL script để làm hoạt động MapReduce.

Việc có nhiều các công cụ để làm việc với Hadoop cũng đặt cho chúng ta một câu hỏi là. Khi nào thì sử dụng Sqoop, pig, Hive. Câu trả lời là chúng ta sẽ lựa chọn chúng dựa trên dữ liệu phân tích. Với những dữ có cấu trúc rõ ràng thì Hive là lựa chọn tốt. Với những dữ liệu có cấu trúc và bán cấu trúc thì Pig sẽ dễ dàng tếp cận trong việc tạo kịch bản cho MapReduce. Còn với những dữ liệu đa dạng(có cấu trúc, bán cấu trúc, phi cấu trúc) thì các tiếp cận là tạo trương trình Java MapReduce truyền thống.

Cơ bản về Hive

    Hive là một kho dữ liệu (data warehouse)  xử lý các dữ liệu dạng cấu trúc trên nền tảng hadoop. Sử dụng hive để tổng hợp, tạo truy vấn và phân tích dữ liệu một cách dễ dàng mà không cần phải hiểu nhiều về MapReduce.

Kiến trúc của Apache Hive

  • Interface: Hive cung cấp một giao diện web để tương tác với hdfs. Tương tác command line.
  • Meta store: Lưu thông tin cơ bản về cấu trúc dữ liệu. Các thông tin gồm ID của database (schema), ID của table, ID của index, định dạng của table, ...
  • Hive QL: Tương tự như SQL, dùng để truy vấn dữ liệu dựa trên thông tin metastore cung cấp. Đây là phương pháp thay thế cho việc phải viết trương trình mapreduce truyền thống.
  • Execution Engine: Chuyển hóa các lệnh Hive QL thành MapReduce
  • HDFS: lưu trữ dữ liệu.

Flow hoạt động của apache hive

Trong bài tiếp theo mình sẽ giới thiệu về việc làm sao để cài đặt Apache Hive trên hệ điều hành linux

Bạn thấy bài viết này như thế nào?: 
Average: 4.5 (2 votes)
Ảnh của Tommy Tran

Tommy owner Express Magazine

Drupal Developer having 9+ year experience, implementation and having strong knowledge of technical specifications, workflow development. Ability to perform effectively and efficiently in team and individually. Always enthusiastic and interseted to study new technologies

  • Skype ID: tthanhthuy

Tìm kiếm bất động sản

 

Advertisement

 

jobsora

Dich vu khu trung tphcm

Dich vu diet chuot tphcm

Dich vu diet con trung

Quảng Cáo Bài Viết

 
Tối ưu hóa hiệu ứng KDE cho Desktop

Tối ưu hóa hiệu ứng KDE cho Desktop

KDE (chữ viết tắt của K Desktop Environment) là một môi trường màn hình nền hiện đại trên các máy vi tính chạy dưới hệ điều hành UNIX/Linux

Review of the Samsung Galaxy S II

Review of the Samsung Galaxy S II

The Samsung Galaxy S II is a very stylish smart phone.  From the moment I held it in my hands; I fell in love with it. It totally looks amazing.

Foxconn

Foxconn mua lại 9% cổ phần của GoPro với giá 200 triệu USD

Foxconn là một trong những công ty sản xuất linh kiện điện tử và gia công hàng đầu trên thế giới. Để mở rộng thị trường kinh doanh của mình Foxconn vừa tuyên bố đã mua lại 9% cổ phần của công ty GoPro với giá 200 triệu USD.

Công ty diệt chuột T&C

 

Diet con trung