Giới thiệu những kiến thức cơ bản về Apache Hive

Giới thiệu những kiến thức cơ bản về Apache Hive

Như đã biết thuật ngữ “big data” được sử dụng để nói đến tập dữ liệu lớn trong đó hàng ngày nó gia tăng về cả khối lượng, tốc độ và đa dạng về kiểu dữ liệu. Việc quản lý và xử lý đống dữ liệu này tạo ra một thách thức vô cùng lớn.Và Apache đã tạo ra một framework để quản lý và xử lý các thách thức mà big data mang lại, đó là Hadoop.

Hadoop có thể hiểu là một framework mã nguồn mở sử dụng để lưu trữ và xử lý dữ liệu lớn. Nó bao gồm hai thành phần chính là: MapReduct và HDFS (Hadoop Distributed File System)

  • MapReduce: Đây là một mô hình lập trình song song, nó xử lý dữ liệu có cấu trúc, bán cấu trúc, và không có cấu trúc.
  • HDFS: Hệ thống HDFS là nơi được sử dụng để lưu trữ và xử lý dữ liệu.

Câu hỏi đặt ra lúc này là: Làm thế nào để làm việc với hadoop? Tất nhiên là apache cũng cung cấp cho chúng ta các công cụ để có thể làm việc được với hadoop một cách dễ dàng nhất. Sqoop, Pig, Hive là các công cụ đó.

  • Sqoop: Dùng để chuyển đổi dữ liệu qua lại giữa RDBMS(dữ liệu quan hệ) với HDFS.
  • Pig: nền tảng là ngôn ngữ thủ tục được sử dụng để phát triển một kịch bản cho các hoạt động MapReduce.
  • Hive: Nền tảng là SQL script để làm hoạt động MapReduce.

Việc có nhiều các công cụ để làm việc với Hadoop cũng đặt cho chúng ta một câu hỏi là. Khi nào thì sử dụng Sqoop, pig, Hive. Câu trả lời là chúng ta sẽ lựa chọn chúng dựa trên dữ liệu phân tích. Với những dữ có cấu trúc rõ ràng thì Hive là lựa chọn tốt. Với những dữ liệu có cấu trúc và bán cấu trúc thì Pig sẽ dễ dàng tếp cận trong việc tạo kịch bản cho MapReduce. Còn với những dữ liệu đa dạng(có cấu trúc, bán cấu trúc, phi cấu trúc) thì các tiếp cận là tạo trương trình Java MapReduce truyền thống.

Cơ bản về Hive

    Hive là một kho dữ liệu (data warehouse)  xử lý các dữ liệu dạng cấu trúc trên nền tảng hadoop. Sử dụng hive để tổng hợp, tạo truy vấn và phân tích dữ liệu một cách dễ dàng mà không cần phải hiểu nhiều về MapReduce.

Kiến trúc của Apache Hive

  • Interface: Hive cung cấp một giao diện web để tương tác với hdfs. Tương tác command line.
  • Meta store: Lưu thông tin cơ bản về cấu trúc dữ liệu. Các thông tin gồm ID của database (schema), ID của table, ID của index, định dạng của table, ...
  • Hive QL: Tương tự như SQL, dùng để truy vấn dữ liệu dựa trên thông tin metastore cung cấp. Đây là phương pháp thay thế cho việc phải viết trương trình mapreduce truyền thống.
  • Execution Engine: Chuyển hóa các lệnh Hive QL thành MapReduce
  • HDFS: lưu trữ dữ liệu.

Flow hoạt động của apache hive

Trong bài tiếp theo mình sẽ giới thiệu về việc làm sao để cài đặt Apache Hive trên hệ điều hành linux

Bạn thấy bài viết này như thế nào?: 
Average: 4.5 (2 votes)
Ảnh của Tommy Tran

Tommy Tran owner Express Magazine

Drupal Developer having 9+ year experience, implementation and having strong knowledge of technical specifications, workflow development. Ability to perform effectively and efficiently in team and individually. Always enthusiastic and interseted to study new technologies

  • Skype ID: tthanhthuy
  • Phone/Zalo: (+84) 944 225 212
  • WhatsApp: (+84) 944 225 212
  • Line Messenger: (+84) 944 225 212
  • Email: [email protected]
  • Telegram Messenger: https:/t.me/tommytran0401

Quảng cáo việc làm

 

Thích hợp các bạn nữ mảng thợ may làm việc tại nước NGA

Đơn hàng Tuyển dụng 100 Thợ may đi Nga(đợt 1 tháng 3.2021, đợt 2 tháng 5.2021). Lương thực lãnh 800 USD, bao ăn ở, vé máy bay và visa, phí xuất cảnh(1800 USD)trả khi đi làm có lương. Bạn có thể liên hệ CÔNG TY qua Phone/Zalo: (+84) 944 225 212. Công ty sẽ tư vấn cho bạn.

Xem chi tiết: >>> https://bit.ly/3o9NOfR

Tìm kiếm bất động sản

 

Advertisement

 

jobsora

Dich vu khu trung tphcm

Dich vu diet chuot tphcm

Dich vu diet con trung

Quảng Cáo Bài Viết

 
27 câu hỏi và câu trả lời từ my first Drupal 8 Building site demo

27 câu hỏi và câu trả lời từ my first Drupal 8 Building site demo

Without the ability to Google my Drupal 8 questions, I had to figure out things by intuition, and by analogy with other components

Một số điểm cơ bản về cơ chế tấn công SQL Injection và DDoS

Một số điểm cơ bản về cơ chế tấn công SQL Injection và DDoS

Trong phần lớn người sử dụng chúng ta, chắc hẳn nhiều người đã nghe nói tới khái niệm tấn công, chiếm quyền điều khiển website bằng phương pháp SQL Injection ...

Drupal 8 Now: Sử dụng Composer dependencies trong Drupal 7

Drupal 8 Now: Sử dụng Composer dependencies trong Drupal 7

Using namespaces and the PSR-0/4 standard creates a clean and simple way of sharing code across projects. This is a core part of the Drupal 8 architecture.

Wordpress Freelancer

 

Wordpress Freelancer