Ngày 4 - học về cơ bản về kiến trúc Big Data

Ngày 4 - học về cơ bản về kiến trúc Big Data

Chu kỳ của Big Data

Cũng giống các ứng dụng liên quan đến cơ sở dữ liệu khác, dự án big data cũng có chu kỳ phát triển của nó. 3Vs đóng vai trò quan trọng trong việc quyết định kiến trúc của dự án big data. Dự án big data cũng có các phase như data capturing, transforming, integrating, analyzing và building actionable reporting.

Các quá trình này trông gần như giống nhau, nhưng do bản chất của dữ liệu, kiến trúc thường là hoàn toàn khác nhau. Dưới đây là vài câu hỏi mà tất cả mọi người nên hỏi trước khi bắt đầu với kiến trúc big data.

Các câu hỏi đặt ra

  •  Tổng số database của bạn bao nhiêu thì là lớn?
  • Yêu cầu của bạn về thời gian trong các báo cáo là gì – thời gian thực (real time), bán thời gian thực (semi real time) hay thời gian thường xuyên (frequent interval)?
  • Tính sẵn sàng của dữ liệu quan trọng như thế nào và kế hoạch khôi phục thảm họa (disaster recovery) là gì?
  •  Kế hoạch bảo mật cho mạng và phần cứng dùng cho dữ liệu là gì?
  •  Nền tảng gì sẽ là động lực đằng sau dữ liệu?

Đây chỉ là những câu hỏi cơ bản, nhưng dựa trên nhu cầu của ứng dụng và kinh doanh, bạn điều chỉnh các câu hỏi. Các câu hỏi này trông khá đơn giản nhưng câu trả lời thì không đơn giản. Khi chúng ta đang nói về cài đặt dữ liệu lớn, có nhiều khía cạnh quan trọng khác phải xem xét khi quyết định kiến trúc.

Các thành phần của kiến trúc Big Data

Hoàn toàn không thể đưa ra giải pháp tối ưu nhất cho bất kỳ giải pháp big data nào trong 1 bài viết duy nhất, tuy nhiên, chúng ta có thể nói về các khối xây dựng cơ bản trong kiến trúc big data.

BigData_Architecture

Hình ảnh trên cho chúng ta cái nhìn tổng quan tốt về cách các thành phần khác nhau trong kiến trúc big data tương tác lẫn nhau. Trong big data, các nguồn dữ liệu khác nhau là 1 phần của kiến trúc do đó extract, transform và integration là 1 trong những lớp quan trọng nhất của kiến trúc. Hầu hết các dữ liệu được lưu trữ trong quan hệ cũng như không quan hệ và các giải pháp data warehousing. Theo nhu cầu kinh doanh, các dữ liệu khác nhau (various) được xử lý và chuyển thành báo cáo trực quan với người dùng. Cũng giống như phần mềm, phần cứng cũng là phần quan trọng nhất của kiến trúc big data. Trong kiến trúc big data, hạ tầng phần cứng vô cùng quan trọng và cần phải cài đặt ngăn chặn lỗi xảy ra, đảm bảo high availability và DR.

NoSQL trong quản lý dữ liệu

NoSQL là 1 thuật ngữ rất nổi tiếng và nó thật sự có ý nghĩa là Not Relational SQL hay Not Only SQL. Điều này là do trong kiến trúc big data, dữ liệu ở định dạng bất kỳ. Để mang tất cả dữ liệu cùng nhau thì công nghệ mối quan hệ là không đủ, do các công cụ mới, kiến trúc và các thuật toán khác được phát minh sẽ nhận tất cả các loại dữ liệu. Những điều này được gọi chung là NoSQL.

Bạn thấy bài viết này như thế nào?: 
Average: 5 (2 votes)
Ảnh của Tommy Tran

Tommy owner Express Magazine

Drupal Developer having 9+ year experience, implementation and having strong knowledge of technical specifications, workflow development. Ability to perform effectively and efficiently in team and individually. Always enthusiastic and interseted to study new technologies

  • Skype ID: tthanhthuy

Tìm kiếm bất động sản

 

Advertisement

 

jobsora

Dich vu khu trung tphcm

Dich vu diet chuot tphcm

Dich vu diet con trung

Quảng Cáo Bài Viết

 
Google adsence

Những điều cần tránh khi kiếm tiền với Google Adsense

Khi trang web bạn đã có traffic, có thứ hạng cao trên bộ máy tìm kiếm thì bạn có thể kiếm tiền từ nhiều nguồn khác nhau không chỉ riêng gì Google Adsense. Nhưng ai cũng biết một điều, Google Adsense là công ty trả tiền tốt nhất tại thời điểm hiện tại. Tuy nhiên không phải website với nội dung nào cũng được Google Adsense chấp nhận. Để tránh tình trạng không đăng ký được Google Adsense hoặc bị disable ads, ban account, bạn phải theo đúng quy định của họ.

blogspot

Cộng đồng Blogger Việt điêu đứng vì Blogspot bị chặn tại Việt Nam

Những ngày gần đây, cộng đồng blogger Việt lại một phen điêu đứng trước việc các nhà mạng trong nước liên tục chặn dịch vụ này và gần như các trang sử dụng blogspot dạng subdomain.blogspot.com không thể truy cập và nếu có cũng phải dùng proxies hay công cụ của bên thứ 3 hoặc ít nhất phải dùng domain riêng. Đây có thể là một thực tế đã được dự báo trước?

Creating Printer-friendly Versions of Drupal Articles

Tạo Printer-friendly trong Drupal Articles

In this tutorial we'll show you how to add a "Print This Page" button to Drupal. The main reason you'd want to do this is as a courtesy for your readers. Many still print things they read online and you don't want them to waste that expensive printer ink just to print your logo and theme as well as the article.

Công ty diệt chuột T&C

 

Diet con trung