Bắt đầu làm quen với Big Data - What and Why

Bắt đầu làm quen với Big Data - What and Why

Chào các bạn, mình là Hải, lĩnh vực chuyên môn của mình là xây dựng các ứng dụng trên nền tảng Web (Web application development). Mình cũng chỉ mới bắt đầu tìm hiểu và làm việc với Big Data cách đây khoảng 1 năm do nhu cầu công việc và cũng là do sự yêu thích tìm hiểu những công nghệ mới. Big Data là một lĩnh vực hoàn toàn mới đối với một developer như mình, bắt buộc mình phải thay đổi cách nhìn về một hệ thống thông tin, kỹ thuật xử lý dữ liệu truyền thống quen thuộc. Vì là một lĩnh vực mới nên khi tìm hiểu & tiếp cận, nhóm mình đã gặp phải không ít khó khăn. Mình viết một số bài về Big Data trên blog vừa là để chia sẻ, vừa là để tổng hợp lại các vấn đề đã tìm hiểu được để bản thân cũng có cái nhìn khái quát hơn. Có gì sai sót hy vọng các bạn hãy comment để cùng trao đổi kỹ hơn.

Để trình bày một vấn đề gì đó mình có thói quen dùng quy tắc 5W1H (What, When, Where, Who, Why & How) làm xương sống để diễn đạt, vì thế, với bài đầu tiên về Big Data này mình cũng xin được dùng quy tắc này để giải thích.

1) What: Big Data là gì?

Khái niệm Big Data là gì theo mình không phải là quan trọng so với việc người ta có thể dùng Big Data vào việc gì và dùng nó như thế nào. Tuy nhiên, để bắt đầu với Big Data thì bạn cũng nên biết Big Data là gì chứ nhỉ. Một chút thôi cũng được.

Tìm kiếm với từ khoá “Big Data là gì?” trên google thì chắc chắn sẽ ra nhiều kết quả khác nhau, nhưng định nghĩa sau mình thấy là phù hợp nhất:

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và/hoặc rất phức tạp đến nỗi những công cụ, kỹ thuật xử lý dữ liệu truyền thống không thể nào đảm đương được.

Nói đến Big Data người ta thường nói có 4 chữ V thể hiện đặc trưng của Big Data. 4V đó là:

- Volume:

là sự tăng trưởng về mặt khối lượng. Dữ liệu trong các hệ thống thông tin luôn luôn và không ngừng tăng lên về mặt kích thước (khối lượng). Chúng ta có thể tìm thấy dữ liệu trong các định dạng video, music, image lớn trên các kênh truyền thông xã hội. Khối lượng dữ liệu của một hệ thống thông tin có thể lên đến hàng Terabyte và Petabyte.

- Velocity:

là sự tăng trưởng về mặt tốc độ. Bên cạnh sự tăng trưởng về khối lượng, tốc độtăng trưởng của dữ liệu cũng tăng lên một cách chóng mặt. Một ví dụ đơn giản là trên các mạng xã hội đôi khi các thông báo cách đó vài giây (tweet, status,….) đã là cũ và không được người dùng quan tâm. Người dùng thường loại bỏ các tin nhắn cũ và chỉ chú ý đến các cập nhật gần nhất. Sự chuyển động của dữ liệu bây giờ hầu như là thực tế (real time) và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây.

- Variety:

là sự tăng lên về tính đa dạng của dữ liệu. Dữ liệu không chỉ ở dạng có cấu trúc, mà còn bao gồm rất nhiều kiểu dữ liệu phi cấu trúc nữa như video, hình ảnh, dữ liệu cảm biến, cũng như các file log. Dữ liệu của một doanh nghiệp hay một hệ thống thông tin ngày nay không còn đơn giản chỉ có một hoặc một vài loại dữ liệu nữa, mà tính đa dạng của nó cũng đang ngày càng tăng lên làm cho tính phức tạp của dữ liệu ngày càng phức tạp hơn.

- Veracity:

là tính xác thực của dữ liệu. Với xu hướng Social ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big Data.

Big Data - 4V

Bốn chữ V - Đặc trưng của Big Data

Đến đây, chắc nhiều bạn sẽ có câu hỏi là “Vậy dữ liệu lớn đến cỡ nào thì được coi là Big Data?”. Câu trả lời là tuỳ vào dữ liệu của bạn. Có những dữ liệu kích thước nhỏ nhưng mà lại là “lớn", và cũng có những dữ liệu kích thước lớn mà lại là “nhỏ". Ví dụ, hệ thống của bạn hoạt động trong vòng 10 năm và tạo ra các file log, các file này đơn thuần là các file text ghi lại các thao tác của người dùng chẳng hạn. Tổng dung lượng của các file text có thể chỉ là 100GB (kích thước nhỏ) nhưng nó lại là “lớn" để tiến hành phân tích, do đó có thể coi đó là một ngưồn Big Data. Ngược lại bạn có thể có 1000 file video, mỗi file kích thước khoảng 20GB, tổng cộng bạn có khoảng 20TB dữ liệu (kích thước lớn), nhưng nó lại là nhỏ khi tiến hành phân tích và không phải là Big Data. 

2) Why: Tại sao cần đến Big Data?

Big Data làm được gì hay Tại sao lại cần đến Big Data chắc chắn là một câu hỏi được nhiều người quan tâm. Tập đoàn SAS có nêu lên rằng vấn đề của Big Data thật sự không nằm ở việc bạn thu thập dữ liệu như thế nào, mà thay vào đó, là bạn dùng Big Data để làm gì. Nhìn chung, có bốn lợi ích mà Big Data có thể mang lại đó là: cắt giảm chi phí, giảm thời gian, tăng thời gian phát triển và tối ưu hóa sản phẩm, đồng thời hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn.

Một ví dụ cụ thể: nếu để ý một chút, bạn sẽ thấy khi mua sắm online trên eBay, Amazon hoặc những trang tương tự, trang này cũng sẽ đưa ra những sản phẩm gợi ý tiếp theo cho bạn, ví dụ khi xem điện thoại, nó sẽ gợi ý cho bạn mua thêm ốp lưng, pin dự phòng; hoặc khi mua áo thun thì sẽ có thêm gợi ý quần jean, dây nịt… Do đó, việc nghiên cứu được sở thích, thói quen của khách hàng cũng gián tiếp giúp doanh nghiệp bán được nhiều hàng hóa hơn.

Vậy những thông tin về thói quen, sở thích này có được từ đâu? Chính là từ lượng dữ liệu khổng lồ mà các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác một cách có hiệu quả Big Data thì nó không chỉ giúp tăng lợi nhuận cho chính họ mà còn tăng trải nghiệm mua sắm của người dùng, chúng ta có thể tiết kiệm thời gian hơn nhờ những lời gợi ý so với việc phải tự mình tìm kiếm.

Xa hơi một chút, ứng dụng được Big Data có thể giúp các tổ chức, chính phủ dự đoán được tỉ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, v/v… thậm chí là ra phương án phòng ngừa trước một dịch bệnh nào đó, giống như trong phim World War Z, nước Israel đã biết trước có dịch zombie nên đã nhanh chóng xây tường thành ngăn cách với thế giới bên ngoài.

Mà cũng không cần nói đến tương lai phim ảnh gì cả, vào năm 2009, Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1 đấy thôi. Dịch vụ này có tên là Google Flu Trends. Xu hướng mà Google rút ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là rất sát với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần như theo thời gian thực và sau đó sẽ được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới.

Google Flu Trends

Đường màu xanh là dự đoán của Google Flu Trends dựa trên số từ khóa tìm kiếm liên quan đến các dịch cúm, màu vàng là dữ liệu do cơ quan phòng chống dịch của Mỹ đưa ra

Còn theo Oracle, việc phân tích Big Data và những dữ liệu dung lượng lớn đã giúp các tổ chức kiếm được 10,66$ cho mỗi 1$ chi phí phân tích, tức là gấp 10 lần! Một trường học ở một quận lớn tại Mỹ cũng có được sự tăng trưởng doanh thulà 8 triệu USD mỗi năm, còn một công ty tài chính ẩn danh khác thì tăng 1000% lợi nhuận trên tổng số tiền đầu tư của mình trong vòng 3 năm.

Một ví dụ kinh điển nữa là trong chiến dịch tái tranh cử của Tổng thống Mỹ Barack Obama năm 2012, người ta đã cho rằng ông trúng cử là nhờ đã khai thác tối đa hiệu ứng của mạng xã hội và hiệu quả của việc phân tích dữ liệu lớn - Big Data. Hay như năm 2014, đội tuyển quốc gia Đức đã vô địch World Cup cũng là một phần nhờ vào công nghệ Big Data với phân tích lượng dữ liệu khổng lồ về các cầu thủ thuộc đội nhà cũng như đối phương, sau đó chuyển đổi sang dạng đồ thị và môi trường mô phỏng để có thể xem trực tiếp trên tablet hay smartphone.

Bạn thấy bài viết này như thế nào?: 
Average: 5 (1 vote)
Ảnh của Tommy Tran

Tommy Tran owner Express Magazine

Drupal Developer having 9+ year experience, implementation and having strong knowledge of technical specifications, workflow development. Ability to perform effectively and efficiently in team and individually. Always enthusiastic and interseted to study new technologies

  • Skype ID: tthanhthuy
  • Phone/Zalo: (+84) 944 225 212
  • WhatsApp: (+84) 944 225 212
  • Line Messenger: (+84) 944 225 212
  • Email: [email protected]
  • Telegram Messenger: https:/t.me/tommytran0401

Tìm kiếm bất động sản

 

Quảng cáo việc làm

 

Thích hợp các bạn nữ mảng thợ may làm việc tại nước NGA

Đơn hàng Tuyển dụng 100 Thợ may đi Nga(đợt 1 tháng 3.2021, đợt 2 tháng 5.2021). Lương thực lãnh 800 USD, bao ăn ở, vé máy bay và visa, phí xuất cảnh(1800 USD)trả khi đi làm có lương. Bạn có thể liên hệ CÔNG TY qua Phone/Zalo: (+84) 944 225 212. Công ty sẽ tư vấn cho bạn.

Xem chi tiết: >>> https://bit.ly/3o9NOfR

Advertisement

 

jobsora

Dich vu khu trung tphcm

Dich vu diet chuot tphcm

Dich vu diet con trung

Quảng Cáo Bài Viết

 

30 ví dụ về quảng cáo in thông minh

Quảng cáo in phải thực sự bắt mắt và hấp dẫn thì mới thu hút được sự chú ý của người xem. Trong bài này bạn sẽ thấy một số ví dụ về quảng cáo thông minh và những thông điệp khéo léo mà các quảng cáo này thể hiện.

Chính phủ Mỹ "sờ gáy" Facebook vì vấn đề bảo mật

Chính phủ Mỹ sờ gáy Facebook vì vấn đề bảo mật

Facebook đang phải tiến hành những cuộc đàm phán với chính phủ Mỹ về việc sử dụng thông tin cá nhân người dùng trên mạng xã nội này. Theo thông tin nội bộ, chính phủ yêu cầu Facebook phải nhận được sự đồng ý của người sử dụng trước khi hãng thay đổi những điều khoản quan trọng trong chính sách bảo mật. Điều đó có nghĩa việc người dùng cho phép chia sẻ thông tin của mình là một chuyện, việc Facebook sử dụng thông tin đó như thế nào lại là một chuyện khác.

Giới thiệu tổng quan Drupal 8 services năm 2015

Giới thiệu tổng quan Drupal 8 services năm 2015

In this post we’ll look at a simple way to override services using aliases

Wordpress Freelancer

 

Wordpress Freelancer