Bắt đầu làm quen với Big Data - What and Why

Bắt đầu làm quen với Big Data - What and Why

Chào các bạn, mình là Hải, lĩnh vực chuyên môn của mình là xây dựng các ứng dụng trên nền tảng Web (Web application development). Mình cũng chỉ mới bắt đầu tìm hiểu và làm việc với Big Data cách đây khoảng 1 năm do nhu cầu công việc và cũng là do sự yêu thích tìm hiểu những công nghệ mới. Big Data là một lĩnh vực hoàn toàn mới đối với một developer như mình, bắt buộc mình phải thay đổi cách nhìn về một hệ thống thông tin, kỹ thuật xử lý dữ liệu truyền thống quen thuộc. Vì là một lĩnh vực mới nên khi tìm hiểu & tiếp cận, nhóm mình đã gặp phải không ít khó khăn. Mình viết một số bài về Big Data trên blog vừa là để chia sẻ, vừa là để tổng hợp lại các vấn đề đã tìm hiểu được để bản thân cũng có cái nhìn khái quát hơn. Có gì sai sót hy vọng các bạn hãy comment để cùng trao đổi kỹ hơn.

Để trình bày một vấn đề gì đó mình có thói quen dùng quy tắc 5W1H (What, When, Where, Who, Why & How) làm xương sống để diễn đạt, vì thế, với bài đầu tiên về Big Data này mình cũng xin được dùng quy tắc này để giải thích.

1) What: Big Data là gì?

Khái niệm Big Data là gì theo mình không phải là quan trọng so với việc người ta có thể dùng Big Data vào việc gì và dùng nó như thế nào. Tuy nhiên, để bắt đầu với Big Data thì bạn cũng nên biết Big Data là gì chứ nhỉ. Một chút thôi cũng được.

Tìm kiếm với từ khoá “Big Data là gì?” trên google thì chắc chắn sẽ ra nhiều kết quả khác nhau, nhưng định nghĩa sau mình thấy là phù hợp nhất:

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và/hoặc rất phức tạp đến nỗi những công cụ, kỹ thuật xử lý dữ liệu truyền thống không thể nào đảm đương được.

Nói đến Big Data người ta thường nói có 4 chữ V thể hiện đặc trưng của Big Data. 4V đó là:

- Volume:

là sự tăng trưởng về mặt khối lượng. Dữ liệu trong các hệ thống thông tin luôn luôn và không ngừng tăng lên về mặt kích thước (khối lượng). Chúng ta có thể tìm thấy dữ liệu trong các định dạng video, music, image lớn trên các kênh truyền thông xã hội. Khối lượng dữ liệu của một hệ thống thông tin có thể lên đến hàng Terabyte và Petabyte.

- Velocity:

là sự tăng trưởng về mặt tốc độ. Bên cạnh sự tăng trưởng về khối lượng, tốc độtăng trưởng của dữ liệu cũng tăng lên một cách chóng mặt. Một ví dụ đơn giản là trên các mạng xã hội đôi khi các thông báo cách đó vài giây (tweet, status,….) đã là cũ và không được người dùng quan tâm. Người dùng thường loại bỏ các tin nhắn cũ và chỉ chú ý đến các cập nhật gần nhất. Sự chuyển động của dữ liệu bây giờ hầu như là thực tế (real time) và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây.

- Variety:

là sự tăng lên về tính đa dạng của dữ liệu. Dữ liệu không chỉ ở dạng có cấu trúc, mà còn bao gồm rất nhiều kiểu dữ liệu phi cấu trúc nữa như video, hình ảnh, dữ liệu cảm biến, cũng như các file log. Dữ liệu của một doanh nghiệp hay một hệ thống thông tin ngày nay không còn đơn giản chỉ có một hoặc một vài loại dữ liệu nữa, mà tính đa dạng của nó cũng đang ngày càng tăng lên làm cho tính phức tạp của dữ liệu ngày càng phức tạp hơn.

- Veracity:

là tính xác thực của dữ liệu. Với xu hướng Social ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big Data.

Big Data - 4V

Bốn chữ V - Đặc trưng của Big Data

Đến đây, chắc nhiều bạn sẽ có câu hỏi là “Vậy dữ liệu lớn đến cỡ nào thì được coi là Big Data?”. Câu trả lời là tuỳ vào dữ liệu của bạn. Có những dữ liệu kích thước nhỏ nhưng mà lại là “lớn", và cũng có những dữ liệu kích thước lớn mà lại là “nhỏ". Ví dụ, hệ thống của bạn hoạt động trong vòng 10 năm và tạo ra các file log, các file này đơn thuần là các file text ghi lại các thao tác của người dùng chẳng hạn. Tổng dung lượng của các file text có thể chỉ là 100GB (kích thước nhỏ) nhưng nó lại là “lớn" để tiến hành phân tích, do đó có thể coi đó là một ngưồn Big Data. Ngược lại bạn có thể có 1000 file video, mỗi file kích thước khoảng 20GB, tổng cộng bạn có khoảng 20TB dữ liệu (kích thước lớn), nhưng nó lại là nhỏ khi tiến hành phân tích và không phải là Big Data. 

2) Why: Tại sao cần đến Big Data?

Big Data làm được gì hay Tại sao lại cần đến Big Data chắc chắn là một câu hỏi được nhiều người quan tâm. Tập đoàn SAS có nêu lên rằng vấn đề của Big Data thật sự không nằm ở việc bạn thu thập dữ liệu như thế nào, mà thay vào đó, là bạn dùng Big Data để làm gì. Nhìn chung, có bốn lợi ích mà Big Data có thể mang lại đó là: cắt giảm chi phí, giảm thời gian, tăng thời gian phát triển và tối ưu hóa sản phẩm, đồng thời hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn.

Một ví dụ cụ thể: nếu để ý một chút, bạn sẽ thấy khi mua sắm online trên eBay, Amazon hoặc những trang tương tự, trang này cũng sẽ đưa ra những sản phẩm gợi ý tiếp theo cho bạn, ví dụ khi xem điện thoại, nó sẽ gợi ý cho bạn mua thêm ốp lưng, pin dự phòng; hoặc khi mua áo thun thì sẽ có thêm gợi ý quần jean, dây nịt… Do đó, việc nghiên cứu được sở thích, thói quen của khách hàng cũng gián tiếp giúp doanh nghiệp bán được nhiều hàng hóa hơn.

Vậy những thông tin về thói quen, sở thích này có được từ đâu? Chính là từ lượng dữ liệu khổng lồ mà các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác một cách có hiệu quả Big Data thì nó không chỉ giúp tăng lợi nhuận cho chính họ mà còn tăng trải nghiệm mua sắm của người dùng, chúng ta có thể tiết kiệm thời gian hơn nhờ những lời gợi ý so với việc phải tự mình tìm kiếm.

Xa hơi một chút, ứng dụng được Big Data có thể giúp các tổ chức, chính phủ dự đoán được tỉ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, v/v… thậm chí là ra phương án phòng ngừa trước một dịch bệnh nào đó, giống như trong phim World War Z, nước Israel đã biết trước có dịch zombie nên đã nhanh chóng xây tường thành ngăn cách với thế giới bên ngoài.

Mà cũng không cần nói đến tương lai phim ảnh gì cả, vào năm 2009, Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1 đấy thôi. Dịch vụ này có tên là Google Flu Trends. Xu hướng mà Google rút ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh là rất sát với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần như theo thời gian thực và sau đó sẽ được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới.

Google Flu Trends

Đường màu xanh là dự đoán của Google Flu Trends dựa trên số từ khóa tìm kiếm liên quan đến các dịch cúm, màu vàng là dữ liệu do cơ quan phòng chống dịch của Mỹ đưa ra

Còn theo Oracle, việc phân tích Big Data và những dữ liệu dung lượng lớn đã giúp các tổ chức kiếm được 10,66$ cho mỗi 1$ chi phí phân tích, tức là gấp 10 lần! Một trường học ở một quận lớn tại Mỹ cũng có được sự tăng trưởng doanh thulà 8 triệu USD mỗi năm, còn một công ty tài chính ẩn danh khác thì tăng 1000% lợi nhuận trên tổng số tiền đầu tư của mình trong vòng 3 năm.

Một ví dụ kinh điển nữa là trong chiến dịch tái tranh cử của Tổng thống Mỹ Barack Obama năm 2012, người ta đã cho rằng ông trúng cử là nhờ đã khai thác tối đa hiệu ứng của mạng xã hội và hiệu quả của việc phân tích dữ liệu lớn - Big Data. Hay như năm 2014, đội tuyển quốc gia Đức đã vô địch World Cup cũng là một phần nhờ vào công nghệ Big Data với phân tích lượng dữ liệu khổng lồ về các cầu thủ thuộc đội nhà cũng như đối phương, sau đó chuyển đổi sang dạng đồ thị và môi trường mô phỏng để có thể xem trực tiếp trên tablet hay smartphone.

Bạn thấy bài viết này như thế nào?: 
Average: 5 (1 vote)
Ảnh của Tommy Tran

Tommy owner Express Magazine

Drupal Developer having 9+ year experience, implementation and having strong knowledge of technical specifications, workflow development. Ability to perform effectively and efficiently in team and individually. Always enthusiastic and interseted to study new technologies

  • Skype ID: tthanhthuy

Tìm kiếm bất động sản

 

Advertisement

 

jobsora

Dich vu khu trung tphcm

Dich vu diet chuot tphcm

Dich vu diet con trung

Quảng Cáo Bài Viết

 
MarTech Talks #4: CONTENT - TRAFFIC - CONVERSION tại Tp.HCM

MarTech Talks #4: CONTENT - TRAFFIC - CONVERSION tại Tp.HCM

Ngày 8.9.2019, đã diễn ra sự kiện MarTech Talks #04 tại MPLEX Studio & Theatre, 62 Trần Quang Khải, Phường Tân Định, Quận 1, TP.HCM của Asia Mar Tech Group (Đơn vị chủ quản của chuỗi MarTechTalks)

Khi nào module media được làm trên Drupal 8

Khi nào module media được làm trên Drupal 8

With Drupal 8 around the corner a lot of people started asking me when will media be ready

The Best Video Player On Android–MoboPlayer

The Best Video Player On Android–MoboPlayer

MoboPlayer is the alternative video player to the default Android player. It is definitely the one app that will replace stock music application that you have been having on your Android phone.

Công ty diệt chuột T&C

 

Diet con trung