Thời đại Big Data - Amazon đạt doanh thu tới 74 tỷ USD

Nghiên cứu của IDC cho biết nhờ Big Data, năm 2013 Amazon đạt doanh thu tới 74 tỷ USD, IBM đạt hơn 16 tỷ USD. Vậy Big Data là gì mà thần kỳ như vậy?

Thế giới đang bước vào kỷ nguyên Big Data, khi các quyết định được đưa ra không dựa trên chuyên gia mà dựa vào các tập hợp dữ liệu lớn. Công ty Nghiên cứu thị trường IDC dự báo doanh thu đến từ thị trường Big Data sẽ đạt 16,1 tỷ USD trong năm nay và tăng 27% mỗi năm để đạt 32,4 tỷ USD vào năm 2017...

>> Bắt đầu làm quen với Big Data - What and Why

>> Ngày 2 – Học Big Data, So sánh Volume, Velocity và Variety

>> Ngày 1 - bắt đầu học xu thế công nghệ Big Data

Big Data được dùng ngày càng nhiều trong hầu hết lĩnh vực kinh tế-xã hội.

Ngày 10-7, hãng IBM công bố vừa chi thêm 3 tỷ USD để đầu tư vào Big Data. Nghiên cứu của IDC cho biết nhờ Big Data, năm 2013 Amazon đạt doanh thu tới 74 tỷ USD, IBM đạt hơn 16 tỷ USD. Vậy Big Data là gì mà thần kỳ như vậy?

Dữ liệu lớn

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và phức tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thể đảm đương được. Kích cỡ của Big Data đang tăng lên từng ngày, tính đến năm 2012 nó đã lên hàng exabyte (1 exabyte = 1 tỷ gigabyte). Các nhà khoa học thường xuyên gặp phải những hạn chế do tập dữ liệu lớn trong nhiều lĩnh vực, như khí tượng học, di truyền học, mô phỏng vật lý phức tạp, nghiên cứu sinh học và môi trường. Những hạn chế cũng ảnh hưởng đến việc tìm kiếm trên internet, tài chính và thông tin kinh doanh.

Năm 2001, nhà phân tích Doug Laney của hãng META Group (nay là Công ty Nghiên cứu Gartner), cho rằng những thách thức và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mô tả bằng 3 chiều: lượng (volume), vận tốc (velocity) và chủng loại (variety).

Ngày nay, các chuyên gia công nghệ thông tin tiếp tục sử dụng mô hình "3V" này để định nghĩa Big Data. Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngoài 3 tính chất trên còn cần đến các dạng xử lý mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự vật/sự việc và tối ưu hóa các quy trình làm việc.

Theo IBM, lượng thông tin công nghệ bình quân đầu người trên thế giới tăng gần gấp đôi mỗi 40 tháng kể từ năm 1980. Tính đến năm 2012, mỗi ngày có 2,5 exabyte dữ liệu được tạo ra. Còn theo tài liệu của Intel vào tháng 9-2013, hiện nay thế giới đang tạo ra 1 petabyte (1 petabyte = 1.000 terabyte) dữ liệu trong mỗi 11 giây (tương đương một đoạn video HD dài 13 năm).

Bản thân các công ty, doanh nghiệp cũng đang sở hữu Big Data của riêng mình, chẳng hạn trang bán hàng trực tuyến eBay sử dụng 2 trung tâm dữ liệu với dung lượng lên đến 40 petabyte để chứa những truy vấn, tìm kiếm, đề xuất cho khách hàng cũng như thông tin về hàng hóa của mình. Nhà bán lẻ online Amazon.com đã sử dụng một hệ thống Linux để xử lý hàng triệu hoạt động mỗi ngày cùng những yêu cầu từ khoảng nửa triệu đối tác bán hàng.

Tính đến năm 2005, họ từng sở hữu 3 cơ sở dữ liệu Linux lớn nhất thế giới với dung lượng 7,8TB, 18,5TB và 24,7TB. Tương tự, Facebook cũng phải quản lý 50 tỷ bức ảnh từ người dùng tải lên, trong khi YouTube hay Google phải lưu lại hết các lượt truy vấn và video của người dùng cùng nhiều loại thông tin khác có liên quan.

Năm 2011, Tập đoàn McKinsey đề xuất những công nghệ có thể dùng với Big Data, bao gồm crowsourcing (tận dụng nguồn lực từ nhiều thiết bị điện toán trên toàn cầu để cùng xử lý dữ liệu), các thuật toán về gen và di truyền, những biện pháp machine learning (các hệ thống có khả năng học hỏi từ dữ liệu - một nhánh của trí tuệ nhân tạo), xử lý ngôn ngữ tự nhiên (giống như Siri hay Google Voice Search, nhưng cao cấp hơn), xử lý tín hiệu, mô phỏng, phân tích chuỗi thời gian, mô hình hóa, kết hợp các server mạnh lại với nhau...

Ngoài ra, các cơ sở dữ liệu hỗ trợ xử lý dữ liệu song song, ứng dụng hoạt động dựa trên hoạt động tìm kiếm, file system dạng rời rạc, các hệ thống điện toán đám mây (bao gồm ứng dụng, nguồn lực tính toán cũng như không gian lưu trữ) và bản thân internet cũng là những công cụ đắc lực phục vụ cho công tác nghiên cứu và trích xuất thông tin từ Big Data. Hiện nay cũng có vài cơ sở dữ liệu theo dạng quan hệ (bảng) có khả năng chứa hàng petabyte dữ liệu, chúng cũng có thể tải, quản lý, sao lưu và tối ưu hóa cách sử dụng Big Data.

Big Data để làm gì?

Theo các chuyên gia, có 4 lợi ích Big Data có thể mang lại: cắt giảm chi phí; giảm thời gian; tăng thời gian phát triển, tối ưu hóa sản phẩm; hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn. Thí dụ, khi mua sắm online trên eBay, Amazon hoặc những trang thương mại điện tử, các trang này sẽ đưa ra những sản phẩm gợi ý tiếp theo. Nếu bạn xem điện thoại, nó sẽ gợi ý mua thêm ốp lưng, pin dự phòng; hoặc khi mua áo thun sẽ có thêm gợi ý quần jean, dây nịt...

Do đó, nghiên cứu được sở thích, thói quen của khách hàng cũng gián tiếp giúp doanh nghiệp bán được nhiều hàng hóa hơn. Những thông tin về thói quen, sở thích này có được từ lượng dữ liệu khổng lồ các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác một cách có hiệu quả Big Data, nó không chỉ giúp tăng lợi nhuận cho chính họ mà giúp tiết kiệm thời gian cho khách hàng trong mua sắm.

Bên cạnh đó, ứng dụng được Big Data có thể giúp các tổ chức, chính phủ dự đoán được tỷ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, thậm chí ra phương án phòng ngừa trước một dịch bệnh nào đó. Năm 2009, Google đã sử dụng dữ liệu Big Data để phân tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1. Dịch vụ này có tên là Google Flu Trends.

Xu hướng Google rút ra từ những từ khóa tìm kiếm liên quan đến dịch H1N1 đã được chứng minh rất sát với kết quả do 2 hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra. Dữ liệu của Flu Trends được cập nhật gần như theo thời gian thực, sau đó được đối chiếu với số liệu từ những trung tâm dịch bệnh ở nhiều nơi trên thế giới. Theo Oracle, việc phân tích Big Data và những dữ liệu dung lượng lớn đã giúp các tổ chức kiếm được 10,66USD cho mỗi 1USD chi phí phân tích, tức gấp 10 lần.

Một trường học tại Hoa Kỳ có được sự tăng trưởng doanh thu 8 triệu USD mỗi năm, còn một công ty tài chính ẩn danh khác tăng 1.000% lợi nhuận trên tổng số tiền đầu tư của mình trong vòng 3 năm. Trong World Cup kỳ này, Big Data cũng đưa ra dự báo đội tuyển Đức sẽ vô địch.

Thị trường Big Data được nhận định có giá trị tới 100 tỷ USD vào năm 2010 và đang không ngừng tăng với tốc độ chóng mặt. Chẳng hạn, hiện thế giới có tới 4,6 tỷ thuê bao điện thoại di động và có từ 1-2 tỷ người dùng internet. Từ năm 1990-2005, hơn 1 tỷ người trên thế giới tham gia vào tầng lớp trung lưu, tức nhu cầu lưu trữ và sử dụng thông tin của thế giới tăng lên nhiều lần.

Năng lực trao đổi thông tin hiệu quả của thế giới thông qua mạng viễn thông là 281 petabyte vào năm 1986; 471 petabyte vào năm 1993; 2,2 exabyte vào năm 2000; 65 exabyte trong năm 2007 và dự báo lưu lượng thông tin qua internet sẽ đạt 667 exabyte hàng năm vào năm 2014. Người ta ước tính 1/3 các thông tin được lưu trữ trên toàn cầu là ở dạng văn bản chữ số và dữ liệu hình ảnh, đó là định dạng hữu ích nhất cho hầu hết các ứng dụng Big Data.

Nhiều nhà phân tích tin rằng Big Data là một thứ vũ khí mới giúp các công ty vượt lên những công ty khác trong cuộc chiến cạnh tranh. Việc sử dụng Big Data đang trở thành một cách thức tối quan trọng cho các công ty hàng đầu vượt lên trên các đối thủ.

5 cách dùng big data

Nghiên cứu của các tác giả Tim McGuire, James Manyika và Michael Chui cho biết các nhà bán lẻ ứng dụng Big Data có khả năng tăng lợi nhuận lên 60%. Trong y tế, những người tiên phong dữ liệu phân tích kết quả y học của dược phẩm khi chúng được kê đơn rộng rãi, nhờ đó khám phá những lợi ích và rủi ro vốn không rõ ràng trong các thử nghiệm lâm sàng trên số đối tượng hạn chế hơn.

Một ứng dụng sớm khác của Big Data là sử dụng dữ liệu từ các cảm biến đặt trong các sản phẩm từ đồ chơi trẻ em đến hàng hóa công nghiệp để xem các sản phẩm này được sử dụng trong thực tế như thế nào. Những thông tin thu thập được dùng để tạo ra các dịch vụ mới và thiết kế sản phẩm tương lai. Big Data còn giúp tạo ra những cơ hội phát triển và hoạt động mới cho các công ty, chẳng hạn ngành công nghiệp tổng hợp và phân tích dữ liệu.

Nhiều công ty sẽ ở giữa dòng chảy lớn của thông tin, nơi dữ liệu về sản phẩm, dịch vụ, người mua, nhà cung cấp, sở thích và ý định của người tiêu dùng được nắm bắt và phân tích. Ngoài ra với quy mô cực lớn, bản chất thời gian thực và tần số cao của dữ liệu cũng rất quan trọng. Thí dụ, khả năng ước tính ngay lập tức các số liệu như niềm tin tiêu dùng (điều trước đây chỉ có thể thực hiện bằng cách nghiên cứu quá khứ) đang được sử dụng rộng rãi hơn, thêm sức mạnh đáng kể cho công tác dự đoán.

Tương tự, tần số cao của dữ liệu cho phép người sử dụng kiểm nghiệm những lý thuyết gần sát thực tiễn ở một mức độ chưa từng có. Các nhà nghiên cứu đã chỉ ra 5 cách phổ biến để tận dụng Big Data nhằm mang lại sức mạnh cho doanh nghiệp:

Thứ nhất, thông tin minh bạch hơn. Dù ở thời đại bùng nổ kỹ thuật số, vẫn còn một lượng lớn thông tin chưa được số hóa, chẳng hạn các dữ liệu ghi trên giấy hoặc không thể truy cập hay tìm kiếm dễ dàng thông qua mạng lưới. Nghiên cứu cho thấy một nhóm làm việc trí óc thường mất tới 25% thời gian để tìm kiếm dữ liệu và sau đó chuyển chúng vào một chỗ. Điều đó cho thấy nếu minh bạch được dữ liệu ngay từ đầu, doanh nghiệp sẽ tiết kiệm được rất nhiều.

Thứ hai, khi các công ty tạo và lưu trữ dữ liệu kinh doanh dưới dạng số, họ có thể thu thập thông tin chính xác và chi tiết hơn về mọi thứ, từ hàng tồn kho đến ngày bị bệnh của nhân viên. Trong thực tế, một số công ty hàng đầu đang sử dụng khả năng thu thập và phân tích Big Data để tiến hành thử nghiệm nhằm đưa ra những quyết định quản lý tốt hơn. Big Data cho phép chia nhỏ phân loại khách hàng để từ đó đưa ra các dịch vụ, sản phẩm phù hợp hơn.

Thứ tư, phân tích Big Data có thể giúp các lãnh đạo đưa ra những quyết định đúng đắn hơn, giảm thiểu rủi ro.

Thứ năm, Big Data có thể được sử dụng để phát triển thế hệ tiếp theo của sản phẩm và dịch vụ. Thí dụ, các nhà sản xuất sử dụng dữ liệu thu được từ các cảm biến đặt trong sản phẩm để tạo ra các dịch vụ mới sau bán hàng, như bảo trì chủ động để tránh thất bại trong sản phẩm mới.

Tiềm năng và lực cản

Nếu hệ thống y tế Hoa Kỳ sử dụng Big Data một cách đúng đắn để tăng hiệu quả và chất lượng, ngành này có thể tạo ra thêm 300 tỷ USD mỗi năm. 2/3 trong đó đến từ việc giảm được chi phí chăm sóc sức khỏe. Trong các nền kinh tế phát triển ở châu Âu, các chính phủ có thể tạo ra thêm 100 tỷ USD chỉ với việc sử dụng Big Data. Không chỉ làm lợi cho các công ty hay tổ chức, chính phủ, mà người tiêu dùng cũng có thể hưởng lợi từ Big Data.

Chẳng hạn, người dùng các dịch vụ vị trí cá nhân ở Hoa Kỳ có thể tiết kiệm tới 500 tỷ USD mỗi năm. Ước tính việc tìm đường thông minh bằng các ứng dụng trên điện thoại có thể giúp họ tiết kiệm thời gian và năng lượng tương đương 500 tỷ USD vào năm 2020. Điều này tương đương việc tiết kiệm 20 tỷ giờ lái xe, hay 10-15 giờ mỗi năm/người và khoảng 150 tỷ USD tiêu thụ nhiên liệu.

Một trong số những tiềm năng quan trọng nhất trong việc sản sinh giá trị từ Big Data là kết hợp các dữ liệu riêng biệt lại với nhau (pool - tạm dịch là hồ). Chẳng hạn, hệ thống y tế ở Hoa Kỳ có 4 hồ dự liệu lớn, gồm lâm sàng; hoạt động và chi phí; nghiên cứu phát triển dược phẩm và sản phẩm y tế; và dữ liệu về hành vi và tâm lý của bệnh nhân.

Trước đây, mỗi hồ dữ liệu này được thu thập và quản lý bởi một bộ phận riêng biệt. Các nhà nghiên cứu ước tính nếu ngành y tế Hoa Kỳ dùng tất cả công nghệ sẵn có để ứng dụng Big Data, như phân tích hồ sơ các phương pháp điều trị thực tế, việc tìm kiếm các phương pháp điều trị tốt nhất và ít tốn kém nhất… sẽ giúp tăng năng suất hàng năm của ngành thêm 0,7%.

Tuy nhiên, tính nhạy cảm quanh thông tin cá nhân và an ninh là những trở ngại trong việc ứng dụng Big Data. Một thách thức lớn khác đến từ vấn đề nhân sự. Người đủ kỹ năng để vận hành các ứng dụng Big Data hiện đang rất thiếu. Vào năm 2018, chỉ riêng Hoa Kỳ sẽ thiếu khoảng 140.000-190.000 người được đào tạo phân tích sâu và khoảng 1,5 triệu người có kỹ năng quản lý và định lượng để có thể phát thảo khung và đọc các phân tích hiệu quả để làm nền tảng đưa ra các quyết định.

Ngoài ra còn rất nhiều vấn đề công nghệ cần phải được giải quyết để khai thác hết Big Data. Chẳng hạn, phải có những phương tiện để thu thập thật nhiều dữ liệu (big) và phải có nơi để chứa chúng). Hạ tầng công nghệ thông tin của các trường đại học ở Việt Nam hiện nay hầu như không đủ mạnh để có thể lưu trữ Big Data. Hơn hết, việc tiếp cận dữ liệu cần phải được mở rộng.

Ngày càng có nhiều công ty cần phải truy cập dữ liệu từ các bên thứ ba, như đối tác kinh doanh hay khách hàng, và hợp nhất chúng với dữ liệu của họ. Một năng lực quan trọng cho các công ty dữ liệu trong tương lai là khả năng tạo ra giá trị hấp dẫn cho các bên, bao gồm cả người tiêu dùng, nhà cung cấp và thậm chí ngay cả đối thủ cạnh tranh, để họ sẵn sàng chia sẻ dữ liệu. Nếu việc chia sẻ dữ liệu không xảy ra dù tiềm năng cho lợi ích xã hội là cực lớn, các nhà lập pháp cần phải can thiệp.

Có 5 câu hỏi lớn các nhà phân tích đưa ra để gợi ý cho giới lãnh đạo cách vận dụng Big Data:

  1. Điều gì sẽ xảy ra nếu thế giới hoàn toàn minh bạch dữ liệu, và dữ liệu luôn có sẵn?
  2. Nếu có thể thử nghiệm tất cả các quyết định, nó sẽ thay đổi cách thức cạnh tranh của bạn như thế nào?
  3. Doanh nghiệp của bạn sẽ thay đổi ra sao nếu bạn sử dụng Big Data để tùy biến trên diện rộng và trong thời gian thực?
  4. Làm thế nào để Big Data có thể tăng hoặc thậm chí thay thế công tác quản lý?
  5. Bạn có thể tạo ra một mô hình kinh doanh mới dựa trên dữ liệu không?