Ở phần 1 mình đã trình bày về các vấn đề Big Data là gì & Big Data làm được gì thông qua việc trả lời các câu hỏi What & Why. Ở phần này mình sẽ trình bày về các phương thức khai thác Big Data hay nói cách khác là trả lời câu hỏi Sử dụng và khai thác Big Data như thế nào.
3) How: Công nghệ nào giải quyết bài toán Big Data?
Big Data là nhu cầu đang tăng trưởng lớn đến nỗi Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỉ USD cho các công ty chuyên về quản lí và phân tích dữ liệu. Năm 2010, ngành công nghiệp Big Data có giá trị hơn 100 tỉ USD và đang tăng nhanh với tốc độ 10% mỗi năm, nhanh gấp đôi so với tổng ngành phần mềm nói chung.
Một số công ty có tham gia vào lĩnh vực Big Data
Tuy nhiên, như đã nêu ở phần 1, Big Data là rất lớn và rất phức tạp mà các công cụ và kỹ thuật truyền thống không thể giải quyết được. Vậy làm thế nào, sử dụng nền tảng công nghệ nào để giải quyết bài toán Big Data?
Năm 2011, tập đoàn phân tích McKinsey đề xuất những công nghệ có thể dùng với Big Data bao gồm crowdsourcing (tận dụng nguồn lực từ nhiều thiết bị điện toán trên toàn cầu để cùng nhau xử lí dữ liệu), các thuật toán về gen và di truyền, những biện pháp machine learning (ý chỉ các hệ thống có khả năng học hỏi từ dữ liệu, một nhánh của trí tuệ nhân tạo), xử lí ngôn ngữ tự nhiên (giống như Siri hay Google Voice Search, nhưng cao cấp hơn), xử lí tín hiệu, mô phỏng, phân tích chuỗi thời gian, mô hình hóa, kết hợp các server mạnh lại với nhau …. Ngoài ra, các CSDL hỗ trợ xử lý dữ liệu song song, ứng dụng dựa trên hoạt động tìm kiếm, khai phá dữ liệu, hệ thống file phân tán, CSDL phân tán, các hệ thống điện toán đám mây (bao gồm ứng dụng, nguồn lực tính toán cũng như không gian lưu trữ) và cả bản thân Internet cũng là những công cụ đắc lực phục vụ cho công tác nghiên cứu và trích xuất thông tin từ Big Data.
Như vậy, công nghệ để giải quyết bài toán Big Data là tổng hợp rất nhiều các công nghê, kỹ thuật khác nhau. Bản thân mỗi công nghệ, kỹ thuật này đều là những kỹ thuật khó, cần nhiều thời gian để nghiên cứu và phát triển. Đó là về mặt lý thuyết, còn theo mình, bài toán Big Data là rất đa dạng về nhu cầu hay là lĩnh vực áp dụng và không nhất thiết phải áp dụng tất cả các công nghệ, kỹ thuật trên mới có thể khai thác được giá trị của Big Data. Tuỳ từng bài toán cụ thể, nhu cầu cụ thể mà có thể lựa chọn một cách linh hoạt các công nghệ đó. Ở những bài tiếp theo mình sẽ giới thiệu về Apache Hadoop - một framework cho phép phát triển các ứng dụng phân tán, được dùng chủ yếu để giải quyết các bài toán Big Data.
OK, vậy là qua việc trả lời 3 câu hỏi What, Why, How chúng ta đã có thể hiểu một cách cơ bản về Big Data và các giá trị mà nó mang lại. Những câu hỏi tiếp theo When, Who, Where có vẻ không còn là quan trọng nữa nên mình trả lời lướt qua như sau:
4) When: khi nào bạn cần giải quyết bài toán Big Data?
Trả lời:
- Khi bạn có trong tay một lượng dữ liệu cực kỳ lớn mà bạn biết rằng chứa trong đó là rất nhiều giá trị có thể đem lại lợi nhuận cho bạn thông qua những việc như thúc đẩy doanh số bán hàng, đem lại nhiều tiện ích hơn cho người dùng, ...
- Hoặc ngay cả khi bạn chưa có dữ liệu nhưng bạn có thể định hình ra được một luồng khai thác giá trị của thông tin từ những nguồn thông tin thô có thể thu thập được. Với trường hợp này có lẽ là vất vả và khó thực hiện hơn bởi bạn phải giải quyết cả bài toán thu thập thông tin như thế nào cho đúng.
Bốn đặc trưng cần phải nắm được khi giải quyết bài toán Big Data
5) Who: những ai có thể giải quyết được bài toán Big Data?
Trả lời: Để có thể giải quyết bài toán Big Data, bạn phải có những kiến thức cơ bản về những lĩnh vực sau:
-
Kiến thức cơ bản toán học, thống kê và máy học
-
Kiến thức về lập trình
-
Kiến thức về cơ sở dữ liệu
Nếu là lập trình viên, về cơ bản bạn đã có kiến thức về lập trình và cơ sở dữ liệu rồi, do đó bạn cần phải tìm hiểu thêm các kiến thức về toán học, thống kê và máy học nữa.
Ngoài ra, theo mình để khai thác một cách hiệu quả giá trị mà Big Data mang lại thì một điểm mấu chốt nữa không thể bỏ qua đó là bạn phải là người cực kỳ hiểu mô hình nghiệp vụ (business) của hệ thống thông tin sở hữu Big Data đó.
6) Where: bạn có thể làm với Big Data ở đâu?
Trả lời:
Bất cứ tổ chức nào có phát sinh nguồn dữ liệu lớn và dữ liệu đó mang lại giá trị có thể khai thác được thì đều có thể áp dụng bài toán Big Data vào, ví dụ như các hệ thống thương mại điện tử, các nhà mạng viễn thông, các cơ quan chính phủ, …
Và nếu bạn muốn làm về Big Data mà bạn lại không làm việc ở một trong các tổ chức trên thì bạn cũng có thể tham gia vào các công ty chuyên làm về phân tích dữ liệu Big Data như Asilla chẳng hạn.
Kết luận: Big Data chứa trong nó rất nhiều thông tin hữu ích mà nếu các doanh nghiệp, tổ chức biết cách khai thác thì hoàn toàn có thể biến những thông tin đó trở thành những giá trị hiện thực, cắt giảm chi phí, đem lại nhiều lợi nhuận cho tổ chức, doanh nghiệp sở hữu chúng. Big Data còn là lĩnh vực mới mẻ, tuy nhiên tiềm năng khai thác của nó là rất lớn, chắc chắn sẽ là lĩnh vực phát triển bùng nổ trong tương lai gần.
Các bạn developer đã & đang chuẩn bị những gì cho xu thế này, hãy thảo luận và cho ý kiến bằng cách comment dưới bài viết này nhé!