Dữ liệu là mãi mãi, đây là sự thật. Bạn có đang dùng 1 ứng dụng được xây dựng cách đây 10 năm? Bạn có đang dùng các phần cứng được tạo ra cách đây 10 năm? Câu trả lời đa phần là không. Tuy nhiên, nếu hỏi – bạn có đang dùng dữ liệu đã có cách đây 50 năm? câu trả lời chắc chắn là có. Ví dụ, nhìn vào lịch sử của dân tộc, hay như dữ liệu ngày sinh nhật của chúng ta – ít nhất chúng ta cũng đang sử dụng nó đến ngày hôm nay. Dữ liệu không bao giờ cũ và nó sẽ được lưu giữ mãi.
Các tổ chức ngày càng phát triển, dữ liệu liên quan cũng phát triển và ngày càng phức tạp hơn. Hầu hết các tổ chức lớn đều có dữ liệu trong nhiều ứng dụng và định dạng khác nhau. Dữ liệu dàn trải rất khó để phân loại với chỉ 1 thuật toán duy nhất. Cuộc cách mạng di động đã hoàn toàn thay đổi cách chúng ta thu thập dữ liệu và xây dựng các hệ thống thông minh. Các tổ chức lớn đang thực sự đối mặt với thách thức để giữ tất cả dữ liệu trên một nền tảng để cho họ một cái nhìn nhất quán tất cả dữ liệu đang có.
3Vs để định nghĩa big data là Variety, Velocity và Volume.
Volume (Khối lượng)
Hiện tại, chúng ta đang thấy rằng việc lưu trữ dữ liệu (khối lượng) đang tăng trưởng theo cấp số nhân chứ không chỉ đơn thuần là dữ liệu văn bản. Chúng ta có thể tìm thấy dữ liệu trong các định dạng video, music, image lớn trên các kênh truyền thông xã hội. Khối lượng dữ liệu ngày nay có thể lên đến hàng Terabyte và Petabyte. Khối lượng dữ liệu ngày càng phát triển thì các ứng dụng và kiến trúc xây dựng để hỗ trợ dữ liệu cần phải được đánh giá lại khá thường xuyên. Khối lượng lớn dữ liệu thực sự đại diện cho big data.
Velocity (Vận tốc)
Sự tăng trưởng dữ liệu và các phương tiện truyền thông xã hội đã thay đổi cách chúng ta nhìn vào dữ liệu. Có một thời gian khi chúng ta từng tin rằng dữ liệu của ngày hôm qua là gần đây. Vấn đề này với các tờ báo thì vẫn còn hợp lý. Tuy nhiên, các kênh tin tức và radio đã thay đổi rất nhanh (tốc độ) chúng ta nhận được tin tức. Ngày nay, mọi người trả lời trên kênh truyền thông xã hội để cập nhật những diễn biến mới nhất. Trên phương tiện truyền thông xã hội đôi khi các thông báo cách đó vài giây (tweet, status,….) đã là cũ và không được người dùng quan tâm. Họ thường loại bỏ các tin nhắn cũ và chỉ chú ý đến các cập nhật gần nhất. Sự chuyển động của dữ liệu bây giờ hầu như là thực tế (real time) và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây. Vận tốc dữ liệu cao đại diện cho big data.
Variety (Đa dạng)
Dữ liệu có thể được lưu trữ trong nhiều định dạng khác nhau. Ví dụ như: cơ sở dữ liệu, excel, csv, ms access hoặc thậm chí là tập tin văn bản (text). Đôi khi dữ liệu không ở dạng truyền thống như video, sms, pdf,… Điều cần làm của các tổ chức là sắp xếp và làm cho dữ liệu có ý nghĩa. Sẽ dễ dàng để làm điều này nếu dữ liệu có chung 1 định dạng, nhưng thường là không. Thực tế dữ liệu thuộc nhiều định dạng và đó là thách thức của chúng ta. Sự đa dạng của dữ liệu đại diện cho big data.
Big Data nói theo cách đơn giản
Big Data không chỉ là có rất nhiều dữ liệu, nó thật sự là 1 khái niệm cung cấp 1 cơ hội để có cái nhìn sâu sắc vào dữ liệu hiện có cũng như các hướng dẫn để thu thập và phân tích dữ liệu tương lai. Nó làm cho các tổ chức kinh doanh thông minh và mạnh mẽ hơn để có thể thích nghi và vượt qua các thánh thức kinh doanh.