Trước đây, khi học Thạc sĩ về Data Science, các topic về Big Data luôn khiến tôi hào hứng. Tôi muốn tìm hiểu về 3Vs, muốn phân tích các dòng dữ liệu, mô hình hóa, trực quan hóa, biến đổi,… Đến bây giờ, khi ai đó nhắc đến Big Data, tôi nghĩ ngay đến một đống Buzzwords và những kỳ vọng mơ hồ.
“Buzzword” is “a word or expression from a particular subject area that has become fashionable by being used a lot, especially on television and in the newspapers”.
“Buzzword” là “những từ, cụm từ có tính chuyên ngành nhưng được sử dụng rộng rãi theo cách thời thượng, xu hướng, đặc biệt là bởi giới truyền thông”.
Cambridge Dictionary
Có phải Big Data đã mất đi sức hấp dẫn? Hay do tôi trở nên ngày càng hoài nghi?Big Data là gì ?Big Data được hiểu là các tập dữ liệu có khối lượng lớn, mang tính chất đa dạng, phức tạp và không ổn định. Mực độ của nó thường vượt qua khả năng xử lý truyền thống của các phần mềm. Các tập dữ liệu này có thể lẫn lộn giữa các tập dữ liệu có cấu trúc, không có cấu trúc hoặc bán cấu trúc mà trong đó mỗi tập dữ liệu lại có thể chứa nhiều thông tin insights để khai thác.
Big Data thường xuất hiện ở các ngành như ngân hàng, y tế, thương mai điện tử, bán lẻ, digital marketing, ngăn chặn nội dung đen,… Đây đều là các ngành có dữ liệu lớn đòi hỏi cần được phân tích để có thể tìm hiểu các vấn đề mà doanh nghiệp đang gặp phải đồng thời đưa ra các chiến lược hiệu quả.Khoảng cách giữa Buzzword và Thực tế
Tôi trở nên khá dị ứng với các “Buzzword”. Chúng thường được thổi phồng quá mức so với ý nghĩa thực tế. Một ví dụ là bạn sẽ thấy một câu quen thuộc như thế này: Big Data mang đến những đột phá trong kỷ nguyên digital. Nghe rất hứa hẹn tuy nhiên trong thực tế chúng ta vẫn đang vẫn đang mắc kẹt với những sheet Excel.
Big Data khiến mọi người háo hứng bởi ý tưởng về kho báu, hay nguồn tài nguyên khổng lồ mà chúng ta có thể tận dụng. Ấn tượng của tôi ban đầu cũng như vậy, rằng trong lượng dữ liệu khổng lồ đó, chắc chắn phải có gì đó giá trị. Điều này là có thể, tuy nhiên với mức chi phí là bao nhiêu?
Mục lục
Không thể sử dụng Big Data nếu không có cơ sở hạ tầng phù hợp
Làm việc với lượng dữ liệu khổng lồ yêu cầu những công nghệ nhất định, cách lưu trữ và các công cụ phù hợp để chuyển đổi dữ liệu. “Nút cổ chai” xảy ra thường xuyên hơn bạn nghĩ, khi công nghệ phát triển và dễ tiếp cận với các nền tảng điện toán đám mây, việc sử dụng và duy trì các các nền tảng này cũng tốn một chi phí rất lớn. Đây cũng là một trong những bài học thế kỷ về dữ liệu:
Khi dữ liệu trở nên quý như vàng đối với một số người, thì nó lại làm lãng phí nơi lưu trữ với một số người khác.
Các công ty lưu trữ dữ liệu và trả chi phí lưu trữ, sau đó mới biết được dữ liệu có hữu dụng hay không. Vậy tại sao không quyết định dữ lữu nào sẽ hữu dụng trước sau đó mới lưu trữ?
Big Data không phải lúc nào cũng là “Interesting Data”
“Garbage in, garbage out” (Đầu vào kém thì đầu ra cũng kém) là một trong những câu nói quan trọng nhất trong lĩnh vực Khoa học dữ liệu. Và rất nhiều dữ liệu được coi là “Big Data” nằm trong nhóm này, nghĩa là đó là những dữ liệu không đáng tin cậy, chưa được xử lý và cần tốn rất nhiều công sức mới có thể sử dụng được. Đôi khi, lượng thông tin rất nhỏ rút ra được từ lượng dữ liệu cực lớn đó không đáng với thời gian, công sức và tiền bạc bỏ ra.
Theo báo cáo của Forrester, ít nhất 60% lượng dữ liệu của các tập đoàn không được sử dụng đến.
Tại sao không sử dụng chi phí lưu trữ những dữ liệu này để đầu tư vào cơ sở hạ tầng cho những dữ liệu thật sự hữu dụng?
Thời mà chúng ta tìm càng nhiều dữ liệu càng tốt cho AI đã qua. Mọi người phải nhận ra rằng, không phải tất cả các đặc điểm đều hữu ích (thậm chí còn gây hại) và chất lượng của dữ liệu quan trọng hơn là số lượng. Chúng ta cần những dữ liệu đo lường những thông tin có giá trị, một cách nhất quán và đáng tin cậy. Bằng cách kiểm soát chất lượng của dữ liệu, chúng ta cũng đảm bảo một thời kỳ mà AI trở nên an toàn hơn.
Kỷ nguyên của việc triển khai và cơ sở hạ tầng tốt hơn.
Một khi đã có dữ liệu, chúng ta cần cơ sở hạ tầng để có thể sử dụng an toàn, chia sẻ, phân tích và tạo ra sự khác biệt giữa những dữ liệu vô dụng và những thông tin có giá trị. Chúng ta cũng cần phải xác định rằng AI là dành cho cả thế giới cùng sử dụng và hiểu được bằng cách đảm bảo cả chất lượng và độ tin cậy. Cần có nhiều người hiểu được rằn dữ liệu (như rất nhiều thứ khác) không nhất thiết phải lớn, tuy nhiên cần phải đáng tin cậy.
Tạm biệt Big Data, chào đón Reliable Data!
Nguồn: https://towardsdatascience.com/bye-bye-big-data-fbea187c7739
Xem thêm các bài viết khác của Datapot tại đây
Datapot là Learning Partner và Certified Trainer chính thức của Microsoft Với đội ngũ chuyên gia giàu kinh nghiệm, Datapot đã đào tạo, tư vấn và triển khai các giải pháp về phân tích dữ liệu cho cũng như các công ty hàng đầu như Unilever, Airpay, Techcombank, MB Ageas Life, HB Lab, Toyota… cũng như tổ chức các Khóa học về Phân tích dữ liệu cho hơn 1000 học viên.
Tham gia để được xem trước những video mới nhất.
- Group Microsoft Certified: Data Analyst Associate Việt Nam (DA-100): https://www.facebook.com/groups/da100vn
- Fanpage Datapot: https://www.facebook.com/DatapotAnalytics
- Website Datapot: https://www.datapot.vn/