Triển vọng và nguy cơ của “Dữ liệu Lớn”

Ngày đăng: 29/05/2019 Viết bởi: Công ty Cổ phần sách Alpha

Một thuật ngữ gây sốt hiện nay chính là “Dữ liệu Lớn”. Theo ước tính của IBM, chúng ta đang tạo ra khoảng 2,5 tỉ tỉ byte dữ liệu mỗi ngày, tăng 90% so với khối lượng dữ liệu được tạo ra trong 2 năm gần đây.

Bước tăng trưởng thông tin thần tốc nói trên đôi lúc vẫn được xem là bài thuốc chữa bách bệnh, giống như máy vi tính vào thập niên 1970. Năm 2008, Chris Anderson, biên tập viên tạp chí Wired đã từng viết rằng: “Khối lượng dữ liệu tuyệt đối sẽ xóa bỏ nhu cầu về lý thuyết, thậm chí cả về phương pháp khoa học.”

Số liệu không thể tự lên tiếng, mà chính chúng ta đã nói thay lời chúng. Chúng ta đã tự quy ý nghĩa cho chúng. Chúng ta có lẽ đã diễn giải chúng theo hướng có lợi cho mình và xa rời thực tế khách quan.

Dự báo dựa trên dữ liệu có thể đem lại thành công – và cũng có thể thất bại. Đó là khi chúng ta phủ nhận vai trò của mình trong tiến trình bởi nhận thấy những mặt trái của thất bại đang bắt đầu phát sinh. Trước khi đòi hỏi thêm ở dữ liệu, chúng ta phải tự chấn chỉnh bản thân.

Nếu tồn tại một định nghĩa chính xác về người Mỹ – một điều gì đó khiến họ khác biệt – thì đó chính là niềm tin vào triết lý của Cassius rằng người Mỹ nắm giữ số phận của chính mình. Nước Mỹ đã được khai sinh trong buổi bình minh của Cách mạng Công nghiệp, từ những kẻ nổi loạn tôn giáo đã nhận thức được các luồng tư tưởng tự do không chỉ truyền bá lòng sùng đạo, mà còn bao gồm cả khoa học và thương mại. Hầu hết thế mạnh và hạn chế của người Mỹ – từ tài khéo léo đến tính cần cù, từ thói kiêu căng đến đức nhẫn nại – đều khởi nguồn từ một niềm tin không lay chuyển rằng họ phải lựa chọn con đường cho chính mình.

Song, thiên niên kỷ mới đã mở ra với một khởi đầu tồi tệ dành cho người Mỹ. Họ đã không nhận ra cuộc tấn công ngày 11 tháng 9 đang ập đến. Vấn đề không nằm ở việc thiếu thông tin. Trong vụ tấn công vào Trân Châu Cảng từ 6 thập niên trước đó, mọi tín hiệu đều đã xuất hiện. Nhưng họ đã không kết nối chúng với nhau. Do không hiểu đúng cách thức bọn khủng bố có thể hành động, họ đã để dữ liệu che mắt và các vụ tấn công vẫn mãi là điều “không thể nhận ra”.

Bên cạnh đó, còn một loạt những trường hợp dự báo thất bại tràn lan, gắn liền với cuộc khủng hoảng tài chính toàn cầu gần đây. Chính bởi ngây thơ tin vào các mô hình và không nhận thức rõ chúng thiếu sót ra sao khi lựa chọn giả thiết, chúng ta đã tự đẩy mình đến hậu quả thảm khốc. Mặt khác, trong một ví dụ đời thường hơn, tôi nhận thấy dù đã rất nỗ lực nhưng chúng ta thường không thể dự đoán được các đợt suy thoái cách đó hơn vài tháng. Trong khi tiến trình kiềm chế lạm phát cho thấy những tiến bộ đáng kể, thì các nhà hoạch định chính sách của chúng ta lại trở nên mù quáng.

Tương tự như thập niên 1970, các đợt thử dự báo động đất đã xuất hiện trở lại trong thời gian gần đây và hầu hết đều dựa trên dữ liệu, đồng thời áp dụng phương pháp cơ học cao. Tuy nhiên, các dự báo này chỉ lường trước những cơn động đất chẳng bao giờ xảy ra và cũng không thể giúp chúng ta đề phòng chúng. Lò phản ứng hạt nhân Fukushima được thiết kế nhằm chịu được cường độ động đất vào khoảng 8,6 độ richter, một phần cũng vì các nhà địa chấn học đã kết luận rằng chẳng chấn động nào có thể vượt qua giới hạn đó. Thế nhưng, một cơn địa chấn 9,1 độ richter khủng khiếp đã tàn phá Nhật Bản vào tháng 3 năm 2011.

Thậm chí, đã có hẳn một chuỗi quy luật chứng minh các dự báo đang đi đến thất bại và thường kéo theo tác hại ghê gớm cho xã hội. Đơn cử, hãy cùng xem xét lĩnh vực nghiên cứu y sinh. Năm 2005, một nhà nghiên cứu y học xuất thân từ Athens, John P. Ioannidis, đã công bố một luận án gây tranh cãi với nhan đề: “Vì sao hầu hết các kết quả nghiên cứu đã công bố đều sai?” Bài luận đã xem xét những khám phá tích cực được ghi nhận từ nhiều tạp chí có đánh giá của chuyên gia, bao gồm những bài mô tả các dự báo chính xác về giả thiết y học được rút ra từ các thí nghiệm lý thuyết. Theo đó, tác giả kết luận rằng hầu hết những khám phá trên đều có khuynh hướng thất bại khi áp dụng trong thực tiễn. Trung tâm Thí nghiệm Bayer (Bayer Laboratories) gần đây đã xác nhận giả thiết của Ioannidis. Họ đã không thể tái hiện lại khoảng 2/3 kết quả nghiên cứu tích cực được công bố trên các tạp chí y khoa khi tự tiến hành thí nghiệm.

Kỷ nguyên Dữ liệu Lớn sẽ thúc đẩy sự tiến bộ. Trong khi đó, chính chúng ta sẽ quyết định đà tiến bộ phát triển nhanh chóng ra sao hay sẽ dẫn đến sự thụt lùi như thế nào.