Dữ Liệu Lớn - Big Data

Chương 4: Tương Quan

Greg Linden ở tuổi 24 khi tạm nghỉ chương trình nghiên cứu tiến sĩ về trí tuệ nhân tạo tại Đại học Washington vào năm 1997, để làm việc tại một công ty bán sách trực tuyến của địa phương mới vừa thành lập.

Công ty mới hoạt động hai năm nhưng đã là một doanh nghiệp phát đạt. “Tôi yêu thích ý tưởng bán sách và bán kiến thức - và giúp đỡ mọi người tìm thấy mẩu kiến thức kế tiếp mà họ muốn thưởng thức”, ông hồi tưởng. Cửa hàng đó là Amazon.com, và họ thuê Linden với tư cách một kỹ sư phần mềm để đảm bảo cho trang web chạy trơn tru.

Amazon không chỉ có những chuyên gia kỹ thuật là nhân viên của mình. Vào thời điểm đó, họ cũng thuê hơn một chục nhà phê bình và biên tập viên để viết đánh giá và giới thiệu những cuốn sách mới. Mặc dù câu chuyện của Amazon quen thuộc với nhiều người, nhưng ít người còn nhớ nội dung của nó đã được chế tác bởi bàn tay con người. Các biên tập viên và nhà phê bình đánh giá và lựa chọn các cuốn sách được đưa lên các trang web của Amazon. Họ chịu trách nhiệm cho những gì được gọi là “Tiếng nói Amazon” - một trong những món trang sức vương giả và một nguồn lợi thế cạnh tranh của công ty. Một bài báo trên Wall StreetJournal vào thời điểm đó đã đón nhận chúng như những bài phê bình sách có ảnh hưởng nhất của quốc gia, bởi chúng đã tạo được rất nhiều doanh thu.

Sau đó, Jeff Bezos, người sáng lập và Giám đốc điều hành của Amazon, bắt đầu thử nghiệm một ý tưởng có sức thuyết phục mạnh mẽ: Liệu công ty có thể giới thiệu những cuốn sách cụ thể cho khách hàng dựa trên những sở thích mua sắm riêng biệt của họ? Ngay từ đầu, Amazon đã thu được nhiều dữ liệu về các khách hàng: những gì họ mua, những cuốn sách nào họ chỉ nhìn nhưng không mua, và họ nhìn chúng bao lâu. Những cuốn sách nào họ đã mua cùng nhau.

Số lượng dữ liệu là rất lớn tới mức lúc đầu Amazon đã xử lý nó theo cách thông thường: lấy một mẫu và phân tích nó để tìm những điểm tương đồng giữa các khách hàng. Các khuyến nghị đưa ra là khá thô thiển. Mua một cuốn sách về Ba Lan và bạn sẽ bị “dội bom” bằng các thông tin về giá vé đi Đông Âu. Mua một cuốn về trẻ sơ sinh và bạn sẽ bị ngập với thông tin về những cuốn tương tự. “Họ có xu hướng mời bạn những biến thể nho nhỏ của những gì bạn mua trước đó, đến vô cùng tận”, James Marcus, một nhà phê bình sách của Amazon từ 1996 đến 2001, nhớ lại trong hồi ký của mình mang tên Amazonia. “Cứ như bạn đi mua sắm với thằng đần vậy”.

Greg Linden nhìn thấy một giải pháp. Ông nhận ra rằng hệ thống khuyến nghị không nhất thiết phải so sánh khách hàng với những người khác, một công việc phức tạp về kỹ thuật. Tất cả những gì cần thiết là tìm ra những liên kết giữa chính các sản phẩm với nhau. Năm 1998 Linden và đồng nghiệp của ông đã đăng ký một bằng sáng chế về kỹ thuật lọc cộng tác được gọi là “item-to-item” (“từ-mục-đến-mục”). Sự thay đổi trong cách tiếp cận đã làm nên một sự khác biệt lớn.

Bởi các tính toán có thể được thực hiện trước thời hạn, nên các khuyên nghị là rất nhanh. Phương pháp này cũng linh hoạt, có khả năng làm việc trên nhiều loại sản phẩm. Vì vậy, khi Amazon chuyển sang bán các mặt hàng khác với sách, hệ thống cũng có thể đề xuất phim hoặc lò nướng bánh. Và các khuyến nghị là tốt hơn nhiều so với trước vì hệ thống sử dụng tất cả các dữ liệu. “Câu nói đùa trong nhóm là nếu nó làm việc hoàn hảo thì Amazon sẽ chỉ giới thiệu cho bạn một cuốn sách mà thôi - đó là cuốn kế tiếp mà bạn sẽ mua”, Linden nhớ lại.

Bây giờ công ty phải quyết định những gì sẽ xuất hiện trên trang web. Nội dung do máy tạo ra như những kiến nghị cá nhân và những danh sách bán chạy nhất, hoặc những đánh giá được viết bởi các biên tập viên của Amazon? Những gì người xem nói, hoặc những gì các nhà phê bình nói? Đó là một trận chiến của chuột và người.

Khi Amazon làm một thử nghiệm so sánh doanh thu nhờ các biên tập viên với doanh thu nhờ các nội dung do máy tính tạo ra, kết quả thậm chí khá khác nhau. Nội dung máy tạo ra từ dữ liệu đã mang lại doanh thu cao hơn rất nhiều. Máy tính có thể không biết tại sao khách hàng đọc Ernest Hemingway cũng có thể muốn mua F. Scott Fitzgerald. Nhưng điều đó dường như không quan trọng. Tiếng leng keng của máy tính tiền mới quan trọng. Cuối cùng các biên tập viên đã chứng kiến tỷ lệ doanh số dựa trên những đánh giá trực tuyến của họ, và nhóm bị giải tán.

“Tôi rất buồn vì đội ngũ biên tập viên đã thất bại”, Linden nhớ lại. “Tuy nhiên, số liệu không nói dối, và chi phí thì rất cao”.

Ngày nay một phần ba doanh số bán hàng của Amazon được cho là kết quả của các hệ thống giới thiệu và cá nhân hóa. Với những hệ thống này, Amazon đã khiến nhiều đối thủ cạnh tranh bị phá sản: không chỉ những hiệu sách và cửa hàng âm nhạc lớn, mà cả những nhà bán sách địa phương nghĩ rằng mối liên hệ cá nhân của họ sẽ bảo vệ được họ khỏi những cơn gió của sự thay đổi. Thực tế, công việc của Linden đã cách mạng hóa thương mại điện tử, khi phương pháp này được áp dụng bởi gần như tất cả mọi người. Với NetAix, một công ty cho thuê phim trực tuyến, ba phần tư đơn đặt hàng mới đến từ các khuyến nghị. Theo sự dẫn đường của Amazon, hàng ngàn trang web có thể giới thiệu sản phẩm, nội dung, bạn bè và các nhóm mà không cần biết lý do mọi người lại có thể sẽ quan tâm đến chúng.

Biết tại sao có thể là thú vị, nhưng nó không quan trọng để kích thích bán hàng. Biết cái gì mới cuốn hút những cú nhấp chuột. Sự hiểu biết này có sức mạnh để định hình lại nhiều ngành công nghiệp, chứ không chỉ thương mại điện tử. Nhân viên bán hàng trong tất cả các lĩnh vực từ lâu đã được cho biết rằng cần phải hiểu những gì làm cho khách hàng quan tâm, để nắm bắt những lý do đằng sau các quyết định của họ. Những kỹ năng chuyên nghiệp và nhiều năm kinh nghiệm đã được đánh giá cao. Dữ liệu lớn cho thấy có một phương pháp tiếp cận khác, trong một số góc độ là thực dụng hơn. Các hệ thống khuyến nghị sáng tạo của Amazon đưa ra được những mối tương quan có giá trị mà không cần biết nguyên nhân phía sau. Biết cái gì, chứ không phải tại sao, là đủ tốt rồi.

Những dự đoán và sở thích

Các mối tương quan cũng có ích trong một thế giới dữ-liệu-nhỏ, nhưng trong bối cảnh của dữ-liệu-lớn thì phải nói là chúng thực sự nổi bật. Thông qua chúng, người ta có thể thu được hiểu biết một cách dễ dàng hơn, nhanh hơn và rõ ràng hơn trước đây.

Tại cốt lõi của nó, một mối tương quan sẽ định lượng mối quan hệ thống kê giữa hai giá trị dữ liệu. Một tương quan mạnh có nghĩa là khi một giá trị dữ liệu thay đổi, thì giá trị dữ liệu kia rất có khả năng cũng thay đổi. Chúng ta đã thấy mối tương quan mạnh như vậy với Xu hướng Dịch cúm của Google: càng nhiều người trong một khu vực địa lý tìm kiếm những từ khóa cụ thể qua Google, thì càng có nhiều người tại khu vực đó mắc bệnh cúm. Ngược lại, một mối tương quan yếu có nghĩa là khi một giá trị dữ liệu thay đổi, ảnh hưởng của nó tới giá trị dữ liệu kia là nhỏ. Ví dụ chúng ta có thể kiểm tra tương quan giữa chiều dài mái tóc của các cá nhân và mức độ hạnh phúc của họ, và nhận thấy chiều dài mái tóc tỏ ra không có tác dụng gì đặc biệt trong việc cho chúng ta biết về mức độ hạnh phúc.

Các mối tương quan cho phép chúng ta phân tích một hiện tượng không phải bằng việc làm sáng tỏ hoạt động bên trong của nó, mà bằng cách xác định một phương tiện đo lường hữu ích cho nó. Tất nhiên, ngay cả các mối tương quan mạnh cũng không bao giờ hoàn hảo. Rất có thể chúng hành xử tương tự chỉ vì sự ngẫu nhiên. Chúng ta có thể chỉ đơn giản “bị lừa bởi sự ngẫu nhiên”, như một câu của nhà kinh nghiệm luận Nassim Nicholas Taleb. Với tương quan thì không có sự chắc chắn, mà chỉ có xác suất. Nhưng nếu một mối tương quan là mạnh thì khả năng của một liên kết sẽ cao. Nhiều khách hàng của Amazon có thể chứng thực điều này bằng cách chỉ vào một kệ sách đầy các khuyến nghị của công ty.

Bằng cách xác định một phương tiện đo lường thực sự tốt cho một hiện tượng, các mối tương quan giúp chúng ta nắm bắt được hiện tại và dự đoán được tương lai: nếu A thường xảy ra cùng với B, chúng ta cần phải xem chừng B để dự đoán rằng A sẽ xảy ra. Sử dụng B như một phương tiện đo lường sẽ giúp chúng ta nắm bắt những gì có thể xảy ra cùng với A, ngay cả khi chúng ta không thể đo lường hoặc quan sát được A một cách trực tiếp. Quan trọng hơn, nó cũng giúp chúng ta dự đoán những gì có thể xảy ra với A trong tương lai. Tất nhiên, các mối tương quan không thể nói trước tương lai, chúng chỉ có thể dự đoán nó với một xác suất nhất định. Nhưng khả năng đó là cực kỳ có giá trị.

Hãy xem trường hợp của Walmart. Đó là nhà bán lẻ lớn nhất thế giới, với hơn hai triệu nhân viên và doanh thu hàng năm khoảng 450 tỷ đôla- một khoản tiền lớn hơn GDP của bốn phần năm các nước trên thế giới. Trước khi web đưa ra quá nhiều dữ liệu thì có lẽ Walmart giữ tập dữ liệu lớn nhất của các công ty Mỹ. Trong những năm 1990 nó đã cách mạng hóa ngành bán lẻ bằng cách ghi lại tất cả sản phẩm như là dữ liệu thông qua một hệ thống được gọi là Liên kết Bán lẻ (Retail Link). Điều này cho phép các nhà cung cấp của Walmart theo dõi tỷ lệ và khối lượng bán hàng và hàng tồn kho. Việc tạo ra sự rõ ràng của thông tin này đã giúp công ty buộc các nhà cung cấp phải tự lo việc lưu trữ của họ. Trong nhiều trường hợp Walmart không tiếp nhận “quyền sở hữu” của một sản phẩm cho đến khi nó được bán, do đó loại bỏ rủi ro hàng tồn kho và giảm được chi phí. Walmart sử dụng dữ liệu để thực sự trở thành cửa hàng ủy thác lớn nhất thế giới.

Các dữ liệu lịch sử có thể cho thấy những gì nếu chúng được phân tích một cách đúng đắn? Walmart đã làm việc với các chuyên gia phân tích số liệu từ Teradata, trước đây là công ty uy tín National Cash Register, để khám phá những mối tương quan thú vị. Năm 2004 Walmart cẩn thận xem xét cơ sở dữ liệu khổng lồ các giao dịch trong quá khứ của nó: mỗi khách hàng mua những mặt hàng gì và tổng chi phí, có những gì khác ở trong giỏ hàng, thời gian trong ngày, thậm chí cả thời tiết. Bằng cách đó, công ty nhận thấy rằng trước một cơn bão, không chỉ doanh số bán hàng của đèn pin tăng, mà cả mức bán Pop-Tarts, một món ăn sáng có đường của Mỹ, cũng tăng. Vì vậy, khi những cơn bão sắp đến, Walmart xếp những hộp Pop-Tarts ở ngay phía trước cửa hàng, bên cạnh các đồ tiếp tế bão, để tăng sự tiện lợi cho khách hàng - và tăng mạnh doanh số.

Trong quá khứ, một ai đó tại công ty sẽ cần có linh cảm trước để thu thập dữ liệu và thử nghiệm ý tưởng. Bây giờ, bởi có quá nhiều dữ liệu và những công cụ tốt hơn, các mối tương quan có thể được phát hiện một cách nhanh chóng hơn và ít tốn kém. (Nhưng cần nói rõ rằng chúng ta phải thận trọng: khi số lượng các điểm dữ liệu tăng với cấp độ lớn, chúng ta cũng thấy nhiều mối tương quan giả mạo hơn - những hiện tượng có vẻ như có mối liên hệ ngay cả khi chúng không phải như vậy. Điều này đòi hỏi chúng ta phải lưu tâm nhiều hơn, vì chúng ta chỉ mới bắt đầu đánh giá nó.)

Từ lâu trước khi có dữ liệu lớn, việc phân tích mối tương quan đã chứng tỏ là có giá trị. Khái niệm này được Ngài Francis Galton, người anh em họ của Charles Darwin, đưa ra vào năm 1888 sau khi ông nhận thấy một mối quan hệ giữa chiều cao và chiều dài cánh tay của những người đàn ông. Tính toán học đằng sau nó là tương đối đơn giản và chắc chắn - đó hóa ra là một trong những đặc tính quan trọng, và đã giúp làm cho nó trở thành một trong những phép đo thống kê được sử dụng rộng rãi. Tuy nhiên, trước dữ liệu lớn, tính hữu dụng của nó bị hạn chế. Vì dữ liệu khan hiếm và việc thu thập tốn kém, nên các nhà thống kê thường chọn một phương tiện đo lường thay thế, sau đó thu thập các dữ liệu có liên quan và thực hiện phân tích tương quan để tìm hiểu xem phương tiện đó tốt tới đâu. Nhưng làm thế nào để chọn phương tiện đúng?

Để hướng dẫn họ, các chuyên gia sử dụng những giả thuyết dựa trên các lý thuyết - những ý tưởng trừu tượng về phương thức hoạt động của sự vật. Dựa trên những giả thuyết như vậy, họ thu thập dữ liệu và sử dụng phân tích tương quan để xác minh xem các phương tiện thay thế có phù hợp không. Nếu chúng không phù hợp, sau đó các nhà nghiên cứu thường cố gắng kiên định thực hiện lại, vì biết đâu các dữ liệu đã bị thu thập một cách sai lầm. Nếu thất bại thì cuối cùng họ mới phải thừa nhận rằng giả thuyết, hoặc thậm chí lý thuyết nền tảng của nó, còn thiếu sót và phải được sửa đổi. Kiến thức phát triển thông qua quá trình thử-và-sai như thế. Và nó diễn ra quá chậm, vì những thành kiến cá nhân và tập thể đã che mờ những giả thuyết chúng ta phát triển, chúng ta áp dụng chúng như thế nào, và do đó những phương tiện thay thế mà chúng ta đã chọn. Đó là một quá trình phức tạp, nhưng khả thi trong một thế giới dữ-liệu-nhỏ.

Trong thời đại dữ-liệu-lớn, việc ra quyết định để khảo sát những biến nào bằng cách chỉ dựa trên các giả thuyết sẽ không còn hiệu quả nữa. Các bộ dữ liệu là quá lớn và lĩnh vực được xem xét có lẽ quá phức tạp. May mắn thay, nhiều trong số những hạn chế vốn trói buộc chúng ta vào một cách tiếp cận dựa-trên-giả-thuyết đã không còn tồn tại với cùng mức độ như vậy nữa. Chúng ta bây giờ có quá nhiều dữ liệu dễ tiếp cận và khả năng tính toán tới mức không cần phải chăm chỉ chọn một hoặc một số ít phương tiện đo lường thay thế và khảo sát từng cái. Việc phân tích điện toán tinh vi bây giờ có thể xác định được phương tiện tối ưu - như nó đã làm cho Xu hướng Dịch cúm của Google, sau khi “cày” qua gần nửa tỷ mô hình toán học.

Chúng ta không còn nhất thiết phải đòi hỏi một giả thuyết chuyên môn về một hiện tượng để bắt đầu hiểu thế giới của mình. Vì vậy, chúng ta không cần phát triển một khái niệm về những gì mọi người tìm kiếm khi nào và ở nơi nào bệnh cúm lây lan. Chúng ta không cần có một ý niệm mơ hồ về cách các hãng hàng không định giá vé của họ. Chúng ta không cần quan tâm đến thị hiếu của người mua hàng Walmart. Thay vào đó chúng ta có thể đặt dữ liệu lớn vào trong phép phân tích tương quan, để rồi nó sẽ cho chúng ta biết những câu hỏi tìm kiếm nào là các phương tiện đo lường tốt nhất cho bệnh cúm, liệu giá vé máy bay có khả năng tăng, hoặc những gì các công dân đang lo lắng chuẩn bị tránh bão sẽ muốn sử dụng. Thay cho việc tiếp cận dựa-trên-giả-thuyết, chúng ta có thể sử dụng cách tiếp cận dựa-trên-dữ-liệu. Các kết quả của chúng ta có thể ít bị chi phối và chính xác hơn, và chúng ta sẽ gần như chắc chắn nhận được chúng nhanh hơn nhiều.

Việc dự đoán dựa trên các mối tương quan chính là hạt nhân của dữ liệu lớn. Các phân tích tương quan bây giờ được sử dụng thường xuyên tới mức đôi khi chúng ta không còn đánh giá nổi mức độ xâm nhập của chúng nữa. Và việc ứng dụng này sẽ tăng. Ví dụ điểm tín dụng tài chính đang được sử dụng để dự đoán hành vi cá nhân. Công ty Fair Isaac Corporation, bây giờ được gọi là FICO, phát minh điểm tín dụng trong những năm cuối thập niên 1950. Năm 2011 FICO còn thiết lập “Điểm Ghi Nhớ Dùng Thuốc”. Để xác định khả năng người ta sẽ dùng thuốc đến mức nào, FICO phân tích một loạt các biến - bao gồm cả những biến có vẻ không liên quan, chẳng hạn như họ đã sống bao lâu tại cùng địa chỉ, họ có kết hôn không, họ đã làm bao lâu với cùng một công việc, họ có sở hữu một chiếc xe hơi không. Điểm số ước lượng sẽ giúp các nhà cung cấp dịch vụ y tế tiết kiệm được tiền bằng cách cho họ biết những bệnh nhân nào cần được nhắc nhở. Không có gì là quan hệ nhân quả giữa việc sở hữu xe hơi và uống thuốc kháng sinh theo chỉ dẫn; liên kết giữa chúng là tương quan thuần túy. Nhưng những kết quả như vậy cũng đủ để giám đốc điều hành của FICO mạnh miệng tuyên bố trong năm 2011: “Chúng tôi biết những gì bạn sẽ làm vào ngày mai đấy”.

Những nhà môi giới dữ liệu khác đang thâm nhập vào cuộc chơi tương quan, như được phản ảnh trong loạt bài mang tính tiên phong “What They Know” (“Những Điều Họ Biết”) của Wall Street Journal. Experian có một sản phẩm được gọi là Hiểu Thấu Thu Nhập để ước tính mức thu nhập của người dân mà một phần dựa trên cơ sở lịch sử tín dụng của họ. Nó phát triển điểm số bằng cách phân tích cơ sở dữ liệu lịch sử tín dụng khổng lồ của nó đối với dữ liệu thuế ẩn danh từ Sở Thuế Vụ Hoa Kỳ. Doanh nghiệp phải chi khoảng $10 để xác nhận thu nhập của một người thông qua các biểu khai thuế, trong khi Experian bán ước tính của nó ít hơn $1. Vì vậy, trong những trường hợp như thế này, việc sử dụng phương tiện đo lường thay thế sẽ hiệu quả hơn là đi hàn huyên để có được những điều thực tế. Tương tự, một văn phòng tín dụng khác, Equifax, bán một “Chỉ số Khả năng trả tiền” và một “Chỉ số Chi tiêu tùy ý” hứa hẹn dự đoán được sự tình trạng đầy hay vơi của ví tiền cá nhân.

Việc sử dụng các mối tương quan đang được mở rộng hơn nữa. Aviva, một công ty bảo hiểm lớn, đã nghiên cứu ý tưởng sử dụng các báo cáo tín dụng và dữ liệu tiếp thị người tiêu dùng như những phương tiện đo lường để phân tích mẫu máu và nước tiểu cho các ứng viên nhất định. Mục đích là để xác định những người có thể có nguy cơ cao mắc các bệnh như huyết áp cao, tiểu đường, hoặc trầm cảm. Phương pháp này sử dụng dữ liệu về lối sống bao gồm hàng trăm biến như các sở thích, các trang web truy cập, và mức độ xem truyền hình, cũng như ước tính thu nhập của họ. Mô hình dự đoán Aviva, được phát triển bởi Deloitte Consulting, được xem là thành công trong việc xác định nguy cơ sức khỏe. Những công ty bảo hiểm khác như Prudential và AIG đã xem xét các sáng kiến tương tự. Lợi ích là nó có thể cho phép người nộp đơn xin bảo hiểm tránh được việc phải cung cấp mẫu máu và nước tiểu, mà chẳng ai thích, và các công ty bảo hiểm lại phải trả tiền cho việc đó. Chi phí xét nghiệm khoảng $125 cho mỗi người, trong khi các phương pháp tiếp cận hoàn toàn dựa-trên-dữ-liệu chỉ tốn khoảng $5.

Với một số người, phương pháp này nghe có vẻ đáng sợ, bởi vì nó dựa trên những hành vi dường như không mấy liên quan với nhau. Nó giống như việc các công ty có thể ẩn danh để làm gián điệp mạng, theo dõi từng cú nhấp chuột. Mọi người có thể sẽ cân nhắc kỹ lưỡng trước khi xem những trang web của các môn thể thao cực đoan hay xem hài kịch tôn vinh sự trầm cảm nếu họ cảm thấy điều này có thể dẫn đến phí bảo hiểm cao hơn. Phải thừa nhận rằng việc cản trở tự do của người dân trong tương tác với thông tin sẽ là điều tệ hại. Nhưng mặt khác, lợi ích trong việc khiến bảo hiểm dễ dàng hơn và ít tốn kém hơn sẽ mang lại kết quả là có nhiều người tham gia bảo hiểm hơn, đó là một điều tốt cho xã hội, chưa kể cũng tốt cho các công ty bảo hiểm.

Tuy nhiên, sản phẩm “đinh” của các mối tương quan dữ-liệu-lớn chính là cửa hàng bán lẻ giảm giá Target của Mỹ, đã có nhiều năm sử dụng các dự đoán dựa trên các mối tương quan dữ-liệu-lớn. Trong một phóng sự đặc biệt, Charles Duhigg, một phóng viên kinh doanh của New York Times, kể lại cách Target biết được một người phụ nữ đã có thai mà thậm chí chẳng cần người mẹ tương lai phải nói ra. Về cơ bản, phương pháp của họ là khai thác dữ liệu và để cho các mối tương quan làm công việc của chúng.

Việc biết nếu một khách hàng có thể mang thai là rất quan trọng cho các nhà bán lẻ, vì mang thai là một thời điểm bước ngoặt cho các cặp vợ chồng, khi hành vi mua sắm của họ sẽ sẵn sàng thay đổi. Họ có thể bắt đầu đi tới những cửa hàng mới và phát triển những sở thích thương hiệu mới. Những nhà tiếp thị của Target tìm đến bộ phận phân tích để xem có cách nào phát hiện ra những khách hàng mang thai thông qua mô hình mua sắm của họ.

Nhóm phân tích xem xét lại lịch sử mua sắm của những phụ nữ đăng ký quà cho trẻ sơ sinh. Họ nhận thấy những phụ nữ này mua rất nhiều kem dưỡng da không mùi vào khoảng tháng thứ ba của thai kỳ, và vài tuần sau đó, họ thường mua những chất bổ trợ như magiê, canxi, và kẽm. Cuối cùng, nhóm phát hiện khoảng hai mươi sản phẩm, được sử dụng như các phương tiện đo lường, cho phép công ty tính toán được một loại “điểm dự đoán mang thai” cho từng khách hàng thanh toán bằng thẻ tín dụng hoặc sử dụng thẻ cửa hàng hoặc phiếu khuyến mãi. Các mối tương quan thậm chí cho phép nhà bán lẻ ước tính được thời hạn sinh con trong một khoảng hẹp, do vậy họ có thể gửi những phiếu khuyến mãi thích hợp cho từng giai đoạn của thai kỳ. Quả đúng với cái tên của doanh nghiệp này, “Target”, nghĩa là “Mục tiêu”.

Trong cuốn sách The Power of Hahit (Sức mạnh của Thói quen), tác giả Duhigg kể tiếp câu chuyện này. Vào một ngày nọ, một người đàn ông giận dữ xông vào một cửa hàng Target ở Minnesota để gặp người quản lý. “Con gái tôi nhận được cái này trong thùng thư!”, ông ta hét lên. “Con bé vẫn còn đang học trung học, vậy mà ông gửi phiếu khuyến mãi mua quần áo và giường cũi trẻ sơ sinh? ông đang khuyến khích con tôi có thai hả?”. Thế nhưng khi người quản lý gọi lại cho ông ta một vài ngày sau đó để xin lỗi, ông ta lại tỏ ra hòa nhã và thậm chí chính ông ta phải xin lỗi người quản lý.

Đoạn phim tác giả Duhigg giải thích và minh họa câu chuyện

Việc tìm kiếm các phương tiện đo lường thay thế trong các bối cảnh xã hội chỉ là một trong nhiều cách tận dụng các kỹ thuật liên quan đến dữ-liệu-lớn. Bên cạnh đó, các mối tương quan với các kiểu dữ liệu mới để giải quyết các nhu cầu hàng ngày cũng tỏ ra mạnh mẽ không kém là.

Một trong số đó là phương pháp phân tích dự đoán, bắt đầu được sử dụng rộng rãi trong kinh doanh để dự đoán các sự kiện trước khi chúng xảy ra. Thuật ngữ này có thể được dùng để chỉ một thuật toán giúp phát hiện một ca khúc nổi tiếng, thường được sử dụng trong ngành công nghiệp âm nhạc để cung cấp cho các hãng ghi âm một ý tưởng tốt hơn về nơi để họ đầu tư. Kỹ thuật này cũng được sử dụng để ngăn chặn những hỏng hóc lớn về cơ khí hoặc cấu trúc: đặt các cảm biến trên máy móc, động cơ, hoặc cơ sở hạ tầng để có thể theo dõi các mô hình dữ liệu mà chúng phát ra, chẳng hạn như nhiệt độ, độ rung, độ căng, và âm thanh, và để phát hiện những thay đổi có thể dự báo trước các sự cố.

Khái niệm nền tảng của phương pháp trên là khi sự vật hỏng, chúng thường không hỏng tất cả cùng một lúc, mà dần dần theo thời gian. Khi được trang bị dữ liệu cảm biến, việc phân tích tương quan và các phương pháp tương tự có thể xác định các mô hình cụ thể, các dấu hiệu, thường nảy sinh trước khi một cái gì đó hỏng - tiếng nổ của động cơ, nhiệt độ quá cao từ một động cơ, và những thứ tương tự. Từ đó, ta chỉ cần tìm kiếm mô hình để biết khi nào một cái gì đó tỏ ra bất ổn. Việc phát hiện sự bất thường sớm cho phép hệ thống gửi một cảnh báo để có thể thay một bộ phận mới hoặc chỉnh sửa sai sót trước khi sự cố thực sự xảy ra. Mục đích là để xác định một phương tiện đo lường tốt, sau đó quan sát nó, và qua đó dự đoán các sự kiện trong tương lai.

Công ty vận chuyển UPS đã sử dụng các phân tích dự đoán từ cuối những năm 2000 để theo dõi đội xe 60 ngàn chiếc tại Hoa Kỳ và biết khi nào cần thực hiện bảo dưỡng phòng ngừa. Mọi sự cố trên đường đều có thể khiến phải hủy bỏ hay trì hoãn việc giao và nhận hàng. Vì vậy, để phòng ngừa, UPS thường thay thế một số bộ phận sau hai hoặc ba năm. Nhưng điều đó không hiệu quả, vì một số bộ phận vẫn còn tốt. Từ khi chuyển sang phân tích dự báo, công ty đã tiết kiệm được hàng triệu đôla bằng cách đo và giám sát các bộ phận riêng lẻ và thay thế chúng chỉ khi cần thiết. Trong một trường hợp, dữ liệu thậm chí tiết lộ rằng toàn bộ một nhóm các xe mới có một bộ phận bị khiếm khuyết có thể gây rắc rối, trừ khi được phát hiện trước khi đưa vào sử dụng.

Tương tự như vậy, các bộ cảm biến được gắn vào cầu và các tòa nhà để theo dõi các dấu hiệu hao mòn. Chúng cũng được sử dụng trong các nhà máy hóa chất lớn và các nhà máy lọc dầu, những nơi mà nếu một bộ phận bị hỏng có thể làm ngưng trệ sản xuất. Chi phí cho việc thu thập và phân tích dữ liệu để biết khi nào phải hành động sớm là thấp hơn so với chi phí của việc ngừng sản xuất.

Lưu ý rằng các phân tích dự đoán có thể không giải thích nguyên nhân của một vấn đề; nó chỉ cho thấy có vấn đề tồn tại. Nó sẽ cảnh báo bạn rằng một động cơ quá nóng, nhưng nó có thể không cho bạn biết tình trạng đó là do một đai quạt bị sờn hay do một nắp đậy không được vặn chặt. Các mối tương quan cho biết cái gì, nhưng không cho biết tại sao, tuy nhiên như chúng ta đã thấy, biết cái gì thường là đủ tốt rồi.

Phương pháp tương tự đang được áp dụng trong y tế, để ngăn ngừa các “hỏng hóc” của cơ thể con người. Khi bệnh viện gắn một mớ ống, dây điện, và các dụng cụ cho bệnh nhân, một dòng lớn dữ liệu được tạo ra. Chỉ riêng điện tâm đồ đã ghi 1.000 thông số mỗi giây. Tuy nhiên, đáng chú ý là chỉ có một phần nhỏ của dữ liệu hiện đang được sử dụng hoặc lưu giữ. Hầu hết dữ liệu bị bỏ đi, ngay cả khi nó có thể giữ những đầu mối quan trọng về tình trạng và phản ứng với phương pháp điều trị của bệnh nhân. Nếu được giữ lại và tổng hợp với dữ liệu của các bệnh nhân khác, chúng có thể tiết lộ những thông tin đặc biệt về việc phương pháp điều trị nào có khả năng tiến triển tốt và phương pháp nào thì không.

Việc vứt bỏ dữ liệu có thể thích hợp khi chi phí và độ phức tạp của việc thu thập, lưu trữ và phân tích nó là cao, nhưng bây giờ điều này không còn đúng nữa. Tiến sĩ Carolyn McGregor và một nhóm các nhà nghiên cứu tại Viện Công nghệ của Đại học Ontario và IBM đã làm việc với một số bệnh viện để xây dựng phần mềm giúp các bác sĩ ra các quyết định chẩn đoán tốt hơn khi chăm sóc trẻ sinh non. Phần mềm thu nhận và xử lý dữ liệu bệnh nhân trong thời gian thực, theo dõi 16 dòng dữ liệu khác nhau, chẳng hạn như nhịp tim, nhịp thở, nhiệt độ, huyết áp, và mức oxy trong máu, tổng cộng tới khoảng 1.260 điểm dữ liệu mỗi giây.

Hệ thống có thể phát hiện những thay đổi tinh tế về tình trạng của trẻ thiếu tháng, có thể báo hiệu tình trạng nhiễm trùng 24 giờ trước khi các triệu chứng rõ ràng xuất hiện. “Bạn không thể nhìn thấy nó bằng mắt thường, nhưng một máy tính thì có thể”, tiến sĩ McGregor giải thích. Hệ thống không dựa vào quan hệ nhân quả mà dựa vào các mối tương quan. Nó cho biết cái gì, không cho biết tại sao. Nhưng điều đó đáp ứng được mục đích của nó. Việc cảnh báo trước cho phép các bác sĩ điều trị nhiễm trùng sớm với những bước can thiệp y tế nhẹ nhàng hơn, hoặc cảnh báo họ sớm hơn nếu việc điều trị tỏ ra không hiệu quả. Điều này cải thiện tình trạng của bệnh nhân. Kỹ thuật nói trên rất đáng được áp dụng cho thật nhiều bệnh nhân hơn và trong nhiều điều kiện hơn. Thuật toán tự nó có thể không đưa ra các quyết định, nhưng máy đang làm những gì máy làm tốt nhất, để giúp những người chăm sóc làm những gì họ làm tốt nhất.

Điều đáng chú ý là việc phân tích dữ-liệu-lớn của tiến sĩ McGregor đã có thể xác định những mối tương quan mà theo một nghĩa nào đó đối nghịch với hiểu biết thông thường của các bác sĩ. Ví dụ bà phát hiện rằng các dấu hiệu sống rất ổn định thường được phát hiện trước khi bị nhiễm trùng nghiêm trọng. Đây là điều kỳ lạ, vì chúng ta cứ tưởng rằng sự xuống cấp của các cơ quan duy trì sự sống sẽ xảy ra trước một đợt nhiễm trùng toàn diện. Người ta có thể hình dung ra cảnh hàng thế hệ các bác sĩ kết thúc ngày làm việc của họ bằng cách liếc nhìn một bệnh án bên cạnh giường, thấy các dấu hiệu sống ổn định của trẻ sơ sinh, và an tâm đi về nhà - để rồi nhận được một cuộc gọi hoảng loạn từ phòng y tá trực vào lúc nửa đêm thông báo rằng điều cực kỳ bi thảm đã xảy ra và bản năng của họ đã được đặt không đúng chỗ.

Dữ liệu của McGregor cho thấy rằng sự ổn định của các trẻ thiếu tháng, thay vì là một dấu hiệu của sự cải thiện, lại giống như sự bình lặng trước con bão - cứ như cơ thể của trẻ sơ sinh nói cho các cơ quan nhỏ xíu của mình hãy sẵn sàng cho điều tệ hại sắp xảy ra. Chúng ta không thể biết chắc chắn, vì những gì dữ liệu cho thấy là một tương quan, chứ không phải quan hệ nhân quả. Nhưng chúng ta biết rằng nó đòi hỏi các phương pháp thống kê được áp dụng cho một lượng lớn các dữ liệu để tiết lộ sự liên hợp ẩn này. Nếu có ai còn nghi ngờ thì đây: dữ liệu lớn cứu được nhiều mạng sống.

Ảo tưởng và sự soi sáng

Trong một thế giới dữ-liệu-nhỏ, vì có rất ít dữ liệu, nên cả những nghiên cứu về nguyên nhân lẫn phân tích tương quan đều bắt đầu với một giả thuyết, sau đó được kiểm nghiệm để hoặc thấy sai hoặc xác minh. Nhưng vì cả hai phương pháp đòi hỏi một giả thuyết để bắt đầu, nên cả hai đều nhạy cảm với thành kiến và trực giác sai lầm. Và các dữ liệu cần thiết thường không có sẵn. Ngày nay, với rất nhiều dữ liệu xung quanh và nhiều hơn nữa sẽ tới, những giả thuyết như vậy không còn quan trọng đối với phân tích tương quan.

Có một sự khác biệt mới đang dần trở nên quan trọng. Trước thời dữ liệu lớn, một phần do sức mạnh tính toán không đầy đủ, nên phần lớn việc phân tích tương quan sử dụng những tập hợp lớn dữ liệu bị giới hạn vào việc tìm kiếm các mối quan hệ tuyến tính. Trong thực tế, tất nhiên, nhiều mối quan hệ là phức tạp hơn nhiều. Với những phân tích tinh vi hơn, chúng ta có thể xác định được những mối quan hệ phi tuyến tính trong dữ liệu.

Ví dụ: trong nhiều năm các nhà kinh tế và các nhà khoa học chính trị tin rằng hạnh phúc và thu nhập có tương quan trực tiếp - tăng thu nhập và một người trung bình sẽ được hạnh phúc hơn. Tuy nhiên việc quan sát dữ liệu trên một biểu đồ cho thấy một tình trạng phức tạp hơn đã diễn ra. Đối với các mức thu nhập dưới một ngưỡng nhất định, mỗi sự gia tăng trong thu nhập dẫn tới sự gia tăng đáng kể trong hạnh phúc, nhưng trên mức đó thì việc tăng thu nhập hầu như không cải thiện được hạnh phúc của một cá nhân. Nếu ta thể hiện điều này trên đồ thị, đường biểu diễn sẽ là một đường cong thay vì một đường thẳng như giả định bằng phân tích tuyến tính.

Phát hiện này rất quan trọng cho các nhà hoạch định chính sách. Nếu nó là một mối quan hệ tuyến tính thì việc nâng cao thu nhập của tất cả mọi người nhằm cải thiện hạnh phúc chung sẽ có ý nghĩa. Nhưng một khi mối liên hệ phi tuyến tính đã được xác định thì lời tư vấn sẽ chuyển thành tập trung vào việc tăng thu nhập cho người nghèo, vì dữ liệu cho thấy điều này sẽ mang lại nhiều hiệu quả cho đồng tiền.

Chuyện sẽ trở nên phức tạp hơn nhiều, chẳng hạn như khi mối quan hệ tương quan là nhiều mặt hơn. Ví dụ các nhà nghiên cứu tại Đại học Harvard và MIT đã khảo sát sự chênh lệch của việc chủng ngừa bệnh sởi trong dân cư - một số nhóm được chủng ngừa trong khi những nhóm khác thì không. Đầu tiên sự chênh lệch này dường như tương quan với số tiền người dân chi cho chăm sóc sức khỏe. Tuy nhiên, việc xem xét kỹ hơn cho thấy mối tương quan không phải một đường gọn gàng mà là một đường cong kỳ quặc. Khi mọi người chi tiêu nhiều hơn cho chăm sóc sức khỏe, sự chênh lệch về tiêm chủng giảm xuống (như có thể được dự kiến), nhưng khi họ chi tiêu nhiều hơn nữa, điều đáng ngạc nhiên là nó lại tăng lên - một số người rất giàu dường như né tránh tiêm chủng ngừa sởi. Thông tin này rất quan trọng với các viên chức y tế công, nhưng phân tích tương quan tuyến tính đơn giản sẽ không thể phát hiện được nó.

Các chuyên gia bây giờ đang phát triển các công cụ cần thiết để xác định và so sánh các mối tương quan phi tuyến tính. Đồng thời, các kỹ thuật phân tích tương quan đang được hỗ trợ và tăng cường bởi một tập hợp phát triển nhanh chóng các phương pháp tiếp cận và phần mềm mới mẻ, có thể rút ra được những mối liên hệ phi-nhân-quả trong dữ liệu từ nhiều góc độ khác nhau - giống như cách các họa sĩ lập thể đã cố gắng nắm bắt được hình ảnh khuôn mặt của một người phụ nữ từ nhiều góc độ cùng một lúc. Một trong những phương pháp mới và mạnh nhất có thể được tìm thấy trong lĩnh vực đang phát triển của phân tích mạng lưới. Nó cho phép lập bản đồ, đo lường và tính toán các nút và các liên kết cho tất cả mọi thứ từ bạn bè của một người trên Facebook, tới những phán quyết tòa án nào trích dẫn những tiền lệ nào, hoặc ai gọi ai trên điện thoại di động của họ. Cùng với nhau, những công cụ này giúp trả lời những câu hỏi thực nghiệm phi-quan-hệ-nhân-quả.

Cuối cùng, trong thời đại của dữ liệu lớn, các kiểu phân tích mới này sẽ dẫn đến một làn sóng hiểu biết mới và dự đoán hữu ích. Chúng ta sẽ thấy những liên kết chưa bao giờ thấy trước đó. Chúng ta sẽ nắm bắt được những động lực kỹ thuật và xã hội phức tạp từ lâu đã trốn tránh nhận thức của chúng ta mặc cho những nỗ lực tốt nhất. Nhưng quan trọng nhất, các phân tích phi-quan-hệ-nhân-quả này sẽ cải thiện sự hiểu biết của chúng ta về thế giới bằng cách chủ yếu hỏi cái gì chứ không hỏi tại sao.

Lúc đầu, điều này nghe có vẻ khác thường. Nhưng xét cho cùng, là con người, chúng ta mong muốn hiểu biết thế giới thông qua các liên kết nhân quả; chúng ta muốn tin rằng mỗi hiệu ứng đều có một nguyên nhân, chỉ cần chúng ta nhìn đủ kỹ lưỡng. Liệu có nên xem việc biết được các lý do nền tảng của thế giới là khát vọng cao nhất của chúng ta?

Để chắc chắn, đã có một cuộc tranh luận triết học hàng thế kỷ trước đây về việc liệu có tồn tại quan hệ nhân quả. Nếu mỗi thứ đều là do một cái gì đó khác gây ra, thì logic sẽ ra lệnh rằng chúng ta không được tự do để quyết định bất cứ điều gì cả. Ý chí của con người sẽ không tồn tại, vì mọi quyết định mà chúng ta đưa ra và mọi suy nghĩ chúng ta hình thành đều do cái gì khác gây ra, trong khi bản thân nó cũng là hệ quả của một nguyên nhân khác, cứ như thế... Quỹ đạo của cả cuộc sống sẽ chỉ đơn giản được xác định bởi các nguyên nhân dẫn đến các hiệu ứng. Do đó các triết gia đã tranh cãi về vai trò của quan hệ nhân quả trong thế giới của chúng ta, và đôi khi nó chống lại ý chí tự do. Tuy nhiên cuộc tranh luận trừu tượng kể trên không phải là những gì chúng ta theo đuổi ở đây.

Thay vào đó, khi chúng ta nói rằng con người nhìn thế giới qua các quan hệ nhân quả, chúng ta đang đề cập đến hai cách thức cơ bản con người giải thích và hiểu thế giới: thông qua mối quan hệ nhân quả nhanh chóng, phi thực tế; hoặc thông qua cách thực nghiệm chậm rãi, theo phương pháp quan hệ nhân quả. Dữ liệu lớn sẽ làm thay đổi vai trò của cả hai.

Cách thứ nhất chính là mong ước trực giác của chúng ta muốn thấy các kết nối nhân quả. Chúng ta mang định kiến phải giả định các nguyên nhân, ngay cả khi chúng không tồn tại.

Điều này không phải do văn hóa, sự dạy dỗ hay mức độ học vấn. Thay vào đó, nghiên cứu cho thấy nó là một vấn đề liên quan đến sự vận hành của nhận thức con người. Khi thấy hai sự kiện xảy ra, cái này tiếp sau cái kia, tâm trí của chúng ta bị thôi thúc phải nhìn thấy chúng trong những quan hệ nhân quả.

Hãy xem ba câu sau đây: “Cha mẹ của Fred đến muộn. Những người cung cấp thực phẩm phải đến sớm. Fred đã tức giận”. Khi đọc xong, chúng ta ngay lập tức trực cảm vì sao Fred tức giận - không phải vì những người cung cấp thực phẩm phải đến sớm, mà vì cha mẹ anh ta đến muộn. Thật ra, chúng ta không có cách nào biết được điều này từ các thông tin được cung cấp. Ấy vậy mà tâm trí của chúng ta vẫn khăng khăng tạo ra những điều chúng ta giả định là mạch lạc, những quan hệ nhân quả từ các dữ kiện hạn chế đó.

Daniel Kahneman, một giáo sư tâm lý học tại Princeton từng đoạt giải Nobel kinh tế năm 2002, sử dụng ví dụ này để đưa ra giả thuyết rằng chúng ta có hai phương thức suy nghĩ. Một là nhanh chóng và mất ít nỗ lực, cho phép chúng ta đi đến kết luận trong vài giây. Phương thức khác là chậm và khó khăn, đòi hỏi chúng ta phải suy nghĩ một vấn đề cụ thể. Cách suy nghĩ nhanh chóng mang rất nhiều định kiến để hướng tới việc “nhìn ra” những liên kết nhân quả ngay cả khi chúng không tồn tại. Nó tạo nên định kiến để xác nhận kiến thức và niềm tin sẵn có của chúng ta. Trong lịch sử cổ đại, cách suy nghĩ nhanh này đã giúp chúng ta sống sót qua một môi trường nguy hiểm, trong đó chúng ta thường phải quyết định một cách nhanh chóng với thông tin hạn chế. Nhưng nó thường không đủ để thiết lập nguyên nhân thực sự của một hiệu ứng.

Theo Kahneman, thật không may rằng não của chúng ta rất thường xuyên lười suy nghĩ một cách chậm rãi và có phương pháp. Thay vào đó, chúng ta cho phép cách suy nghĩ nhanh chóng thắng thế. Kết quả là chúng ta thường “nhìn ra” những quan hệ nhân quả tưởng tượng, và do đó về cơ bản đã hiểu sai thế giới.

Cha mẹ thường nói với con cái của họ rằng chúng mắc bệnh cúm vì không đội mũ hoặc mang găng tay trong thời tiết lạnh. Tuy nhiên, không hề có quan hệ nhân quả trực tiếp giữa đội mũ, mang găng và mắc bệnh cúm. Nếu chúng ta ghé một nhà hàng và sau đó bị bệnh thì một cách trực giác, chúng ta đổ lỗi cho các thực phẩm chúng ta ăn ở đó (và có thể sẽ tránh nhà hàng này trong tương lai), mặc dù thực phẩm có thể không liên quan gì với bệnh tật của chúng ta. Dạ dày của chúng ta có thể nhiễm khuẩn qua nhiều cách, chẳng hạn như bắt tay một người bị nhiễm bệnh. Bên tư-duy-nhanh của bộ não chúng ta được lập trình sẵn để nhanh chóng nhảy tới bất cứ kết luận nhân quả nào nó có thể thấy. Do đó, nó thường dẫn chúng ta đến những quyết định sai lầm.

Trái ngược với suy nghĩ thông thường, trực giác của con người về mối quan hệ nhân quả như vậy không giúp hiểu biết của chúng ta về thế giới sâu sắc thêm. Trong nhiều trường hợp, nó chỉ hơn một chút so với một đường tắt nhận thức, cho chúng ta ảo tưởng về cái nhìn sâu sắc, nhưng trong thực tế lại bỏ roi chúng ta trong bóng tối về thế giới xung quanh. Cũng giống như việc lấy mẫu là một đường tắt chúng ta sử dụng vì không thể xử lý được tất cả các dữ liệu, nhận thức về quan hệ nhân quả là một đường tắt mà não chúng ta sử dụng để tránh phải suy nghĩ khó khăn và chậm chạp.

Trong một thế giới dữ-liệu-nhỏ, việc chỉ ra những kiểu trực giác nhân quả sai như thế nào cần một thời gian dài. Điều này sẽ thay đổi. Trong tương lai, các mối tương quan dữ-liệu-lớn sẽ thường xuyên được sử dụng để bác bỏ trực giác quan hệ nhân quả của chúng ta, cho thấy thường có rất ít, nếu như có, liên kết thống kê giữa kết quả và nguyên nhân giả định của nó.

Có lẽ bài học đó sẽ làm cho chúng ta suy nghĩ nghiêm khắc hơn (và chậm rãi hơn) khi muốn hiểu thế giới. Nhưng ngay cả suy nghĩ chậm rãi của chúng ta - cách thứ hai tìm ra những quan hệ nhân quả - cũng sẽ thấy vai trò của nó được biến đổi bởi các mối tương quan dữ liệu lớn.

Trong cuộc sống hàng ngày, chúng ta tư duy theo kiểu nhân quả nhiều đến nỗi có thể tin rằng quan hệ nhân quả sẽ dễ dàng được chỉ ra. Thực tế khó khăn hơn nhiều. Không giống với các mối tương quan, trong đó tính chất toán học là khá rõ ràng, đối với quan hệ nhân quả thì chẳng có phương thức toán học nào rõ ràng để “chứng minh” cả.

Chúng ta thậm chí không thể diễn tả các mối quan hệ nhân quả một cách dễ dàng trong những phương trình chuẩn. Do đó ngay cả nếu ta suy nghĩ chậm rãi và nghiêm khắc, việc tìm kiếm các mối quan hệ nhân quả cuối cùng vẫn rất khó khăn. Bởi vì tâm trí của chúng ta quen với một thế giới nghèo thông tin, chúng ta bị cám dỗ phải lý giải với ít dữ liệu, mặc dù rất thường xuyên có quá nhiều yếu tố cùng phối hợp làm giảm ảnh hưởng đến một nguyên nhân cụ thể.

Hãy xem trường hợp của vắc-xin chống bệnh dại. Vào ngày 6 tháng 7 năm 1885, nhà hóa học người Pháp Louis Pasteur được giới thiệu với cậu bé chín tuổi Joseph Meister, vốn bị một con chó dại tấn công dã man. Trước đó Pasteur đã phát minh ra việc chủng ngừa và đang nghiên cứu một loại vắc-xin thử nghiệm chống bệnh dại. Cha mẹ của Meister xin Pasteur sử dụng vắc-xin để điều trị con trai của họ. Ông đồng ý, và Joseph Meister đã sống sót. Trên báo chí, Pasteur trở nên nổi tiếng vì đã cứu cậu bé khỏi một cái chết chắc chắn và đau đớn.

Nhưng có phải ông đã làm việc đó? Thực ra, trung bình chỉ có một trong bảy người bị chó dại cắn là mắc bệnh. Thậm chí giả sử vắc-xin thử nghiệm của Pasteur có hiệu quả, thì đã có tới khoảng 85 phần trăm khả năng là cậu bé sẽ sống sót.

Trong ví dụ này, việc dùng vắc-xin được xem là đã chữa khỏi cho Joseph Meister. Nhưng có hai mối quan hệ nhân quả được đặt ra: thứ nhất là giữa vắc-xin và vi-rút bệnh dại, thứ hai là giữa việc bị một con cắn và việc phát triển bệnh. Ngay cả khi điều thứ nhất đúng, điều thứ hai chỉ đúng trong một số ít trường hợp.

Các nhà khoa học đã vượt qua thách thức này để chứng minh quan hệ nhân quả thông qua các thí nghiệm, trong đó nguyên nhân giả định có thể được chấp nhận hoặc loại bỏ một cách cẩn thận. Nếu những tác động xuất hiện tương ứng với việc nguyên nhân đó được áp dụng hay không thì nó cho thấy một mối quan hệ nhân quả. Càng kiểm soát các tình huống một cách cẩn thận thì khả năng mối quan hệ nhân quả mà bạn đã xác định là chính xác càng cao.

Do đó, giống như các mối tương quan, quan hệ nhân quả có thể rất hiếm khi được chứng minh, mà chỉ xuất hiện với xác suất cao. Nhưng không giống như các mối tương quan, các thí nghiệm để suy ra các quan hệ nhân quả thường không thực tế hoặc tăng thách thức những vấn đề luân lý. Làm thế nào chúng ta có thể tiến hành một thử nghiệm quan hệ nhân quả để xác định lý do một số thuật ngữ tìm kiếm nhất định lại dự đoán được tốt nhất về bệnh cúm? Và với mũi tiêm bệnh dại, liệu chúng ta có đẩy hàng chục, có thể hàng trăm bệnh nhân - một phần trong “nhóm thực nghiệm,, không được tiêm - đến một cái chết đau đớn, mặc dù chúng ta đã có vắc-xin cho họ? Kể cả trường hợp thí nghiệm là thực tế, chúng vẫn còn đắt và tốn thời gian.

So với nó, việc phân tích phi-nhân-quả, chẳng hạn các mối tương quan, thường nhanh và rẻ tiền. Không giống như các liên kết nhân quả, chúng ta có các phương pháp toán học và thống kê để phân tích các mối quan hệ và các công cụ kỹ thuật số cần thiết để chứng minh sức mạnh của chúng với sự tự tin.

Hơn nữa, các mối tương quan không chỉ có giá trị cho riêng chúng mà còn vạch đường cho các cuộc điều tra nhân quả. Bàng cách cho chúng ta biết hai sự vật nào có khả năng liên kết, chúng cho phép ta tiếp tục điều tra xem một mối quan hệ nhân quả có tồn tại không, và nếu như vậy thì tại sao. Cơ chế lọc không tốn kém và nhanh này làm giảm chi phí của phân tích quan hệ nhân quả thông qua các thí nghiệm kiểm soát đặc biệt. Thông qua các mối tương quan chúng ta có thể có cái nhìn thoáng qua về các biến quan trọng mà sau đó chúng ta sử dụng trong các thí nghiệm để điều tra nguyên nhân.

Nhưng hãy cẩn trọng. Các mối tương quan là mạnh không chỉ vì chúng cung cấp những hiểu biết, mà còn vì những hiểu biết chúng cung cấp là tương đối rõ ràng. Những hiểu biết này thường bị che khuất khi chúng ta mang quan hệ nhân quả áp dụng vào tình huống. Ví dụ, Kaggle, một công ty tổ chức những cuộc thi khai-thác-dữ-liệu đã lập ra một cuộc thi vào năm 2012 về chất lượng của xe cũ, mở cho tất cả mọi người. Một đại lý xe cũ cung cấp dữ liệu cho các nhà thống kê tham gia cuộc thi để xây dựng một thuật toán nhằm dự đoán những chiếc xe bán đấu giá nào có khả năng gặp sự cố. Một phân tích tương quan cho thấy những chiếc xe sơn màu da cam ít bị khiếm khuyết hơn nhiều - khoảng một nửa tỷ lệ trung bình của các xe khác.

Ngay khi đọc điều này, chúng ta đã nghĩ tại sao nó lại có thể như vậy: Những người sở hữu xe hơi màu da cam có thể là những người đam mê xe hơi và chăm sóc xe của họ tốt hơn? Có phải với một màu đặc biệt nào đó, chiếc xe đã được sản xuất một cách cẩn thận hơn, được tinh chỉnh trong cả các khía cạnh khác nữa? Hoặc, có lẽ những chiếc xe màu cam là đáng chú ý hơn trên đường và do đó ít có khả năng bị tai nạn, vì vậy chúng ở trong tình trạng tốt hơn khi bán lại?

Chúng ta nhanh chóng bị vây hãm trong một lưới các giả thuyết nhân quả cạnh tranh với nhau. Nhưng những nỗ lực của chúng ta để làm sáng tỏ mọi việc theo cách này chỉ khiến cho chúng mờ mịt thêm. Các mối tương quan có tồn tại, chúng ta có thể biểu lộ chúng về mặt toán học. Nhưng chúng ta không thể dễ dàng làm điều tương tự cho các liên kết nhân quả. Vì vậy, chúng ta sẽ từ bỏ cố gắng giải thích lý do đằng sau các mối tương quan: tại sao thay vì cái gì. Nếu không, chúng ta có thể sẽ tư vấn cho những chủ sở hữu xe sơn những chiếc xe cũ của họ màu da cam để giúp cho máy ít bị hỏng - một suy nghĩ rất vô lý.

Trong những năm gần đây, các nhà khoa học đã cố gắng giảm chi phí thí nghiệm điều tra nhân quả, ví dụ bằng cách khéo léo kết hợp thêm các cuộc điều tra chọn mẫu thích hợp để tạo ra những cuộc “thử nghiệm giả”. Điều đó có thể giúp cho một số cuộc điều tra nhân quả trở nên dễ dàng hơn, nhưng vẫn khó lòng lấn át được lợi thế hiệu quả của các phương pháp phi-nhân-quả. hơn nữa, dữ liệu lớn tự nó hỗ trợ việc điều tra nhân quả vì nó hướng dẫn các chuyên gia hướng tới các nguyên nhân có triển vọng để điều tra. Trong nhiều trường hợp, việc tìm kiếm sâu hơn cho quan hệ nhân quả sẽ diễn ra sau khi dữ liệu lớn đã thực hiện công việc của mình, khi chúng ta đặc biệt muốn điều tra tại sao, chứ không chỉ đánh giá cao vấn đề cái gì.

Quan hệ nhân quả sẽ không bị loại bỏ, nhưng nó không còn được tôn thờ như suối nguồn của hiểu biết nữa. Dữ liệu lớn đã truyền năng lượng cho các phân tích phi-nhân-quả để chúng thường xuyên thay thế các điều tra nhân quả. Câu hỏi hóc búa về vụ nổ các hố ga ở Manhattan là một ví dụ điển hình.

Cuộc chiến giữa người và hố

Mỗi năm vài trăm hố ga tại thành phố New York bắt đầu âm ỉ vì bên trong chúng bắt lửa. Đôi khi các nắp cống bằng gang, trọng lượng tới 300 pound (khoảng 150 kg), phát nổ, văng lên không trung cao tới mấy tầng nhà trước khi rơi xuống mặt đất. Đây chẳng phải chuyện hay ho gì.

Con Edison, công ty tiện ích công cộng cung cấp điện của thành phố, thực hiện kiểm tra và bảo trì thường xuyên các hố ga hàng năm. Trong quá khứ, về cơ bản nó dựa trên may rủi, hy vọng rằng một hố ga trong kế hoạch kiểm tra có thể là một trong số đang sẵn sàng nổ. Như vậy còn tốt hơn chút ít so với chỉ dạo bước kiểm tra ngẫu nhiên xuống Phố Wall. Năm 2007 Con Edison nhờ tới các nhà thống kê tại Đại học Columbia với hy vọng họ có thể sử dụng dữ liệu lịch sử của công ty về mạng lưới hố ga, chẳng hạn như những sự cố trước đây và cơ sở hạ tầng nào được kết nối với nhau, để dự đoán những hố ga nào có khả năng gặp sự cố, như vậy công ty sẽ biết được nơi tập trung nguồn lực của mình.

Đó là một vấn đề dữ-liệu-lớn phức tạp. Có 94.000 dặm cáp ngầm trong thành phố New York, đủ để quấn xung quanh Trái đất ba vòng rưỡi. Chỉ riêng Manhattan đã có khoảng 51.000 hố ga và tủ điện. Một phần cơ sở hạ tầng này là từ thời Thomas Edison, thế nên công ty mới có tên như thế. Cứ 20 cáp thì có một đã được đặt trước năm 1930. Mặc dù hồ sơ được lưu giữ từ những năm 1880, nhưng chúng ở những dạng rất hỗn độn - và chưa bao giờ được tạo ra để phục vụ cho việc phân tích dữ liệu. Chúng đến từ bộ phận kế toán hoặc điều phối khẩn cấp nên được viết tay trên các “phiếu sự cố”. Nếu chỉ nói rằng dữ liệu hỗn độn nghĩa là đã nói giảm một cách trắng trợn. Một ví dụ: các nhà thống kê tường trình rằng cái gọi là “tủ điện”, một bộ phận phổ biến của cơ sở hạ tầng, có ít nhất 38 biến thể, chẳng hạn SB, S, S/B, S.B, S?B, S.B., SBX, S/BX, SB/X, S/XB, /SBX, S.BX, S&BX, S?BX, S BX, S/B/X, S BOX, SVBX, SERV BX, SERV-BOX, SERV/BOX, và SERVICE BOX. Một thuật toán máy tính phải hình dung ra tất cả những thứ đó.

“Các dữ liệu là vô cùng thô”, người đứng đầu dự án Cynthia Rudin, nhà thống kê và khai thác dữ liệu, nay ở MIT, nhớ lại. “Tôi đã có một bản in của tất cả các bảng cáp khác nhau. Nếu mở ra, bạn thậm chí không thể giữ nó mà không bị rơi xuống sàn nhà. Và bạn phải tìm được ý nghĩa từ tất cả những thứ đó - để đào bới chúng lên mà tìm vàng, hoặc làm bất cứ điều gì để có được một mô hình dự đoán thực sự tốt”.

Để làm việc, Rudin và nhóm của cô đã phải sử dụng tất cả các dữ liệu có sẵn, không chỉ là một mẫu, vì bất kỳ cái nào trong số hàng chục ngàn hố ga đều có thể là một quả bom nổ chậm đang đếm giờ. Vì vậy, nó nhất thiết hướng đến N = tất cả. Và mặc dù việc đưa ra được các lý lẽ mang tính nhân quả chắc hẳn rất hay ho, nhưng điều đó có thể cần cả một thế kỷ và kết quả vẫn sẽ sai hoặc không đầy đủ. Cách tốt hơn để thực hiện công việc là tìm các mối tương quan. Rudin ít quan tâm đến tại sao hơn cái nào - dù cô biết rằng khi nhóm ngồi đối diện các nhà điều hành của Con Edison, các chuyên viên thống kê phải biện minh cho cơ sở cách xếp thứ hạng của họ. Các dự đoán có thể được thực hiện bởi một cỗ máy, nhưng khách hàng lại là con người, và con người có xu hướng muốn tìm lý do, muốn hiểu.

Và việc khai thác dữ liệu làm lộ ra những thoi vàng mà Rudin hy vọng tìm thấy. Sau khi định dạng dữ liệu hỗn độn để máy tính có thể xử lý được, nhóm nghiên cứu bắt đầu với 106 dự đoán của một thảm họa hố ga lớn. Sau đó họ cô đọng danh sách cho một số ít các dấu hiệu mạnh nhất. Trong một thử nghiệm với mạng lưới điện của Bronx, họ đã phân tích tất cả các dữ liệu có trong tay, đến giữa năm 2008. Sau đó, họ sử dụng dữ liệu đó để dư đoán các điểm có vấn đề cho năm 2009. Nó đã đạt kết quả xuất sắc. Lần này nhóm 10 phần trăm hố ga nằm trên cùng trong danh sách của họ đã bao gồm tới 44 phần trăm các hố ga mà sau đó gặp sự cố nghiêm trọng.

Xét cho cùng, các yếu tố quan trọng nhất là tuổi của các dây cáp và liệu các hố ga đã trải qua những sự cố trước đó chưa. Những điều này hóa ra rất hữu ích, vì nó có nghĩa là dây cáp đồng của Con Edison có thể dễ dàng làm cơ sở cho việc xếp thứ hạng. Mà khoan. Tuổi và những sự cố trước đây sao? Chẳng phải chuyện đó hiển nhiên quá còn gì? Vâng, có và không. Một mặt, như nhà lý thuyết mạng Duncan Watts thường nói, “Một khi bạn đã biết câu trả lời thì mọi thứ đều tỏ ra hiển nhiên cả”. Nhưng mặt khác, điều quan trọng là phải nhớ rằng ngay từ đầu đã có tới 106 kiểu dự đoán trong mô hình. Việc đánh giá tầm quan trọng của chúng, sau đó xếp thứ tự ưu tiên cho hàng chục ngàn hố ga, mỗi hố với vô số biến đã tạo ra đến hàng triệu điểm dữ liệu, chưa kể bản thân dữ liệu không phải ở dạng có thể phân tích được. Chuyện này chẳng hề hiển nhiên hay rõ ràng.

Trường hợp những hố ga nổ nêu bật lên một điểm là dữ liệu đang được đưa vào sử dụng theo một cách mới để giải quyết các bài toán khó khăn trong thế-giới-thực. Tuy nhiên để đạt được điều này, chúng ta cần thay đổi cách làm việc. Chúng ta phải sử dụng tất cả các dữ liệu, nhiều nhất trong khả năng chúng ta có thể thu thập được, chứ không chỉ một phần nhỏ. Chúng ta phải chấp nhận sự hỗn độn thay vì xem sự chính xác như một ưu tiên hàng đầu. Và chúng ta phải đặt niềm tin của mình vào các mối tương quan mà không cần hiểu biết đầy đủ về cơ sở quan hệ nhân quả cho các dự đoán.

Sự kết thúc của lý thuyết?

Dữ liệu lớn thay đổi cách thức chúng ta hiểu và khám phá thế giới. Trong thời đại của dữ liệu nhỏ, chúng ta được định hướng bởi các giả thuyết về cách thức thế giới hoạt động, để rồi sau đó chúng ta mới cố gắng xác nhận chúng bằng cách thu thập và phân tích dữ liệu. Trong tương lai, sự hiểu biết của chúng ta sẽ được dẫn dắt bởi sự phong phú của dữ liệu hơn là bởi các giả thuyết.

Những giả thuyết này thường được bắt nguồn từ các lý thuyết về tự nhiên hay các khoa học xã hội, những thứ này lại giúp giải thích và/hoặc dự đoán thế giới xung quanh chúng ta. Khi chuyển đổi từ một thế giới được điều khiển bởi giả thuyết sang một thế giới được điều khiển bởi dữ liệu, chúng ta có thể dại dột nghĩ rằng mình không còn cần các lý thuyết nữa.

Năm 2008, tổng biên tập của tạp chí Wired Chris Anderson đã loan báo rằng “cuộc đại hồng thủy dữ liệu sẽ khiến phương pháp khoa học trở nên lỗi thời”. Trong một bài viết được giới thiệu ngay trang bìa có tên là “The Petabyte Age” (“Thời đại Petabyte”), ông tuyên bố rằng nó dẫn tới “sự kết thúc của lý thuyết”. Quá trình truyền thống của khám phá khoa học - một giả thuyết được kiểm nghiệm trên thực tế bằng cách sử dụng một mô hình của các quan hệ nhân quả nền tảng - đang trên đà biến mất, Anderson kết luận. Nó sẽ được thay thế bằng phân tích thống kê của các mối tương quan thuần túy, phi lý thuyết.

Để hỗ trợ cho lập luận của mình, Anderson mô tả vật lý lượng tử đã trở thành một lĩnh vực gần như hoàn toàn lý thuyết, bởi vì các thí nghiệm là quá đắt, quá phức tạp, và quá lớn nên không mang tính khả thi. ông chỉ ra rằng có lý thuyết chẳng liên quan gì với thực tế nữa. Để nêu ví dụ cho phương pháp mới, ông nhắc đến công cụ tìm kiếm Google và việc xác định trình tự gen. “Đây là thế giới mà những lượng lớn dữ liệu và môn toán học ứng dụng sẽ thay thế mọi công cụ khác”, ông viết. “Với đủ dữ liệu, các con số sẽ tự phát biểu cho chúng. Petabyte cho phép chúng ta khảng định: “Tính tương quan là đủ”.”

Bài báo mở ra một cuộc tranh luận dữ dội và rất đáng quan tâm, mặc dù Anderson nhanh chóng rút lại tuyên bố táo bạo của mình. Nhưng lý lẽ của ông đáng để xem xét. Về bản chất, Anderson khảng định rằng cho đến gần đây, khi muốn phân tích và hiểu thế giới xung quanh, chúng ta vẫn cần các lý thuyết để kiểm tra. Nhưng ngược lại, trong thời đại dữ-liệu-lớn, chúng ta không cần các lý thuyết nữa: chúng ta có thể chỉ nhìn vào dữ liệu. Nếu đúng như vậy, điều này sẽ cho thấy rằng tất cả các quy luật khái quát về cách thế giới hoạt động, cách con người cư xử, những gì người tiêu dùng mua, khi nào các bộ phận hỏng... đều có thể trở nên không thích hợp nữa khi bị thay thế bằng phân tích dữ liệu lớn.

“Sự kết thúc của lý thuyết” dường như ngụ ý rằng mặc dù các lý thuyết đã tồn tại trong các lĩnh vực chuyên môn như vật lý hay hóa học, việc phân tích dữ-liệu-lớn chẳng cần bất kỳ mô hình khái niệm nào. Điều này là phi lý.

Bản thân Dữ liệu lớn được hình thành dựa trên lý thuyết. Ví dụ, nó sử dụng các lý thuyết thống kê và toán học, và đôi khi sử dụng cả khoa học máy tính. Đúng, chúng không phải là những lý thuyết về động lực quan hệ nhân quả của một hiện tượng đặc biệt như trọng lực, nhưng dù sao chúng vẫn là những lý thuyết.

Và, như chúng ta đã chỉ ra, các mô hình dựa trên chúng có khả năng dự đoán rất hữu ích. Thật ra, dữ liệu lớn có thể cung cấp một cái nhìn tươi mát và những hiểu biết mới mẻ một cách chính xác vì nó không bị cản trở bởi lối suy nghĩ thông thường và những thành kiến cố hữu tiềm ẩn trong các lý thuyết của một lĩnh vực cụ thể.

Hơn nữa, vì việc phân tích dữ-liệu-lớn được dựa trên các lý thuyết, ta không thể thoát khỏi chúng. Chúng định hình cả các phương pháp và các kết quả của chúng ta. Trước tiên là cách chúng ta lựa chọn dữ liệu. Các quyết định của chúng ta có thể được định hướng bởi sự tiện lợi: Phải chăng dữ liệu đã có sẵn? Hoặc bởi tính kinh tế: Liệu có thể thu thập được dữ liệu một cách ít tốn kém? Lựa chọn của chúng ta bị ảnh hưởng bởi các lý thuyết. Những gì chúng ta chọn sẽ ảnh hưởng tới những gì chúng ta tìm thấy, như các nhà nghiên cứu công nghệ số Danah Boyd và Kate Crawford đã lập luận. Xét cho cùng, Google đã sử dụng các từ khóa tìm kiếm như một phương tiện đo lường cho dịch cúm, chứ không sử dụng độ dài của tóc người. Tương tự như vậy, khi phân tích dữ liệu, chúng ta chọn những công cụ dựa trên các lý thuyết. Và khi giải thích kết quả, chúng ta lại áp dụng các lý thuyết. Thời đại của dữ liệu lớn rõ ràng không phải là không có lý thuyết - chúng có mặt khắp mọi nơi, với tất cả những gì chúng thừa hưởng.

Anderson xứng đáng được vinh danh khi nêu lên những câu hỏi xác đáng - và đặc biệt là ông đã làm thế sớm hơn những người khác. Dữ liệu lớn có thể không chỉ rõ vào “Sự kết thúc của lý thuyết”, nhưng nó chuyển đổi một cách cơ bản cách chúng ta cảm nhận thế giới. Sự thay đổi này sẽ đòi hỏi rất nhiều công sức để làm quen. Nó thách thức nhiều tổ chức. Tuy nhiên, giá trị to lớn mà nó mang lại sẽ làm cho nó không chỉ là một sự đánh đổi đáng giá, mà còn là thứ không thể tránh khỏi.

Tuy nhiên trước khi đạt tới đó, cũng đáng để lưu tâm xem chúng ta đã tới đây như thế nào. Nhiều người trong ngành kỹ thuật cao muốn gán công trạng chuyển đổi cho các công cụ kỹ thuật số mới, từ các chip nhanh tới phần mềm hiệu quả, bởi vì họ là những người làm ra công cụ. Sự kỳ diệu của kỹ nghệ là quan trọng, nhưng không quan trọng nhiều như người ta tưởng. Lý do sâu xa hơn của những xu hướng này là chúng ta có nhiều dữ liệu hơn rất nhiều. Và lý do chúng ta có nhiều dữ liệu hơn là vì chúng ta đã đưa nhiều khía cạnh hơn của thực tế vào một định dạng dữ liệu, cũng chính là chủ đề của chương kế tiếp.

Lưu & chia sẻ:

Dữ Liệu Lớn - Big Data

Chương 4: Tương Quan

BẠN ĐANG BẬT CHẶN QUẢNG CÁO!