DỮ LIỆU LỚN ĐỀU LIÊN QUAN ĐẾN về việc nhìn và hiểu các mối quan hệ trong và giữa các mẩu thông tin, mà cho đến rất gần đây, chúng ta phải chật vật để nắm bắt được một cách đầy đủ. Theo chuyên gia dữ-liệu-lớn của IBM Jeff Jonas, bạn cần để cho dữ liệu “nói với mình”. Ở một mức độ nào đó điều này nghe có vẻ hiển nhiên. Con người đã xem xét dữ liệu để tìm hiểu về thế giới trong một thời gian dài, cho dù theo nghĩa không chính thức của vô số các quan sát chúng ta thực hiện mỗi ngày, chủ yếu là trong vài thế kỷ vừa qua, hay theo ý nghĩa chính thức của các đơn vị định lượng có thể được xử lý bằng những thuật toán mạnh mẽ.
Thời đại kỹ thuật số có thể đã làm cho việc xử lý dữ liệu dễ dàng hơn và nhanh hơn, để tính toán hàng triệu con số chỉ trong tích tắc. Nhưng khi đề cập đến việc dữ liệu lên tiếng, chúng ta đề cập tới một điều gì đó nhiều hơn - và khác hơn. Như đã lưu ý trong Chương Một, dữ liệu lớn là về ba sự chuyển đổi lớn lao của tư duy được nối kết với nhau và do đó củng cố lẫn nhau. Thứ nhất là khả năng phân tích lượng lớn dữ liệu về một chủ đề thay vì bị buộc phải thỏa mãn với những tập hợp nhỏ hơn. Thứ hai là sự sẵn sàng để đón nhận sự hỗn độn trong thế giới thực của dữ liệu thay vì đòi hỏi đặc quyền về tính chính xác. Thứ ba là sự tôn trọng ngày càng tăng đối với các mối tương quan thay vì việc tiếp tục truy tìm nhân quả rất khó nắm bắt. Chương này xem xét sự thay đổi thứ nhất: sử dụng tất cả các dữ liệu ta có thay vì chỉ một phần nhỏ của nó.
Thách thức trong việc xử lý những khối lượng lớn dữ liệu thực chất đã tồn tại từ khá lâu. Trong gần hết lịch sử, chúng ta đã làm việc với chỉ một ít dữ liệu vì các công cụ để thu thập, tổ chức, lưu trữ, và phân tích nó rất nghèo nàn. Chúng ta sàng lọc thông tin, giữ lại mức tối thiểu vừa đủ để có thể khảo sát được dễ dàng hơn. Đây là một hình thức của tự kiểm duyệt vô thức: chúng ta xử lý các khó khăn trong việc tương tác với dữ liệu như thể đó là những chuyện không may, chứ không phải như bản chất thật của nó - một hạn chế nhân tạo bị áp đặt bởi công nghệ vào thời điểm đó. Ngày nay, môi trường kỹ thuật đã thay đổi 179 độ. Vẫn còn, và luôn luôn sẽ còn, một hạn chế về dung lượng dữ liệu chúng ta có thể quản lý, nhưng hạn chế đó là ít hơn nhiều so với trước đây và sẽ càng ít hơn trong tương lai.
Theo một số cách nào đó, chúng ta vẫn chưa hoàn toàn đánh giá cao sự tự do mới của mình trong việc thu thập và sử dụng những khối lớn dữ liệu. Hầu hết kinh nghiệm và thiết kế tổ chức của chúng ta đã giả định rằng sự sẵn có của thông tin là hạn chế. Chúng ta chấp nhận chỉ có thể thu thập được một ít thông tin, và đó thường là những gì chúng ta đã làm. Nó đã trở thành sự tự thỏa mãn.
Chúng ta thậm chí còn phát triển các kỹ thuật phức tạp để sử dụng ít dữ liệu nhất có thể. Xét cho cùng, một mục đích của thống kê là để xác nhận một điều khám phá tuyệt vời nhất bằng cách sử dụng lượng dữ liệu ít nhất. Trong thực tế, chúng ta đã hệ thống hóa việc thực thi của mình để bóp nghẹt lượng thông tin chúng ta sử dụng trong các định mức, tiến trình, và cơ chế khuyến khích. Để có được một sự hình dung về ý nghĩa của sự chuyển dịch tới dữ liệu lớn, câu chuyện bắt đầu với một cái nhìn ngược thời gian.
Cho đến gần đây các công ty tư nhân, và ngày nay ngay cả các cá nhân, đã có thể thu thập và sắp xếp thông tin trên một quy mô lớn. Trước đây, công việc này thuộc các tổ chức lớn hơn như nhà thờ và nhà nước, mà trong nhiều xã hội chúng là đồng nhất. Ghi nhận lâu đời nhất của việc đếm là từ khoảng 5000 năm trước công nguyên, khi các thương nhân Sumer sử dụng những cục đất sét nhỏ để biểu thị hàng hóa khi buôn bán. Tuy nhiên việc đếm trên một quy mô lớn hơn lại thuộc phạm vi hoạt động của nhà nước. Qua nhiều thiên niên kỷ, các chính phủ đã cố gắng kiểm soát người dân của họ bằng cách thu thập thông tin.
Hãy xem việc điều tra dân số. Người Ai Cập cổ đại được cho là đã tiến hành những cuộc điều tra dân số, cũng như người Trung Hoa. Những việc này được đề cập đến trong Cựu Ước, và Tân Ước cho chúng ta biết Caesar Augustus đã áp đặt một cuộc điều tra dân số - “cả thế giới nên bị đánh thuế” - đưa Joseph và Maria đến Bethlehem, nơi Jesus đã sinh ra. Cuốn Domesday Book năm 1086, một trong những báu vật được sùng kính nhất của người Anh, tại thời gian đó, là một sự kiểm đếm toàn diện chưa từng có về người Anh cùng đất đai và tài sản của họ. Các ủy viên hoàng gia đã di khắp nơi, tổng hợp thông tin để đưa vào cuốn sách - sau đó mới có tên Domesday, hoặc Khải huyền, bởi vì quá trình này giống như Phán xét cuối cùng trong Kinh Thánh, khi cuộc sống của tất cả mọi người bị phơi bày.
Tiến hành điều tra dân số luôn tốn tiền và tốn thời gian. Vua William I, người ra lệnh thực hiện Domesday Book, đã không còn sống để nhìn thấy nó được hoàn thành. Nhưng lựa chọn duy nhất để khỏi phải mang gánh nặng này là từ bỏ thu thập thông tin. Và ngay cả sau khi tốn tất cả thời gian và chi phí, thông tin vẫn chỉ là gần đúng, vì những người đi điều tra không thể đếm được tất cả mọi người một cách hoàn hảo. Từ “điều tra dân số” xuất phát từ thuật ngữ La-tinh “censere” có nghĩa là “để ước tính”. Hơn ba trăm năm trước, một người Anh bán đồ may vá tên John Graunt đã có một ý tưởng mới lạ. Graunt muốn biết dân số London tại thời điểm bệnh dịch hạch. Thay vì đếm mỗi người, ông đã nghĩ ra một cách tiếp cận - mà ngày nay chúng ta gọi là “thống kê” - cho phép ông suy ra quy mô dân số. Cách tiếp cận của ông là thô, nhưng nó thiết lập ý tưởng rằng người ta có thể ngoại suy từ một mẫu nhỏ những hiểu biết hữu ích về dân số tổng quát. Nhưng cách người ta làm thế nào mới quan trọng. Graunt thì chỉ nhân rộng ra từ mẫu của mình.
Hệ thống của ông đã nổi tiếng, mặc dù sau đó chúng ta biết những con số của ông là hợp lý nhờ may mắn. Trải qua nhiều thế hệ, việc chọn mẫu vẫn sai sót rất lớn. Do đó với các cuộc điều tra dân số và những công việc dạng “dữ liệu lớn” tương tự, cách tiếp cận để cố gắng đếm tất cả vẫn là phổ biến.
Bởi các cuộc điều tra dân số rất phức tạp, tốn chi phí và tốn thời gian, nên chúng ít được thực hiện. Người La Mã cổ đại, vẫn tự hào với một dân số mấy trăm ngàn, thực hiện điều tra dân số năm năm một lần. Hiến pháp Hoa Kỳ bắt buộc một cuộc điều tra dân số trong mỗi thập kỷ, khi đất nước đang phát triển này có tới hàng triệu người. Nhưng vào cuối thế kỷ XIX, thậm chí việc này cũng trở nên khó khăn. Dữ liệu đã vượt quá khả năng xử lý của Cục Điều tra Dân số.
Điều gây sốc là cuộc điều tra dân số năm 1880 đã mất tám năm để hoàn thành. Thông tin đã trở thành lỗi thời ngay cả trước khi nó được công bố. Tệ hơn nữa, các quan chức ước tính việc điều tra dân số năm 1890 sẽ cần tới 13 năm để lập bảng - một tình trạng hết sức vô lý, chưa nói đến chuyện vi phạm Hiến pháp. Tuy nhiên, do việc phân chia các loại thuế và đại diện trong Quốc hội dựa trên dân số, nên việc có được không chỉ một con số chính xác mà còn phải kịp thời là rất cần thiết.
Vấn đề Cục Điều tra Dân số Hoa Kỳ phải đối mặt cũng tương tự với sự khó khăn của các nhà khoa học và doanh nhân vào đầu thiên niên kỷ mới, khi vấn đề trở nên rõ ràng là họ đã chết đuối trong dữ liệu: số lượng thông tin được thu thập đã hoàn toàn tràn ngập các công cụ được sử dụng để xử lý chúng, và người ta bắt buộc cần tới những kỹ thuật mới. Trong những năm 1880 tình hình nghiêm trọng tới mức Cục Điều tra Dân số ký hợp đồng với Herman Hollerith, một nhà phát minh người Mỹ, để sử dụng ý tưởng của ông về thẻ đục lỗ và máy lập bảng cho điều tra dân số năm 1890.
Với nỗ lực rất lớn, ông đã thành công trong việc rút ngắn thời gian lập bảng từ tám năm xuống dưới một năm. Đó là một thành tích tuyệt vời, đánh dấu việc bắt đầu xử lý dữ liệu tự động (và cung cấp nền tảng cho những gì sau này trở thành IBM).
Nhưng như một phương pháp thu nhận và phân tích dữ liệu lớn, nó vẫn còn rất tốn kém. Rốt cuộc, mỗi người tại Hoa Kỳ đều phải điền vào một mẫu đơn và các thông tin được chuyển vào một thẻ đục lỗ, được sử dụng để lập bảng. Với các phương pháp tốn kém như vậy, thật khó tưởng tượng nổi có thể thực hiện một cuộc điều tra dân số trong bất kỳ khoảng thời gian nào ngắn hơn một thập kỷ, mặc dù sự chậm trễ là không có ích lợi cho một quốc gia đang phát triển nhảy vọt.
Vấn đề là ở chỗ: Sử dụng tất cả dữ liệu, hay chỉ một chút ít? Lấy tất cả dữ liệu về những gì đang được đo đạc chắc chắn là điều hợp lý nhất. Nó chỉ không phải lúc nào cũng thực tế khi quy mô là rất lớn. Nhưng làm thế nào để chọn một mẫu? Một số người cho rằng việc xây dựng có mục đích một mẫu đại diện được cho toàn bộ sẽ là cách phù hợp nhất. Nhưng vào năm 1934, Jerzy Neyman, một nhà thống kê Ba Lan, đã chứng minh một cách ấn tượng rằng cách tiếp cận như vậy dẫn đến những sai sót rất lớn. Chìa khóa để tránh chúng là nhằm vào sự ngẫu nhiên để chọn thành phần đưa vào mẫu.
Các nhà thống kê đã chỉ ra rằng độ chính xác chọn mẫu được cải thiện rất đáng kể với sự ngẫu nhiên, chứ không phải với việc gia tăng kích thước mẫu. Trên thực tế, mặc dù nó có vẻ lạ thường, một mẫu được chọn ngẫu nhiên của 1.100 quan sát riêng lẻ trên một câu hỏi nhị phân (có hay không, với khoảng tỷ lệ bằng nhau) là đại diện đáng kể cho toàn dân. 19 trong 20 trường hợp, nó nằm trong khoảng biên độ 3 phần trăm lỗi, bất kể quy mô tổng dân số là một trăm ngàn hay một trăm triệu người. Lý do của điều này lại rất phức tạp về mặt toán học, nhưng câu trả lời ngắn gọn là sau một điểm nhất định, khi các con số ngày càng lớn lên, thì số lượng biên của thông tin mới mà chúng ta thu được từ mỗi quan sát sẽ ngày càng nhỏ đi. Thực tế, sự ngẫu nhiên quan trọng hơn cỡ mẫu là một hiểu biết sâu sắc đáng ngạc nhiên. Nó đã mở đường cho một cách tiếp cận mới để thu thập thông tin.
Dữ liệu sử dụng các mẫu ngẫu nhiên có thể được thu thập với chi phí thấp nhưng được ngoại suy với độ chính xác cao cho tổng thể. Kết quả là các chính phủ có thể tiến hành các phiên bản nhỏ của tổng điều tra sử dụng các mẫu ngẫu nhiên mỗi năm, thay vì chỉ làm một tổng điều tra trong mỗi thập kỷ. Và họ đã làm như vậy. Ví dụ Cục Điều tra Dân số Hoa Kỳ thực hiện hơn 200 cuộc điều tra kinh tế và dân số hàng năm dựa trên cơ sở lấy mẫu, để bổ sung cho cuộc tổng điều tra dân số mười năm một lần trong đó cố gắng đếm tất cả mọi người. Lấy mẫu là một giải pháp cho vấn đề quá tải thông tin trước đây, khi việc thu thập và phân tích dữ liệu rất khó thực hiện.
Các ứng dụng của phương pháp mới này nhanh chóng vượt ra khỏi khu vực công và các cuộc tổng điều tra. Về bản chất, lấy mẫu ngẫu nhiên làm giảm những vấn đề dữ liệu lớn xuống thành những vấn đề dữ liệu dễ quản lý hơn. Trong kinh doanh, nó được sử dụng để đảm bảo chất lượng sản xuất - làm cho các cải tiến trở nên dễ dàng hơn và ít tốn kém hơn. Kiểm tra chất lượng toàn diện lúc đầu đòi hỏi phải nhìn vào từng sản phẩm đơn lẻ đi ra từ băng chuyền; bây giờ một mẫu ngẫu nhiên để kiểm tra cho một loạt sản phẩm là đủ. Tương tự như vậy, phương pháp mới đã mở ra các cuộc khảo sát người tiêu dùng trong bán lẻ và các cuộc thăm dò trong chính trị. Nó đã chuyển đổi một phần đáng kể những gì chúng ta vẫn gọi là các ngành nhân văn trở thành các ngành khoa học xã hội.
Lấy mẫu ngẫu nhiên đã là một thành công lớn và là xương sống của đo lường hiện đại có quy mô lớn. Nhưng nó chỉ là một đường tắt, một lựa chọn tốt thứ hai để thu thập và phân tích tập dữ liệu đầy đủ. Nó đi kèm với một số điểm yếu cố hữu. Độ chính xác của nó phụ thuộc vào việc đảm bảo tính ngẫu nhiên khi thu thập dữ liệu mẫu, nhưng đạt được ngẫu nhiên như vậy là khó khăn. Những thành kiến có hệ thống trong cách thức dữ liệu được thu thập có thể dẫn đến các kết quả ngoại suy rất sai.
Có những dẫn chứng cho những vấn đề như vậy trong phỏng vấn bầu cử sử dụng điện thoại cố định. Mẩu bị thành kiến đối với những người chỉ sử dụng điện thoại di động (những người trẻ hơn và tự do hơn), như nhà thống kê Nate Silver đã chỉ ra. Điều này đã dẫn đến những dự đoán bầu cử không chính xác. Trong cuộc bầu cử tổng thống năm 2008 giữa Barack Obama và John McCain, các tổ chức thăm dò chính của Gallup, Pew, và ABC/Washington Post tìm thấy sự khác biệt từ một đến ba điểm phần trăm, khi họ thăm dò có và không có sự điều chỉnh cho người sử dụng điện thoại di động - một biên độ đáng kể nếu xét tới độ sát sao của cuộc đua.
Rắc rối nhất là lấy mẫu ngẫu nhiên không dễ dàng mở rộng được để bao gồm các tiểu thể loại, vì khi chia kết quả thành các nhóm con nhỏ hơn sẽ làm tăng khả năng dự đoán sai. Thật dễ dàng hiểu lý do. Giả sử bạn thăm dò ý kiến một mẫu ngẫu nhiên của 1.000 người về ý định bỏ phiếu của họ trong cuộc bầu cử sắp tói. Nếu mẫu của bạn là đủ ngẫu nhiên, khả năng có thể xảy ra là ý kiến của toàn bộ dân số sẽ ở trong phạm vi 3 phần trăm của các quan điểm trong mẫu. Nhưng sẽ ra sao nếu cộng hoặc trừ 3 phần trăm là không đủ chính xác? Hoặc sẽ ra sao nếu sau đó bạn muốn chia nhóm thành những nhóm nhỏ hơn, với giới tính, địa lý, hoặc thu nhập?
Và điều gì sẽ xảy ra nếu bạn muốn kết hợp các phân nhóm này để nhắm tới một nhóm dân số thích hợp? Trong một mẫu tổng thể của 1.000 người, một phân nhóm như “nữ cử tri giàu có ở vùng Đông Bắc” sẽ nhỏ hơn 100 nhiều. Chỉ sử dụng vài chục quan sát để dự đoán những ý định bỏ phiếu của tất cả các nữ cử tri giàu có ở vùng Đông Bắc sẽ là không chính xác ngay cả với sự ngẫu nhiên gần như hoàn hảo. Và những thành kiến nhỏ nhất trong mẫu tổng thể sẽ làm cho các lỗi trở thành rõ rệt hơn ở mức độ phân nhóm.
Do đó, việc lấy mẫu một cách nhanh chóng không còn hữu ích khi bạn muốn đi sâu hơn, để có một cái nhìn gần hơn đối với một số tiểu thể loại hấp dẫn trong dữ liệu. Những gì hoạt động được ở tầm vĩ mô lại thất bại hoàn toàn ở tầm vi mô. Lấy mẫu giống như một bức in ảnh analog. Nó trông đẹp từ một khoảng cách, nhưng khi bạn ngắm gần hơn, phóng to một chi tiết đặc biệt thì nó bị mờ. Lấy mẫu cũng đòi hỏi phải lập kế hoạch và thực hiện cẩn thận. Người ta thường không thể “hỏi” mẫu những câu hỏi mới nếu chúng chưa được dự liệu ngay từ đầu. Vì vậy, mặc dù là một đường tắt rất hữu ích, sự đánh đổi ở đây quả thực chỉ đơn thuần là một đường tắt. Khi là một mẫu chứ không phải tất cả, tập dữ liệu thiếu khả năng mở rộng nhất định hoặc tính mềm dẻo, theo đó cùng một dữ liệu có thể được phân tích lại theo một cách hoàn toàn mới so với mục đích mà ban đầu nó được thu thập.
Hãy xem xét trường hợp phân tích DNA. Chi phí để xác định trình tự gen của một cá nhân là gần 1.000 đôla vào năm 2012, khiến nó gần trở thành một kỹ thuật thị trường đại chúng có thể được thực hiện theo quy mô lớn. Kết quả là một ngành công nghiệp mới xác định trình tự gen cá nhân được ra đời. Từ năm 2007, công ty 23andMe ở Thung Lũng Silicon đã phân tích DNA của người với giá chỉ vài trăm đôla. Kỹ thuật của nó có thể tiết lộ những đặc điểm trong mã di truyền của người có thể làm cho họ dễ bị mắc một số bệnh như ung thư vú hoặc các vấn đề về tim. Và bằng cách tập hợp thông tin DNA và sức khỏe của khách hàng, 23andMe hy vọng sẽ học hỏi được những điều mới mẻ không thể phát hiện được bằng những phương cách khác.
Nhưng có một cản trở. Công ty xác định trình tự chỉ một phần nhỏ mã di truyền của một người: những nơi đã được biết là dấu hiệu cho thấy những điểm yếu di truyền đặc biệt. Trong khi đó, hàng tỷ cặp DNA cơ sở vẫn chưa được xác định trình tự. Do đó 23andMe chỉ có thể trả lời những câu hỏi về các dấu hiệu mà nó xem xét. Bất cứ khi nào một dấu hiệu mới được phát hiện, DNA của một người (hay chính xác hơn, phần liên quan của nó) phải được xác định trình tự lại. Làm việc với một tập hợp con, chứ không phải là toàn bộ, đòi hỏi một sự đánh đổi: công ty có thể thấy những gì họ tìm kiếm một cách nhanh hơn và rẻ hơn, nhưng nó không thể trả lời được những câu hỏi mà nó không xem xét từ trước.
Giám đốc điều hành huyền thoại Steve Jobs của Apple đã thực hiện một tiếp cận hoàn toàn khác trong cuộc chiến của ông chống lại bệnh ung thư. Ông trở thành một trong những người đầu tiên trên thế giới để toàn bộ DNA của mình cũng như của khối u của ông được xác định trình tự. Để làm điều này, ông đã trả một khoản tiền sáu con số - hàng trăm lần so với giá 23andMe tính. Đổi lại, ông đã nhận được không phải một mẫu, một tập hợp nhỏ các dấu hiệu, mà là một tệp dữ liệu chứa toàn bộ các mã di truyền.
Khi lựa chọn thuốc cho một bệnh nhân ung thư thông thường, các bác sĩ phải hy vọng DNA của bệnh nhân là đủ tương tự như của những người tham gia vào thử nghiệm loại thuốc. Còn đội ngũ bác sĩ của Steve Jobs thì có thể lựa chọn các phương pháp điều trị theo cách chúng tác động tốt như thế nào đối với cấu tạo di truyền cụ thể của ông. Bất cứ khi nào một hướng điều trị mất hiệu quả vì ung thư đột biến và kháng cự được nó, các bác sĩ có thể chuyển sang một loại thuốc khác - “nhảy từ một giỏ hoa huệ này sang một giỏ khác”, như Jobs từng mô tả. “Tôi hoặc sẽ là một trong những người đầu tiên có thể chạy nhanh hơn căn bệnh ung thư như thế này hoặc sẽ là một trong những người cuối cùng chết vì nó”, ông nói đùa. Mặc dù rất đáng buồn khi dự đoán của ông không được hoàn thành, những phương pháp này - có tất cả các dữ liệu, chứ không chỉ một phần nhỏ - đã cho ông thêm nhiều năm sống.
Từ một số tới tất cả
Lấy mẫu là một kết quả tự nhiên trong thời đại của những hạn chế về xử lý thông tin, khi con người đo đạc thế giới nhưng lại thiếu các công cụ để phân tích những gì họ thu thập được.
Thế nên nó cũng là một di tích của thời đại ấy. Những khiếm khuyết trong tính toán và lập bảng hiện nay không còn tồn tại ở cùng mức độ đó nữa. Các cảm biến, điện thoại di động GPS, những cú nhấp chuột trên web, và Twitter thu thập dữ liệu thụ động; máy tính có thể nghiền các con số này ngày càng dễ dàng hơn.
Tuy nhiên, việc lấy mẫu đi kèm với một chi phí mà từ lâu đã được thừa nhận nhưng bị đẩy sang một bên: Nó làm mất đi chi tiết. Trong một số trường hợp, rõ ràng không có cách nào khác ngoài lấy mẫu. Tuy nhiên, trong nhiều lĩnh vực đang diễn ra một sự thay đổi từ thu thập một số dữ liệu sang thu thập càng nhiều càng tốt, và nếu có thể, thì lấy tất cả mọi thứ: N = tất cả.
Như chúng ta đã thấy, sử dụng N = tất cả có nghĩa chúng ta có thể đi sâu vào dữ liệu; mẫu không thể làm được điều đó. Thứ hai, hãy nhớ lại rằng trong ví dụ về lấy mẫu ở trên, chúng ta chỉ có một biên độ 3 phần trăm lỗi khi ngoại suy cho toàn bộ dân số. Đối với một số tình huống, biên độ lỗi đó là tốt. Nhưng bạn bị mất các chi tiết, độ chi tiết, khả năng xem xét kỹ hơn ở những phân nhóm nhất định. Một phân phối chuẩn, than ôi, chỉ đạt mức tiêu chuẩn. Thông thường, những điều thực sự thú vị trong cuộc sống lại được tìm thấy ở những nơi mà mẫu không nắm bắt được đầy đủ.
Do đó Xu hướng Dịch cúm của Google không dựa trên một mẫu ngẫu nhiên nhỏ, mà thay vào đó sử dụng hàng tỷ truy vấn Internet ở Mỹ. Việc sử dụng tất cả .dữ liệu chứ không phải chỉ một mẫu nhỏ đã cải thiện việc phân tích sâu xuống tới mức dự đoán được sự lây lan của bệnh cúm trong một thành phố cụ thể chứ không phải chỉ trong một tiểu bang hay toàn bộ quốc gia.
Oren Etzioni của Farecast ban đầu đã sử dụng 12 ngàn điểm dữ liệu, một mẫu, và nó đã hoạt động tốt.
Nhưng khi Etzioni thêm nhiều dữ liệu hơn, chất lượng của các dự báo được cải thiện. Cuối cùng, Farecast đã sử dụng các hồ sơ chuyến bay nội địa của hầu hết các tuyến đường trong cả một năm. “Đây là dữ liệu tạm thời - bạn chỉ cần tiếp tục thu thập nó theo thời gian, và khi bạn làm như vậy, bạn sẽ có được cái nhìn ngày càng sâu sắc hơn vào các khuôn mẫu”, Etzioni cho biết.
Vì vậy, chúng ta sẽ luôn thấy ổn khi bỏ con đường tắt lấy mẫu ngẫu nhiên sang bên và nhắm tới dữ liệu toàn diện hơn để thay thế. Làm như vậy đòi hỏi phải có sức mạnh xử lý và lưu trữ phong phú cũng như các công cụ tiên tiến để phân tích tất cả. Nó cũng đòi hỏi những cách thức dễ dàng và giá cả phải chăng để thu thập dữ liệu. Trong quá khứ, mỗi thứ này là một thách đố đắt giá. Nhưng hiện nay chi phí và độ phức tạp của tất cả các mảnh ghép này đã giảm đáng kể. Những gì trước đây là phạm vi của chỉ các công ty lớn nhất thì bây giờ lại khả thi cho hầu như tất cả.
Sử dụng tất cả dữ liệu cho phép phát hiện các kết nối và chi tiết mà bình thường sẽ bị che giấu trong sự bao la của thông tin. Ví dụ, việc phát hiện các gian lận thẻ tín dụng hoạt động bằng cách tìm kiếm những bất thường, và cách tốt nhất để tìm ra chúng là nghiền tất cả dữ liệu thay vì một mẫu. Các giá trị ngoại lai là những thông tin thú vị nhất, và bạn chỉ có thể nhận ra chúng khi so sánh với hàng loạt giao dịch bình thường. Nó là một vấn đề về dữ liệu lớn. Và bởi vì các giao dịch thẻ tín dụng xảy ra tức thời, nên việc phân tích thường phải được thực hiện trong thời gian thực.
Xoom là một công ty chuyên về chuyển tiền quốc tế và được hỗ trợ bởi những tên tuổi lớn trong lĩnh vực dữ liệu lớn. Nó phân tích tất cả dữ liệu liên quan tới các giao dịch mà nó xử lý. Hệ thống tăng mức báo động vào năm 2011 khi nó nhận thấy số lượng giao dịch thẻ Discovery có nguồn gốc từ New Jersey hơi cao hơn một chút so với trung bình. “Nó nhận thấy một mô hình mà đáng ra không được như vậy”, John Kunze, giám đốc điều hành của Xoom, giải thích. Xét riêng thì mỗi giao dịch có vẻ hợp pháp. Nhưng cuối cùng thì hóa ra chúng đến từ một nhóm tội phạm. Cách duy nhất để phát hiện sự bất thường là khảo sát tất cả dữ liệu - việc lấy mẫu có thể đã bỏ sót nó.
Sử dụng tất cả các dữ liệu không nhất thiết phải là một công việc rất lớn. Dữ liệu lớn không cần thiết phải lớn một cách tuyệt đối, mặc dù thường thì nó là như vậy. Xu hướng Dịch cúm của Google điều chỉnh các dự đoán của nó trên hàng trăm triệu bài tập mô hình hóa toán học sử dụng hàng tỷ điểm dữ liệu. Việc xác định trình tự đầy đủ của một gen người đưa đến con số ba tỷ cặp cơ sở. Nhưng chỉ xét riêng con số tuyệt đối của các điểm dữ liệu, kích thước của bộ dữ liệu, thì không phải là điều làm cho những thứ này thành những ví dụ của dữ liệu lớn. Thứ xếp loại chúng thành dữ liệu lớn là thay vì sử dụng đường tắt của một mẫu ngẫu nhiên, cả Xu hướng Dịch cúm và các bác sĩ của Steve Jobs đều đã sử dụng toàn bộ dữ liệu ở mức nhiều nhất mà họ có thể.
Phát hiện ra chuyện gian lận trong thi đấu của môn thể thao quốc gia của Nhật Bản, đấu vật sumo, là một minh họa hay tại sao sử dụng N = tất cả không nhất thiết có nghĩa là lớn. Những trận đấu bị dàn xếp vốn luôn bị buộc tội phá hoại môn thể thao của các hoàng đế, và người ta luôn hùng hồn chối biến. Steven Levitt, một nhà kinh tế tại Đại học Chicago, đã xem xét những sai trái trong bộ hồ sơ hơn một thập kỷ của các trận đấu gần đây - tất cả các trận đấu. Trong một bài nghiên cứu thú vị được công bố trên tờ American Economic Review và được đăng lại trong cuốn sách Freakonomics, ông và một đồng nghiệp đã mô tả tính hữu ích của việc khảo sát nhiều dữ liệu như vậy.
Họ đã phân tích 11 năm số liệu của các trận đấu sumo, hơn 64.000 trận đấu vật, để săn lùng những sự bất thường. Và họ đã bắt được vàng. Việc dàn xếp trận đấu đã thực sự diễn ra, nhưng không phải ở nơi hầu hết mọi người nghi ngờ. Thay vì trong những cuộc đọ sức tranh ngôi vô địch, có thể bị gian lận hoặc không, dữ liệu cho thấy một điều hài hước đã xảy ra trong các trận đấu kết thúc giải vốn không mấy ai chú ý. Có vẻ như ít thứ bị đe dọa, vì các đô vật này không còn cơ hội chiến thắng một danh hiệu nào.
Tuy nhiên, một đặc thù của sumo là đô vật cần phải thắng nhiều hơn thua tại các giải 15 trận đấu để duy trì thứ hạng và thu nhập của họ. Điều này đôi khi dẫn đến sự chênh lệch về lợi ích, khi một đô vật với tỷ lệ 7-7 sẽ gặp một đối thủ có tỉ lệ 8-6 hoặc tốt hơn. Kết quả có ý nghĩa rất lớn đối với đô vật thứ nhất và không có tí ý nghĩa gì cho người thứ hai. Trong những trường hợp này, việc phân tích số liệu đã cho thấy rằng đô vật cần chiến thắng thường sẽ giành chiến thắng.
Những người cần chiến thắng đã thi đấu kiên cường hơn chăng? Có lẽ. Nhưng các dữ liệu cho thấy còn có một cái gì đó khác nữa xảy ra. Các đô vật cần thắng thường thắng khoảng 25 phần trăm nhiều hơn bình thường. Thật khó để gán một sự khác biệt lớn đến vậy cho riêng chỉ hoóc-môn kích thích từ tuyến thượng thận adrenaline. Khi dữ liệu được phân tích xa hơn, nó cho thấy ngay lần kế tiếp hai đô vật gặp lại, người thua trong trận trước rất thường giành chiến thắng so với khi họ thi đấu trong những trận về sau. Vì vậy, chiến thắng đầu tiên dường như là một “món quà” của một đối thủ cạnh tranh cho đối thủ kia, vì đặc điểm có qua có lại trong thế giới đan chen chặt chẽ của sumo.
Thông tin này vẫn luôn luôn rõ ràng. Nó tồn tại sờ sờ trước mắt. Tuy nhiên việc lấy mẫu ngẫu nhiên của các trận đấu đã không tiết lộ nó. Lý do là mặc dù nó dựa trên các thống kê cơ bản, nhưng nếu không biết tìm kiếm cái gì, người ta sẽ không biết phải sử dụng mẫu nào. Ngược lại, Levitt và đồng nghiệp của ông đã phát hiện ra nó bằng cách sử dụng một tập hợp dữ liệu lớn hơn nhiều - cố gắng kiểm tra toàn bộ các trận đấu. Một cuộc điều tra sử dụng dữ liệu lớn gần giống như một chuyên đi câu: ngay từ đầu nó đã không rõ ràng, kể cả chuyện liệu có câu được món nào chăng và món đó có thể là cái gì.
Bộ dữ liệu không cần lớn tới tera byte. Trong trường hợp sumo, toàn bộ bộ dữ liệu chứa đựng ít bit hơn so với một bức ảnh kỹ thuật số điển hình ngày nay. Nhưng vì phân tích dữ-liệu-lớn, nó xem xét nhiều hơn so với một mẫu ngẫu nhiên điển hình. Khi nói về dữ liệu lớn, chúng ta có ý nói “lớn” trong tương đối hơn là trong tuyệt đối: tương đối so với tập hợp toàn diện của dữ liệu.
Trong một thời gian dài, lấy mẫu ngẫu nhiên là một cách đi tắt hiệu quả. Nó làm cho việc phân tích các bài toán dữ liệu lớn nhất thành khả hiện trong thời kỳ tiền kỹ thuật số. Nhưng cũng giống như khi chuyển đổi một tấm ảnh hoặc bài hát kỹ thuật số vào một tập tin nhỏ hơn, thông tin bị mất khi lấy mẫu. Việc có đầy đủ (hoặc gần đầy đủ) tập dữ liệu sẽ tạo điều kiện tốt hơn để khám phá, để nhìn vào dữ liệu từ các góc độ khác nhau hoặc để xem xét kỹ hơn các khía cạnh nhất định của nó. Một cách so sánh phù hợp có thể là máy ảnh Lytro, không chỉ chụp một mặt phảng ánh sáng đơn nhất, như với những máy ảnh thông thường, mà chụp tất cả các tia từ toàn bộ trường ánh sáng, khoảng 11 triệu phần tử. Người chụp hình sau đó có thể quyết định tập trung vào yếu tố nào của ảnh trong tập tin kỹ thuật số. Như vậy, không cần phải tập trung ngay từ đầu, bởi việc thu thập tất cả các thông tin cho phép có thể làm điều đó về sau.
Phim minh họa máy ảnh Lytro
Tương tự như vậy, vì dữ liệu lớn dựa trên tất cả các thông tin, hoặc nhiều thông tin nhất có thể, nên nó cho phép chúng ta nhìn vào các chi tiết hoặc thử nghiệm các phân tích mới mà không ngại rủi ro bị mất chất lượng. Chúng ta có thể kiểm tra các giả thuyết mới ở nhiều cấp độ chi tiết. Tính chất này chính là thứ cho phép chúng ta thấy được sự gian lận trong các trận đấu vật sumo, theo dõi sự lây lan của virus cúm theo vùng, và chống ung thư bằng cách nhắm vào một phần chính xác trên DNA của bệnh nhân. Nó cho phép chúng ta làm việc ở một mức độ rõ ràng tuyệt vời.
Tất nhiên, việc sử dụng tất cả các dữ liệu thay vì một mẫu không phải là luôn luôn cần thiết. Chúng ta vẫn sống trong một thế giới có nguồn lực hạn chế. Nhưng trong ngày càng nhiều trường hợp thì việc sử dụng tất cả các dữ liệu có trong tay tỏ ra hợp lý, và làm như vậy là khả thi trong khi trước đây thì không.
Một trong các lĩnh vực chịu tác động mạnh nhất bởi N = tất cả là khoa học xã hội. Chúng đã mất đi độc quyền trong việc làm nên ý nghĩa cho dữ liệu thực nghiệm xã hội, khi phân tích dữ liệu lớn thay thế các chuyên gia khảo sát có tay nghề cao trong quá khứ. Các ngành khoa học xã hội chủ yếu dựa trên các nghiên cứu lấy mẫu và bảng câu hỏi. Nhưng khi dữ liệu được thu thập một cách thụ động trong khi mọi người tiếp tục làm những gì họ vẫn thường làm, thì những định kiến cũ liên quan đến lấy mẫu và bảng câu hỏi biến mất. Bây giờ chúng ta có thể thu thập được những thông tin mà ta không thể thu thập nổi trước đây, đó có thể là những mối quan hệ tiết lộ qua các cuộc gọi điện thoại di động hay những cảm xúc bộc lộ qua tweet. Quan trọng hơn, sự cần thiết phải lấy mẫu biến mất.
Albert-László Barabási, một trong những chuyên gia uy tín hàng đầu thế giới về khoa học lý thuyết mạng, muốn nghiên cứu sự tương tác giữa con người ở quy mô của toàn bộ dân số. Vì vậy, ông và các đồng nghiệp đã khảo sát các bản lưu ẩn danh của các cuộc gọi điện thoại di động từ một nhà điều hành phục vụ khoảng một phần năm dân số của một quốc gia châu Âu không xác định - tất cả các bản lưu trong thời gian bốn tháng. Đó là phân tích mạng lưới đầu tiên ở mức độ toàn xã hội, sử dụng một bộ dữ liệu trong tinh thần của N = tất cả. Một quy mô lớn như vậy - xem xét tất cả các cuộc gọi giữa hàng triệu người - đã tạo ra những hiểu biết mới không thể phát hiện được bằng bất kỳ phương cách nào khác.
Điều thú vị là trái ngược với các nghiên cứu nhỏ hơn, nhóm nghiên cứu phát hiện ra rằng nếu loại bỏ khỏi mạng lưới những người có nhiều liên kết ngay trong cộng đồng này, thì mạng xã hội còn lại sẽ giảm chất lượng nhưng không sụp đổ. Ngược lại, khi những người có liên kết bên ngoài cộng đồng trực tiếp này được mang ra khỏi mạng, thì mạng xã hội đột ngột tan rã, giống như cấu trúc của nó bị khóa. Đó là một kết quả quan trọng, nhưng phần nào bất ngờ. Ai có thể nghĩ rằng những người có rất nhiều bạn bè thân thiết lại ít quan trọng hơn nhiều đối với sự ổn định của cấu trúc mạng so với những người có quan hệ với những người ở xa hơn? Nó cho thấy rằng sự đa dạng trong một nhóm và trong xã hội nói chung có một tầm quan trọng đặc biệt.
Chúng ta có xu hướng nghĩ về mẫu thống kê như một loại nền tảng bất biến, giống như các nguyên lý của hình học, hay các định luật của lực hấp dẫn. Tuy nhiên, khái niệm này mới ra đời chưa đầy một thế kỷ, và nó được phát triển để giải quyết một bài toán đặc biệt tại một thời điểm đặc biệt dưới những hạn chế cụ thể về công nghệ. Những hạn chế này không còn tồn tại với cùng mức độ nữa. Việc cố đạt được một mẫu ngẫu nhiên trong thời đại của dữ liệu lớn cũng giống như việc níu chặt một cây roi ngựa trong thời đại của xe hơi. Chúng ta vẫn có thể áp dụng cách lấy mẫu trong những hoàn cảnh nhất định, nhưng nó không cần, và sẽ không là cách chiếm ưu thế để chúng ta phân tích các bộ dữ liệu lớn. Càng ngày tất cả chúng ta sẽ càng nhắm đến điều đó.