Paul Meehl là một nhân vật kỳ lạ và thú vị, là một trong những nhà tâm lý học đa tài nhất của thế kỷ XX. Các bộ môn mà ông giảng dạy tại Đại học Minnesota đó là Tâm lý học, Luật học, Tâm thần học, Thần kinh học và Triết học. Ông cũng viết sách về tôn giáo, khoa học chính trị và nghiên cứu thí nghiệm trên chuột. Ông cũng là một nhà nghiên cứu thống kê nghiêm túc và là một nhà phê bình nghiêm khắc về các tuyên bố sáo rỗng trong lĩnh vực Tâm lý học lâm sàng, Tâm phân học thực hành. Ông đã viết những bài luận rất sâu sắc về các nghiên cứu Tâm lý học dựa trên các cơ sở triết học mà tôi gần như thuộc làu khi còn là một sinh viên mới tốt nghiệp. Tôi chưa từng được diện kiến Meehl, nhưng ông là một trong những vị anh hùng của tôi từ thời tôi đọc tác phẩm Clinical vs. Statistical Prediction: A Theoretical Analysis and a Review of the Evidence ( Tạm dịch: Chẩn đoán lâm sàng đấu lại với dự báo thống kê: Các phép phân tích lý thuyết và một nhận định về dấu hiệu) của ông.
Trong tập sách mỏng mà sau này ông gọi là “cuốn sách nhỏ gây xáo trộn của tôi”, Meehl đã rà soát và phân tích các kết quả của 20 cuộc nghiên cứu xem liệu rằng các chẩn đoán lâm sàng dựa trên những cảm tưởng chủ quan của các chuyên gia lành nghề có chính xác hơn các dự đoán thống kê được đưa ra bằng việc tổng hợp một vài kết quả hoặc thứ hạng tuân theo một quy tắc nhất định hay không. Trong một nghiên cứu điển hình, các tư vấn viên lành nghề đã dự đoán điểm số của sinh viên năm nhất vào năm cuối của niên khóa. Các tư vấn viên đã phỏng vấn từng sinh viên một trong khoảng thời gian 45 phút. Họ cũng truy cập vào các bảng điểm thời trung học, một vài bài kiểm tra năng khiếu, và bản kê khai cá nhân dài bốn trang của từng sinh viên. Thuật toán thống kê đã sử dụng một phân số duy nhất của thông tin dưới đây: Bảng điểm trung học và một bài kiểm tra năng khiếu. Tuy nhiên, phép tính đã chính xác hơn ở 11 nhà tư vấn trong số 14 nhà tư vấn. Nhìn chung Meehl đã báo cáo các kết quả thu được tương tự như một loạt các kết quả dự báo khác, bao gồm cả những hành động vi phạm cam kết, thành quả trong việc huấn luyện hoa tiêu và sự tái phạm tội phạm hình sự.
Không có gì làm lạ, cuốn sách của Meehl đã gây ra cú sốc và sự hoài nghi đối với một số nhà Tâm lý học lâm sàng và cuộc tranh cãi châm ngòi cho sự nảy sinh ra một chuỗi các nghiên cứu mà cho tới ngày nay vẫn còn tiếp nối, hơn 50 năm sau khi cuốn sách được xuất bản. Số lượng các nghiên cứu về những so sánh giữa các chẩn đoán lâm sàng và dự đoán thống kê tăng nhanh tới con số 200 nhưng điểm số trong cuộc tranh luận giữa các thuật toán và con người vẫn chưa hề thay đổi. Khoảng 60% các cuộc nghiên cứu đã cho thấy độ chính xác nhiều hơn trong các thuật toán. Các cuộc so sánh khác đã ghi nhận một tỷ lệ chính xác bằng nhau, nhưng một tỷ lệ bằng nhau cũng tương đương với một chiến thắng đối với các quy luật thống kê, vì ít tốn kém hơn so với việc sử dụng lời khuyên của các chuyên gia. Không có bất cứ trường hợp ngoại lệ nào đã được chứng minh là có sức thuyết phục.
Phạm vi của các kết quả có thể dự đoán đã được mở rộng nhằm bao trùm cả vấn đề y học hay thay đổi như tuổi thọ của các bệnh nhân ung thư, thời gian nằm viện, chẩn đoán bệnh tim, tính mẫn cảm của những đứa bé trước hội chứng đột tử ở trẻ sơ sinh; các biện pháp kinh tế như những triển vọng thành công cho các doanh nghiệp trẻ, đánh giá mức rủi ro tín dụng của các ngân hàng, sự thỏa mãn nghề nghiệp cho người lao động; những vấn đề đáng quan tâm với các cơ quan chính phủ, bao gồm việc đánh giá sự phù hợp của các cặp cha mẹ nuôi, tỷ lệ tái phạm tội trong số trẻ vị thành niên phạm pháp, các nguy cơ dạng khác đối với các hành vi bạo lực; các kết quả với đặc tính khác nhau như sự thẩm định các bài thuyết trình khoa học, những người chiến thắng trong các trận đấu bóng đá, và giá cả trong tương lai của rượu vang Bordeaux. Mỗi một lĩnh vực, đòi hỏi một mức độ đáng kể về tình trạng không chắc chắn và không thể tiên đoán. Chúng tôi mô tả chúng như thể là những “môi trường có độ chắc chắn thấp”. Trong mọi trường hợp, độ chính xác của các chuyên gia ăn khớp hoặc vượt mức bởi một thuật toán đơn giản.
Như điều Meehl đã chỉ ra, điều đã đem lại niềm hãnh diện cho ông sau 30 năm sau khi cuốn sách của ông được xuất bản, đó là “Không hề có cuộc tranh cãi nào trên lĩnh vực khoa học xã hội trong đó cho thấy khối lượng lớn các nghiên cứu đa dạng có chất lượng diễn ra đều đặn dưới cùng một định hướng như nghiên cứu này.”
Nhà Kinh tế học Princeton và cũng là người sưu tầm rượu vang Orley Ashenfelter đã đưa ra một minh chứng thuyết phục về sức mạnh của các con số thống kê đơn giản đã vượt mặt các chuyên gia nổi tiếng thế giới. Ashenfelter muốn dự đoán giá trị tương lai của loại vang Bordeaux thượng hạng từ các thông tin sẵn có trong năm mà họ đã tạo ra. Câu hỏi này vô cùng quan trọng bởi vì các loại rượu vang thượng hạng phải mất nhiều năm mới đạt được chất lượng tột đỉnh của chúng, mức giá của các loại rượu vang nấu từ cùng một vườn nho thay đổi một cách chóng mặt qua những thời điểm thu hoạch khác nhau; những chai rượu chỉ được ủ trong khoảng thời gian 12 tháng có thể khác nhau về giá trị bởi một hệ số gấp 10 lần hoặc hơn thế. Một khả năng dự đoán giá cả trong tương lai có ý nghĩa quan trọng, bởi các nhà đầu tư mua rượu vang, như một nghệ thuật, trong sự dự toán rằng giá trị của nó sẽ tăng cao.
Người ta thường thừa nhận rằng điều ảnh hưởng tới rượu vang chính vụ có thể là bởi những biến đổi của thời tiết trong cả vụ nho. Những loại vang ngon nhất được cất khi vào hạ với tiết trời khô nóng, điều đó biến ngành công nghiệp rượu vang Bordeaux thành một kẻ được hưởng lợi thích đáng từ sự nóng lên toàn cầu. Ngành công nghiệp này cũng được mùa xuân ẩm ướt tiếp tay để tăng vọt sản lượng mà chẳng mấy ảnh hưởng tới chất lượng rượu. Ashenfelter đã chuyển đổi sự hiểu biết thông thường ấy sang một công thức thống kê dự đoán mức giá của một loại rượu vang – đối với một thuộc tính đặc biệt và ở một thời gian đặc biệt – bởi ba đặc tính của thời tiết: Nhiệt độ trung bình trong cả vụ hè, lượng mưa tại thời điểm thu hoạch và tổng lượng mưa trong cả mùa đông trước đó. Công thức của ông đưa ra các dự báo giá chính xác trong nhiều năm và thậm chí hàng thập kỷ trong tương lai. Quả thực như vậy, công thức của ông dự trù các mức giá tương lai chính xác hơn nhiều dự đoán giá của các loại vang mới cất. Dẫn chứng mới mẻ này về một “mô hình Meehl” thách thức khả năng của các chuyên gia mà những quan điểm của họ góp phần định hướng mức giá sàn. Nó cũng thách thức cả các học thuyết kinh tế, theo đó các mức giá sẽ phản ánh tất cả những thông tin hiện hữu, bao gồm cả thời tiết. Công thức của Ashenfelter cực kỳ chính xác – sự tương quan giữa những dự đoán của ông với các mức giá thực tế đạt mức trên 0.9.
Tại sao các chuyên gia lại thua kém những phép toán? Một lý do mà Meehl đã hoài nghi, đó là các chuyên gia cố gắng để thông minh hơn, suy nghĩ xa hơn và xem xét các tính năng pha trộn phức tạp trong việc đưa ra các dự đoán của mình. Sự phức tạp có lẽ hiệu quả trong trường hợp riêng lẻ, nhưng thường làm giảm đi sự chắc chắn. Sự kết hợp đơn giản các tính năng thường tốt hơn. Một vài nghiên cứu đã chỉ ra rằng các quyết định do con người đưa ra thua xa một dự đoán bằng công thức ngay cả khi chúng có được điểm số được gợi ra bởi công thức! Họ cảm thấy họ có thể gạt bỏ công thức bởi họ có thông tin bổ sung về từng trường hợp, nhưng họ lại thường xuyên nhầm lẫn nhiều hơn so với việc họ không có những thông tin đó. Theo như Meehl, có một vài tình huống mà theo đó là một ý tưởng tốt để thay thế sự đánh giá đối với một công thức. Trong một thí nghiệm nổi tiếng được nhắc đến, ông đã miêu tả một công thức dự đoán liệu rằng một người cụ thể nào đó sẽ đi xem phim vào tối ngày hôm nay hay không và đã ghi chú rằng việc bỏ qua công thức là thích đáng nếu thông tin nhận được cho thấy cá nhân đó bị gãy chân ngày hôm nay. Tên gọi “quy tắc gãy chân” đã được nêu ra. Dĩ nhiên, mấu chốt ở đây là những cái chân gãy là rất hiếm – cũng như là tính quyết định.
Một lý do khác cho bài toán về ý kiến chuyên gia đó là con người ta không dễ rơi vào tình trạng mâu thuẫn trong việc tạo ra các ý kiến tức thì về những thông tin phức tạp. Khi được đề nghị đánh giá cùng một thông tin hai lần, họ thường đưa ra những câu trả lời khác nhau. Mức độ mâu thuẫn thường là một vấn đề về mối quan tâm xác đáng. Các chuyên gia lão luyện về X-quang - những người nhìn nhận các phòng chiếu tia X như thể “bình thường” hoặc “bất thường” có tới 20% khoảng thời gian mâu thuẫn với chính bản thân họ khi họ nhìn cùng một bức ảnh vào những dịp riêng biệt. Một nghiên cứu với 101 kiểm toán viên độc lập được đề nghị ước tính độ tín nhiệm của các hoạt động kiểm toán nội bộ tổ chức đã phát hiện ra cùng một mức độ mâu thuẫn như vậy. Một cuộc rà soát đối với 41 nghiên cứu riêng biệt về độ tin cậy của những ý kiến được đưa ra bởi các kiểm toán viên, nhà nghiên cứu bệnh học, nhà tâm lý học, nhà quản lý đoàn thể và các chuyên gia khác chỉ ra rằng mức độ mâu thuẫn này là điển hình, ngay cả khi một trường hợp được đánh giá lại trong vòng vài phút. Những ý kiến không chắc chắn được đưa ra bởi các chuyên gia cũng không thể là những dự đoán có thể tin cậy được.
Sự mâu thuẫn lan rộng chắc hẳn là do sự lệ thuộc quá mức vào bối cảnh trong Hệ thống 1. Từ các nghiên cứu về việc trang bị thông tin, chúng ta biết rằng tác nhân kích thích bị bỏ qua trong môi trường của chúng ta có ảnh hưởng quan trọng tới những suy nghĩ và hành động của chúng ta. Những tác động này dao động từ thời điểm này tới thời điểm khác. Niềm khoan khoái ngắn ngủi của một làn khí lạnh vào một ngày nóng bức có lẽ khiến bạn quả quyết và lạc quan hơn chút ít về bất cứ điều gì bạn đang ước định tại thời điểm đó. Những viễn cảnh của một người bị kết án sắp được hưởng án treo có thể thay đổi đáng kể trong suốt khoảng thời gian nghỉ uống trà giữa phiên xét xử của các thẩm phán. Do bạn có ít sự hiểu biết trực tiếp về điều gì đang diễn ra trong tâm trí mình, bạn sẽ không bao giờ biết được rằng mình có thể tạo ra một phán quyết khác hoặc chạm tới một quyết định khác theo những tình huống rất ít sự khác biệt. Các công thức không hề chịu ảnh hưởng từ những vấn đề nêu trên. Với cùng một tư liệu đầu vào, chúng luôn trả lại cùng một kết quả. Khi khả năng có thể dự đoán không cao – điều đã được đề cập trong phần lớn các nghiên cứu được giám sát bởi Meehl và những người ủng hộ của ông là sự mâu thuẫn phá hủy đối với bất cứ dự báo có giá trị nào.
Nghiên cứu đưa ra một kết quả đáng kinh ngạc: Để làm tăng mức dự đoán chính xác, các quyết định sau cùng nên đặt vào các công thức, đặc biệt là trong những môi trường có cơ sở vững chắc thấp. Ví dụ, trong các quyết định cho gia nhập tại các trường y khoa, quyết định cuối cùng thường được đưa ra bởi các thành viên trong khoa - những người đã phỏng vấn các ứng viên. Với căn cứ là các mảng rời rạc nhưng vẫn có những nền tảng cố định đối với một giả định: Việc dẫn dắt một cuộc phỏng vấn có vẻ như làm giảm độ chính xác của một sự chọn lựa mang tính thủ tục, nếu những người phỏng vấn cũng tạo ra các quyết định chấp thuận cuối cùng. Do những người phỏng vấn đã quá tự tin ở trực giác của mình, họ sẽ áp đặt quá nhiều sức nặng lên những cảm tưởng cá nhân và quá ít sức nặng lên những nguồn thông tin khác. Điều này sẽ làm giảm giá trị. Tương tự như vậy, các chuyên gia thẩm định chất lượng của loại rượu vang chưa nấu nhằm dự đoán tương lai của nó có một nguồn thông tin mà có vẻ như làm cho mọi thứ trở nên xấu đi hơn là tốt lên: Họ có thể thử nếm rượu. Tất nhiên, ngoài ra, ngay cả nếu họ có được kiến thức hữu ích về các tác động của thời tiết lên chất lượng của rượu vang, họ sẽ không thể duy trì kết quả chắc chắn của một công thức.
Sự phát triển quan trọng nhất trong lĩnh vực này kể từ khi công trình ban đầu của Meehl trở thành bài báo nổi tiếng của Robyn Dawes The Robust Beauty of Improper Linear Models in Decision Making (Tạm dịch: Sức cuốn hút mạnh mẽ của những mô hình tuyến tính trong vie6c5ra quyết định.) Thói quen thống kê có ảnh hưởng lớn trong các ngành Khoa học xã hội, nó áp đặt trọng số lên các yếu tố dự đoán khác nhau bằng việc áp dụng một thuật toán, được gọi là đa hồi quy, mà giờ đây đã được xây dựng thành phần mềm thông thường. Tính logic của phép đa hồi quy là không thể nghi ngờ: Nó tìm ra công thức tối ưu cho một sự kết hợp có trọng số của các yếu tố dự đoán. Tuy nhiên, Dawes đã quan sát thấy rằng phép toán thống kê tổng hợp thêm vào một chút hoặc không chút giá trị nào. Một người có thể cũng thực hiện được bằng việc xác định một tập hợp các căn cứ có chút cơ sở đối với việc dự đoán kết quả và điều chỉnh các giá trị khiến cho chúng có thể so sánh được (với việc sử dụng các căn cứ hoặc hạng mục tiêu chuẩn). Một công thức kết hợp những yếu tố dự đoán với các trọng số cân bằng chỉ được cho là chính xác trong việc dự đoán những trường hợp mới giống như công thức đa hồi quy, điều này là tối ưu trong ví dụ tiêu biểu ban đầu. Nhiều nghiên cứu gần đây đã tiến xa hơn: Các công thức ấn định các trọng số cân bằng tới tất cả các yếu tố dự đoán thường chính xác hơn, do chúng không bị tác động bởi hoạt động chọn mẫu các rủi ro.
Thành công đáng ngạc nhiên của sự phối hợp trọng số cân bằng có một phép tất suy thực tiễn quan trọng: Nó rất khả thi để phát triển các thuật toán hữu ích mà không cần tới bất cứ nghiên cứu thống kê nào trước đây. Các công thức trọng số cân bằng đơn giản được dựa trên những con số thống kê đã có sẵn hoặc dựa vào cảm giác thông thường đều là những yếu tố dự đoán tốt cho ra các kết quả đáng kể. Trong một ví dụ đáng nhớ, Dawes đã chỉ ra rằng hôn nhân bền vững được dự đoán tốt bởi một công thức:
Tần suất của chuyện ân ái trừ đi tần suất các cuộc cãi vã.
Bạn không muốn kết quả của mình là một con số tiêu cực.
Kết luận quan trọng từ nghiên cứu này là một thuật toán vốn được xác lập trên việc nhẩm tính thường là đủ tin cậy để ganh đua với một công thức trọng số tối ưu, và chắc hẳn đủ tin cậy để vượt mặt ý kiến chuyên gia. Tính logic này có thể được áp dụng trong nhiều lĩnh vực khác nhau, trong phạm vi từ việc lựa chọn các cổ phiếu của các nhà quản lý danh mục đầu tư tới việc chọn lựa các pháp đồ điều trị của bác sĩ hay bệnh nhân.
Một ứng dụng điển hình về phương pháp này là một thuật toán đơn giản đã cứu được mạng của hàng trăm ngàn trẻ sơ sinh. Các bác sĩ sản khoa luôn biết rằng thông thường một đứa trẻ sơ sinh nếu không thở trong vòng vài phút khi mới sinh thường lâm vào nguy cơ tổn thương não hoặc tử vong cao. Cho tới khi có sự can thiệp của chuyên gia gây mê Virginia Apgar vào năm 1953, các bác sĩ và bà đỡ đã sử dụng suy đoán y khoa của mình để quyết định xem liệu một đứa trẻ có lâm vào cảnh nguy kịch hay không. Các bác sĩ điều trị khác nhau đã tập trung vào các cách xử trí khác nhau. Một số người quan sát các vấn đề về đường hô hấp trong khi số khác đã giám sát việc đứa trẻ khóc sớm như thế nào. Không có một quy trình nào được chuẩn hóa, các tín hiệu nguy hiểm vẫn thường bị bỏ qua và nhiều trẻ sơ sinh đã chết.
Một ngày nọ, trong bữa sáng, một bác sĩ nội trú đã hỏi tiến sĩ Apga có thể tạo ra một đánh giá có trình tự về một trẻ sơ sinh như thế nào. “Thật đơn giản,” bà đáp. “Bạn sẽ thực hiện điều đó giống như thế này.” Apgar viết ra 5 biến số (nhịp tim, hô hấp, phản xạ, cơ bắp và màu sắc) và ba thang điểm (0, 1 hoặc 2, phụ thuộc vào tình trạng lâm sàng của từng triệu chứng). Bằng việc thực hiện điều đó, bà có lẽ đã tạo ra một bước đột phá mà bất cứ phòng hộ sinh nào cũng có thể thực hiện. Apgar đã bắt đầu việc đánh giá các trẻ sơ sinh bằng quy tắc này sau khi chúng được sinh ra một phút. Một đứa trẻ với tổng điểm lớn hơn hoặc bằng 8 thì gần như ở mức tốt nhất, quẫy đạp, khóc, cử động cơ mặt, với nhịp tim ở mức 100 hoặc hơn – trong một trạng thái ổn định. Một đứa trẻ có tổng điểm thấp hơn hoặc bằng 4 thì chắn hẳn là hơi xanh, yếu ớt, thụ động, với một nhịp tim chậm hoặc yếu – ở trong tình trạng cần can thiệp y tế ngay lập tức. Áp dụng thang điểm số của Apgar, hội đồng trong các phòng hộ sinh cuối cùng đã thống nhất các tiêu chuẩn cho việc quyết định xem những đứa trẻ nào đang gặp vấn đề và công thức này được ghi nhận vì nó có đóng góp quan trọng cho việc giảm thiểu số lượng trẻ sơ sinh tử vong. Bài kiểm tra Apgar hiện nay vẫn được sử dụng hàng ngày ở tất cả các phòng hộ sinh. Bản ghi nhớ gần đây của Atul Gawande, A Checklist Manifesto (Tạm dịch: Bảng liệt kê các danh mục cần kiểm tra Manifesto), cung cấp nhiều ví dụ khác về những ưu điểm của các bản liệt kê danh mục kiểm tra và các quy tắc đơn giản.
SỰ THÙ ĐỊCH VỚI CÁC THUẬT TOÁN
Ngay từ đầu, các nhà tâm lý học lâm sàng đã đáp lại những ý tưởng của Meehl với sự chống đối và ngờ vực. Một cách hiển nhiên, họ bị kìm kẹp trước ảo tưởng về kỹ năng trong mối ràng buộc với khả năng của họ nhằm đưa ra những dự đoán dài hạn. Suy nghĩ một cách thấu đáo, thật dễ để thấy được ảo tưởng này xoay chuyển sự việc như thế nào và dễ để cảm thông với sự khước từ của các bác sĩ lâm sàng trước nghiên cứu của Meehl.
Căn cứ bằng số liệu thống kê về chẩn đoán lâm sàng mâu thuẫn với kinh nghiệm hàng ngày của các bác sĩ lâm sàng về chất lượng các dự đoán của họ. Các nhà tâm lý học làm việc với bệnh nhân có rất nhiều linh cảm trong quá trình điều trị bằng liệu pháp tâm lý, thấy trước được bệnh nhân sẽ phản ứng đối với một sự can thiệp như thế nào, phỏng đoán xem điều gì sẽ xảy ra tiếp theo. Rất nhiều linh cảm đã được kiểm định, làm sáng tỏ cho tính xác thực của kỹ năng chẩn đoán lâm sàng.
Vấn đề là những phán quyết đúng đắn thuộc về những dự đoán ngắn hạn trong bối cảnh của phương pháp trị liệu thông qua phỏng vấn, một kỹ năng mà ở đó bác sĩ trị liệu có kinh nghiệm thực tế nhiều năm. Nhiệm vụ mà họ đã thất bại thường là những dự đoán dài hạn về tương lai của các bệnh nhân. Những nhiệm vụ ấy khó hơn rất nhiều, ngay cả những công thức tối ưu cũng chỉ đúng ở một chừng mực khiêm tốn, và chúng là những mục tiêu mà các bác sĩ lâm sàng chưa bao giờ được biết tới một cách đích xác – họ sẽ phải chờ đợi nhiều năm mới có được sự phản hồi, thay vì nhận được sự phản hồi ngay lập tức từ buổi điều trị lâm sàng. Tuy nhiên, ranh giới giữa những gì các bác sĩ lâm sàng có thể làm tốt và những gì họ không thể làm tốt là không hề rõ ràng đối với họ. Họ biết rằng họ có kỹ năng, nhưng họ không nhất thiết phải biết tới giới hạn về kỹ năng họ có. Sau đó, chẳng lấy gì làm ngạc nhiên, ý tưởng về sự kết hợp cơ học của một vài biến số có thể làm tốt hơn sự phức tạp khó hiểu từ phán đoán của con người đẩy các bác sĩ lâm sàng nhiều kinh nghiệm vào sai lầm hiển nhiên.
Cuộc tranh luận về những ưu điểm của phương pháp dự đoán lâm sàng và thống kê luôn mang một khía cạnh đạo đức. Meehl đã viết, Phương pháp thống kê các bác sĩ lâm sàng giàu kinh nghiệm đã chỉ trích như là “máy móc, vụn vặt, cộc tính, sắp đặt, giả tạo, không xác thực, tùy tiện, không đầy đủ, không hiệu lực, mô phạm, tách rời, vô giá trị, gượng ép, đơn điệu, thiển cận, cứng nhắc, khô khan, lý thuyết, ngụy khoa học và mù quáng.” Trong khi đó, những người ủng hộ phương pháp này đã ca tụng nó như là “năng động, phổ quát, ý nghĩa, toàn diện, tài tình, nhân ái, điển hình, khuôn mẫu, có tổ chức, phong phú, sâu sắc, chính thống, nhạy bén, công phu, chân thật, sống động, cụ thể, tự nhiên, gần gũi và am hiểu.”
Tất cả chúng ta đều có thể nhận ra quan điểm đó. Khi con người đọ sức với máy móc, dù cho đó có là John Henry một tay quai búa trên núi đá hay thiên tài cờ vua Garry Kasparov đối mặt với máy tính Deep Blue, sự ủng hộ của chúng ta đều dành cả cho đồng loại của mình. Ác cảm đối với các thuật toán tạo ra các quyết định tác động lên con người bắt nguồn từ sự thiên vị mà nhiều người có được qua quá trình tích lũy hoặc cố tình tạo ra. Khi được hỏi liệu rằng họ sẽ thích ăn một trái táo vườn hay một trái táo được trồng theo kiểu công nghiệp, hầu hết mọi người đều thích trái táo “thuần tự nhiên” hơn. Ngay cả sau khi được thông báo rằng cả hai trái táo đều có vị như nhau, có giá trị dinh dưỡng và đều tốt cho sức khỏe ngang bằng nhau, thì một lượng lớn mọi người vẫn thích trái cây trồng ở vườn hơn. Thậm chí các nhà sản xuất bia đã phát hiện ra rằng họ có thể tăng lượng bán bằng cách đưa dòng chữ “Thuần tự nhiên” hoặc “Không chất bảo quản” lên nhãn.
Sự phản kháng gay gắt trước việc làm sáng tỏ ý kiến của các chuyên gia được minh họa bởi sự phản ứng của cộng đồng rượu vang châu Âu đối với công thức của Ashenfelter trong việc dự đoán trước giá của các loại vang Bordeaux. Công thức của Ashenfelter đã đáp lại một lời thỉnh cầu của những người yêu thích rượu vang ở khắp nơi về việc cải thiện một cách rõ ràng khả năng nhận biết các loại rượu vang mà sau này sẽ là loại thượng hạng. Không hẳn vậy. Sự phản ứng trong giới rượu vang Pháp, đã được viết trên tờ Thời báo New York, và xếp hạng là hành văn “một nơi nào đó giữa quá khích và cuồng loạn”. Ashenfelter báo cáo rằng một người sành rượu vang đã gọi những phát kiến của ông là “lố bịch và vô lý”. Những người khác đã chế giễu rằng “việc này giống như thẩm định một bộ phim mà thực tế không hề được xem bộ phim đó.”
Sai lệch chống lại các thuật toán bị thổi phồng lên khi các quyết định thu được kết quả đáng kể. Meehl đã nhận xét: “Tôi hoàn toàn không biết làm cách nào để xoa dịu sự căm giận mà một số bác sĩ lâm sàng có vẻ đã trải qua khi họ đương đầu với một ca có thể chữa khỏi mà lại đang từ chối phương pháp điều trị bởi một sự đánh đồng ‘mù quáng, máy móc’ hiểu sai mình. Trái lại, Meehl và những người ủng hộ cho các thuật toán đã lập luận một cách hùng hồn rằng thật không có nguyên tắc khi dựa vào những đánh giá trực giác đối với các quyết định quan trọng nếu tồn tại một thuật toán thì nó sẽ gặp ít sai sót hơn. Luận cứ có lý lẽ của họ tỏ ra thuyết phục, nhưng nó lại có chiều hướng đối chọi với một thực tế tâm lý không thể thuyết phục: Nguyên nhân của một sự việc sai lầm, đối với hầu hết mọi người. Câu chuyện về một đứa trẻ đang hấp hối bởi một thuật toán mắc lỗi làm mủi lòng nhiều hơn là câu chuyện về cùng một bi kịch đang xảy ra bởi một hệ quả từ sai phạm của con người và sự khác biệt về cường độ cảm xúc được chuyển đổi nhanh chóng thành sự thiên vị mang tính đạo đức.
May thay, sự chống đối lại các thuật toán hầu như chắc chắn sẽ được xoa dịu bởi vai trò của chúng trong cuộc sống hàng ngày vẫn tiếp tục lan rộng. Chúng ta lựa chọn bởi đã được cho biết rằng những quyết định về các hạn mức tín nhiệm được tạo ra mà không có sự can thiệp trực tiếp nào từ bất cứ nhận định nào của con người. Chúng ta đang ngày càng được đặt vào những chuẩn tắc mang hình dáng của các thuật toán đơn giản, ví dụ như tỷ lệ hàm lượng cholesterol có lợi và bất lợi mà chúng ta nên gắng đạt tới. Công chúng giờ đây ý thức rõ rằng các công thức có thể có quyết định then chốt trong giới thể thao như: Một đội bóng chuyên nghiệp thông thường nên chi bao nhiêu cho các cầu thủ tân binh, hoặc khi nào thì đá bổng quả bóng vào thời điểm ‘xuống bốn’. Danh sách mở rộng các công việc vốn đã được ấn định cho các thuật toán cuối cùng sẽ làm giảm sự khó chịu mà hầu hết mọi người cảm thấy khi họ lần đầu đọ sức với mô hình các kết quả mà Meehl đã mô tả trong cuốn sách nhỏ gây xáo trộn của mình.
HỌC HỎI TỪ MEEHL
Năm 1955, với vai trò là một trung úy 21 tuổi trong Lực lượng Quân đội Israel, tôi đã được chỉ thị thành lập một hệ thống giám sát trong toàn bộ quân đội. Nếu bạn có thắc mắc là tại sao một trọng trách như vậy lại được đặt lên một vài người trẻ tuổi như tôi. Và tôi tự khắc sâu trong tâm trí rằng chính nhà nước Israel cũng chỉ vừa mới được thành lập bảy năm tại thời điểm đó; tất cả các tổ chức nhà nước đều đã được thiết lập và ai đó đã xác lập nên chúng. Ngày nay điều đó nghe có vẻ kỳ quặc, nhưng hồi đó với trình độ cử nhân Tâm lý học, đã được bồi đắp và tôi trở thành nhà tâm lý có trình độ nhất trong quân ngũ. Người giám sát trực tiếp của tôi, một nhà nghiên cứu tài ba, có một học vị trong lĩnh vực hóa học.
Khi tôi được giao nhiệm vụ, người ta tiến hành một cuộc phỏng vấn thường lệ với tôi. Mỗi quân nhân được điều phái trong quân đội đều hoàn thành một hệ thống các bài kiểm tra tâm lý và mỗi người đều được phỏng vấn để đi đến sự đánh giá về tính cách trước khi được cất nhắc cho từng nhiệm vụ trên chiến trường. Mục đích là để gán cho tân binh một căn cứ chung phù hợp trên chiến trận và nhằm tìm ra sự tương thích nhất với cá tính của họ giữa các ngạch khác nhau như: Bộ binh, pháo binh, thiết giáp và nhiều ngạch khác. Bàn thân những người phỏng vấn đều là lính nghĩa vụ trẻ tuổi, được chọn ra phục vụ cho nhiệm vụ này nhờ vào trí thông minh vượt trội của mình và hứng thú với việc giao tiếp với mọi người. Hầu hết phụ nữ được miễn nghĩa vụ quân sự tại thời điểm đó. Các tân binh được đào tạo vài tuần để biết cách kiểm soát một cuộc phỏng vấn kéo dài 15 tới 20 phút: Họ được khích lệ để có thể kiểm soát một loạt các chủ đề và để hình thành một ấn tượng chung về việc tân binh sẽ thực thi tốt nghĩa vụ như thế nào trong quân đội.
Thật không may, những đánh giá sau đó đã thực sự chỉ ra rằng trình tự phỏng vấn này gần như là vô dụng trong việc dự đoán những thành tựu tương lai của các tân binh. Tôi đã được bổ nhiệm để thiết lập một cuộc phỏng vấn hữu dụng hơn nhưng không tiêu tốn nhiều thời giờ hơn. Tôi cũng đã được chỉ thị thử nghiệm cuộc phỏng vấn mới và đánh giá độ chính xác của nó.
May thay, tôi đã đọc “cuốn sách nhỏ” của Paul Meehl. Tôi đã bị thuyết phục bởi lý lẽ của ông, những quy tắc đơn giản, được trình bày bằng những con số thống kê sẽ tốt hơn so với những phán đoán trực giác “lâm sàng”. Tôi kết luận rằng phương pháp phỏng vấn được sử dụng hiện tại và sau này phần nào đó thất bại bởi nó đã cho phép người phỏng vấn làm những gì mà họ cho là thú vị nhất, những hành động được cho là để tìm hiểu về những động lực trong cuộc sống tinh thần của những người tham gia phỏng vấn. Thay vào đó, chúng ta nên sử dụng quyền hạn và khoảng thời gian giới hạn của mình để cụ thể hóa nhất nhiều thông tin về cuộc sống của những người tham gia phỏng vấn trong môi trường bình thường của họ. Một bài học khác mà tôi học được từ Meehl đó là chúng ta nên từ bỏ các thủ tục mà theo đó toàn bộ những đánh giá của người phỏng vấn về các tân binh đã làm rõ quyết định cuối cùng. Cuốn sách của Meehl chỉ ra rằng những đánh giá như vậy là không đáng tin cậy và các bản tóm tắt thống kê về những thuộc tính được đánh giá riêng biệt sẽ có thể đạt tới một độ tin cậy cao hơn.
Tôi đã quyết định dựa trên một trình tự mà ở đó những người phỏng vấn sẽ đánh giá một vài cá nhân tiêu biểu có liên quan và cho điểm từng người một cách riêng biệt. Điểm số cuối cùng của sự phù hợp với nghĩa vụ trên chiến trường sẽ được tính toán dựa theo một công thức chuẩn, không có thông tin đầu vào nào khác được cung cấp bởi những người phỏng vấn. Tôi đã lên một bản danh sách gồm các đặc trưng có liên quan tới sự biểu hiện trong một đơn vị chiến đấu, bao gồm “trách nhiệm”, “hòa đồng” và “lòng tự tôn của đấng nam nhi”. Sau đó, với từng nét đặc trưng, tôi đã tạo nên một chuỗi các câu hỏi thực sự về cuộc sống của từng cá nhân trước khi nhập ngũ, bao gồm số lượng các công việc khác nhau mà anh ta đã từng làm, sự đều đặn và quy củ mà anh ta đã thực hiện trong công việc hoặc học tập, mức độ thường xuyên trong việc giao du với bạn bè của anh, sự ham thích và tham gia vào các môn thể thao, so với những người khác. Ý tưởng này được đưa ra nhằm đánh giá một cách khách quan nhất việc các tân binh đã biểu hiện như thế nào trên từng khía cạnh.
Bằng việc tập trung vào tiêu chuẩn hóa, các câu hỏi thực tế, tôi đã hy vọng có thể chống lại hiệu ứng hào quang, nơi những ấn tượng tốt ban đầu sẽ ảnh hưởng đến những phán đoán sau này. Như một sự phòng xa chống lại những vầng hào quang, tôi đã hướng dẫn những người phỏng vấn trải qua sáu nét đặc trưng trong một trình tự cố định, xếp hạng từng đặc điểm theo thang điểm năm trước khi chuyển sang bước kế tiếp. Và điều gì đến đã đến. Tôi đã thông báo cho những người phỏng vấn biết rằng họ không nhất thiết phải đặt bản thân mình liên quan tới sự điều chỉnh trong tương lai của các tân binh trong quân ngũ. Nhiệm vụ duy nhất của họ đó là suy ra những thực tế có liên quan về quá khứ của từng quân nhân và sử dụng thông tin này để cho điểm từng khía cạnh cá nhân. “Nhiệm vụ của các bạn là cung cấp những thước đo chuẩn xác, hãy để giá trị dự đoán cho tôi” tôi đã nói với họ như vậy. Bằng cách đó tôi đã ám chỉ tới công thức mà tôi chuẩn bị đưa ra nhằm kết hợp với những điểm số cụ thể của họ.
Những người tiến hành phỏng vấn đã gần như chống đối lại. Những con người trẻ trung sáng lạn ấy cảm thấy khó chịu khi bị một vài yêu cầu, một vài người còn trẻ hơn cả bản thân người này, rằng chuyển đổi khả năng trực giác của họ và tập trung toàn lực vào những câu hỏi thực tế nhàm chán. Một người trong số họ đã than phiền rằng: “Anh đang biến chúng tôi thành những con robot!” Bởi thế mà tôi đã phải thỏa hiệp. “Hãy tiến hành cuộc phỏng vấn một cách chính xác như đã được hướng dẫn, và khi các anh đã hoàn thành, hãy làm như các anh muốn: Nhắm mắt lại, cố mường tượng một tân binh như một người lính thực sự và gán cho cậu ta một điểm số trong thang điểm từ 1 tới 5” tôi đã nói với họ như vậy.
Hàng trăm cuộc phỏng vấn đã được tiến hành theo cách thức mới ấy, và một vài tháng sau chúng tôi thu thập được những đánh giá về biểu hiện của các quân nhân từ phía các sĩ quan chỉ huy tại các đơn vị chiến đấu mà họ đã được điều về. Kết quả khiến chúng tôi hài lòng. Nhưng theo những gì mà cuốn sách của Meehl đã chỉ ra, quá trình phỏng vấn mới là một sự cải tiến đáng kể so với quá trình trước đó. Tổng điểm dựa trên sáu thang bậc của chúng tôi đã dự đoán biểu hiện của các quân nhân chính xác hơn nhiều so với những đánh giá dựa theo phương pháp phỏng vấn trước đó, mặc dù còn cách sự hoàn thiện khá xa. Chúng tôi đã tiến từ “hoàn toàn vô dụng” tới “hữu dụng ở một mức độ vừa phải.”
Ngạc nhiên lớn đối với tôi đó là sự xét định dựa trên trực giác mà những người tiến hành phỏng vấn dồn cả vào thao tác “nhắm mắt lại” cũng có hiệu quả tốt, thực sự cũng như tổng điểm dựa trên sáu thang bậc cụ thể vậy. Tôi đã học được từ chính việc tìm ra một bài học mà tôi không bao giờ quên: Khả năng trực giác làm tăng thêm giá trị ngay cả trong cuộc phỏng vấn chọn lọc bị chế nhạo một cách xác đáng, nhưng chỉ đúng sau khi đã có một sự chọn lựa quy củ các thông tin khách quan và cho điểm đúng quy định các đặc điểm riêng biệt. Tôi đã đặt ra một công thức mang tới cho sự đánh giá “nhắm mắt” cùng một sức nặng giống như tổng điểm dựa trên sáu thang bậc. Một bài học phổ biến hơn mà tôi học được từ chính tình thế này đó là không chỉ tin tưởng một cách đơn giản vào đoán định trực giác – của chính bạn hay người khác – mà còn không bỏ qua nó nữa.
Khoảng 45 năm sau, sau khi giành giải Nobel Kinh tế, tôi đã dành chút ít thời gian cho một lễ ăn mừng nho nhỏ ở Israel. Trong một chuyến viếng thăm của tôi, ai đó đã có ý tưởng về việc hộ tống tôi tới căn cứ quân sự cũ của tôi, nơi đơn vị làm công tác phỏng vấn các tân binh vẫn đóng quân ở đó. Tôi được giới thiệu với sĩ quan chỉ huy của đơn vị tâm lý học, và bà ấy đã miêu tả các bài thực hành phỏng vấn hiện tại của họ, chúng không mấy thay đổi so với hệ thống mà tôi đã thiết lập ra; tại đó nó vẫn diễn ra, một số lượng đáng kể các nghiên cứu đã chỉ ra rằng các cuộc phỏng vấn vẫn vận hành hiệu quả. Khi bà ấy kết thúc bài mô tả của mình về việc các cuộc phỏng vấn được tiến hành như thế nào, vị quan chức nhấn mạnh: “Và sau đó chúng tôi chỉ dẫn họ rằng: Hãy nhắm mắt lại.
ÁP DỤNG CÔNG THỨC NÀY CHO CHÍNH BẠN
Thông điệp của chương này có thể dễ dàng áp dụng vào các nhiệm vụ khác hơn việc tạo ra các quyết định về nhân lực trong quân đội. Việc thực thi các quy trình phỏng vấn theo tinh thần của Meehl và Dawes đòi hỏi sự nỗ lực tương đối ít nhưng kỷ luật khắt khe. Giả sử bạn cần tuyển một đại diện bán hàng cho công ty của bạn. Nếu bạn chú tâm tới việc tuyển dụng được người thích hợp nhất cho công việc này, thì đây chính là những gì bạn cần làm. Trước tiên, lựa chọn một vài nét đặc trưng làm điều kiện tiên quyết cho sự thành công ở vị trí đó (trình độ kỹ thuật, đặc điểm cá nhân, độ tin cậy và những thứ khác). Đừng quá lạm dụng – sáu khía cạnh là một con số hợp lý. Các đặc trưng mà bạn lựa chọn nên càng độc lập với nhau càng tốt và bạn sẽ có thể giám định độ chắc chắn của chúng bằng cách đưa ra một vài câu hỏi thực tế. Tiếp theo, lập một danh sách các câu hỏi cho từng đặc trưng và cân nhắc về việc bạn sẽ cho điểm chúng như thế nào, ít nhất thì theo thang điểm từ 1 tới 5. Bạn nên có một ý niệm về thứ mà bạn sẽ đánh giá là “quá yếu kém” hoặc “quá ưu tú”.
Những chuẩn bị này sẽ mất chừng nửa giờ hoặc hơn thế, một sự đầu tư nhỏ có thể tạo ra sự khác biệt đáng kể trong chất lượng nhân sự mà bạn tuyển dụng. Để tránh các hiệu ứng hào quang, bạn cần thu thập thông tin về từng đặc trưng tại một thời điểm, cho điểm từng đặc trưng trước khi bạn chuyển sang đặc trưng khác. Đừng dừng lại giữa chừng. Để đánh giá từng ứng viên một, hãy cộng tổng điểm của sáu đặc trưng lại. Khẳng định một cách chắc chắn rằng bạn sẽ tuyển ứng viên có điểm số cuối cùng cao nhất, ngay cả nếu có một ai khác mà bạn có cảm tình hơn – cố gắng cưỡng lại ý muốn của bạn nhằm tạo ra biến cố để thay đổi thứ hạng. Một lượng lớn các nghiên cứu bày ra một sự hứa hẹn: Bạn có nhiều khả năng tìm ra ứng viên xuất sắc nhất nếu sử dụng quy trình này hơn việc bạn hành động theo những gì người ta thường làm trong những trường hợp như thế này, điều đó dẫn tới cuộc phỏng vấn không được chuẩn bị và đưa ra những sự lựa chọn bởi một phán đoán dựa trên trực giác tổng thể như là “Tôi đã nhìn vào mắt anh ta và đã hài lòng với những gì tôi trông thấy.”
BÀN VỀ NHỮNG PHÁN ĐOÁN VÀ CÔNG THỨC
“Khi nào chúng ta có thể thay thế sự đoán định của con người bởi một công thức, chúng ta ít ra cũng nên cân nhắc về điều đó.”
“Ông ta nghĩ rằng những phán đoán của mình là chặt chẽ và khôn ngoan, nhưng một sự kết hợp đơn giản của các điểm số cũng đã có thể có hiệu quả hơn.”
“Hãy định trước áp lực đặt lên dữ kiện mà chúng ta đã có về sự thể hiện trước đó của ứng viên là gì. Nếu không, chúng ta sẽ đặt quá nhiều áp lực lên cảm nhận của mình từ các cuộc phỏng vấn.”