NGHỊCH LÍ SIMPSON

Giả sử rằng bạn đang bệnh và phân vân giữa việc đến một trong hai bệnh viện được cho là tốt nhất trong vùng (theo nghĩa số người bệnh được chữa khỏi tại bệnh viện đó) để chữa trị.

Theo như tìm hiểu, bạn biết rằng cứ mỗi 1000 người bệnh đến bệnh viện A thì có 900 người được chữa khỏi, chiếm tỉ lệ 90%; còn ở bệnh viện B thì con số đó là 800 người, chiếm 80%. Lẽ thường tình, nếu biết được thông tin đó, ai cũng sẽ chọn đến bệnh viện A.

Bạn có thể chưa chắc chắn và muốn tìm hiểu kĩ thêm về số liệu. Bạn biết rằng không ai có tình trạng bệnh giống nhau khi đến bệnh viện, rõ ràng là thế, mỗi người mỗi khác, người bệnh nặng, người bệnh nhẹ, từ dễ chữa đến nan y. Bạn chia 1000 người bệnh ở mỗi bệnh viện làm hai nhóm, nhóm người bệnh nặng và nhóm người bệnh nhẹ. Ở bệnh viện A, 870 trong số 900 người bệnh nhẹ được chữa khỏi, chiếm 97%, thấp hơn so với bệnh viện B là 590 trong số 600 bệnh nhân được chữa khỏi, chiếm 98%. Điều tương tự cũng xảy ra so với nhóm người bệnh nặng, tỉ lệ chữa khỏi ở bệnh viện B vẫn cao hơn bệnh viện A. Như vậy, đến bệnh viện B chữa bệnh là một quyết định sáng suốt hơn.

Chúng ta có bảng số liệu như trên ảnh:

Thật kì lạ! Bệnh viện A có tỉ lệ người bệnh được chữa khỏi cao hơn bệnh viện B trong khi bệnh viện B có tỉ lệ người bệnh được chữa khỏi ở mỗi nhóm lại cao hơn bệnh viện A. Làm sao có thể có thể xảy ra tình trạng mâu thuẫn như thế?

Hiện tượng tỉ lệ phần trăm của một quần thể đi ngược lại tỉ lệ phần trăm của từng cá thể hay mỗi nhóm nhỏ của nó được gọi là nghịch lí Simpson. Nghịch lí này do nhà Toán học Edward Simpson phát hiện vào năm 1951 (dù trong thực tế người phát hiện ra trước là hai nhà thống kê học Karl Pearson và Udny Yule vào đầu thế kỷ XX). Theo đó, sự thay đổi về cách phân nhóm số liệu có thể dẫn đến kết luận khác biệt. 

Câu hỏi quan trọng ở đây là làm thế nào để tránh được nghịch lí này? Làm thế nào để có một quyết định đúng khi xem xét một bảng số liệu?

Trước hết, chúng ta cần phải hiểu rõ về thống kê, về con số phần trăm. Nó rất hay bị hiểu nhầm và thường được truyền thông dùng sai mục đích hay như các hãng quảng cáo cố tình đưa ra nhằm đánh lạc hướng người tiêu dùng. Ví dụ, một trung tâm phẫu thuật thẩm mĩ đưa ra lời quảng cáo hoa mĩ rằng tỉ lệ hài lòng của khách hàng là 92%, nghĩa là cứ 100 người thì có 92 người hài lòng. Nhưng trên thực tế, số người đến trung tâm này mới chỉ có tất cả 13 người và có 12 người hài lòng (quy về phần trăm là 12 x 100 : 13 = 92%). Điều đó không có gì đảm bảo sẽ có 92 người hài lòng khi số khách hàng lên đến 100. Trong trường hợp này, người viết đã phạm phải một lỗi phổ biến trong thống kê: khái quát hóa ra ngoài phạm vi số liệu cho phép, nghĩa là tự cho rằng trung tâm đã có 100 người đến đây trong khi thực tế không phải vậy. Để có cách hiểu đúng, chí cần biết 12 người hài lòng trong số 13 khách hàng hiện nay, không cần đến con số 92% làm gì để sai lầm. Việc quy đổi phần trăm chỉ nên quy đổi khi số liệu khảo sát phải hơn 100.

Sai lầm thứ hai về phần trăm đó là chỉ dùng chúng làm tiêu chỉ duy nhất để đưa ra kết luận và so sánh. Ví dụ, lớp 6A có tỉ lệ học sinh khá giỏi chiếm 40%, cao hơn lớp 7B là 36% nên lớp 6A có chất lượng học tập tốt hơn lớp 7B. Trên thực tế, lớp 6A có 14 học sinh khá giỏi trên tổng số 35 học sinh, còn lớp 7B có 18 học sinh khá giỏi trên tổng số 50 học sinh. Bạn có thể thấy người thống kê trước hết ngớ ngẩn ở chỗ đi so sánh hai lớp học ở hai trình độ khác nhau và lấy số liệu % làm tiêu chí so sánh duy nhất. Trong khi đáng ra là phải khảo sát số học sinh yếu kém, cá biệt, thái độ học sinh, chất lượng giáo viên,…

Sai lầm tiếp theo trong thống kê là coi đó như là một chuẩn mực chứng minh khi tỉ lệ khá cao. Bạn hãy nhớ rằng con số thống kê bản thân nó không chứng minh được một điều gì cả (ngoại trừ con số 100%). Tỉ lệ phẫu thuật thành công cao đến 90% không có nghĩa là người bệnh sẽ bảo toàn được tính mạng, tỉ lệ thắng độ chỉ 10% không có nghĩa cả đời bạn không trúng số,…

Quay trở lại nghịch lí Simpson, nếu chọn đến bệnh viện A chữa bệnh chỉ dựa trên căn cứ tỉ lệ chữa khỏi cao hơn so với bệnh viện B thì thật sai lầm. Đến bệnh viện B sẽ là giải pháp tốt hơn. Nhưng nếu muốn chắn chắn hơn nữa, bạn có thể phân nhóm người bệnh theo mức độ bệnh chi tiết hơn để xem xét và quyết định (kiểu bệnh nhẹ, nặng, rất nặng,…). Càng khảo sát kĩ số liệu, cái nhìn của chúng ta đối với vấn đề càng được cải thiện.

Nghịch lí Simpson còn cho chúng ta thấy rằng: cái tổng thể không nói lên được điều gì về từng cá thể ở trong nó và ngược lại, mọi cá thể có thể có cùng một tính chất nhưng tổng thể có thể sẽ không có đặc tính đó. Ví dụ về bệnh viện cho thấy rõ điều này. Điểm thú vị ở đây là đặc điểm thống kê này cũng giống như cách mà xã hội hay như những lĩnh vực khác đang hoạt động. Một trường học tốt không có nghĩa mọi học sinh trong đó đều giỏi, tất cả tù nhân trong ngục không có nghĩa họ đều là người xấu,…

Ngoài ra, nghịch lí Simpson còn cho chúng ta đặt lại câu hỏi về bản chất thống kê, buộc ta phải hiểu rõ về nó hơn để tránh đi đến những cách hiểu sai lầm có thể rất tai hại về sau. Một công dân của xã hội hiện đại giờ đây phải thành thạo bốn kĩ năng, đó là đọc, viết, thống kê và công nghệ. Cựu thủ tướng Anh Benjamin Disraeli từng nói

“There are three kinds of lies: lies, damned lies, and statistics.”

(tạm dịch: có ba loại dối trá: nói dối, nói dối đáng nguyền rủa, và thống kê).

Câu nói này không có ý nói thống kê là dối trá, mà là con người sử dụng nó làm công cụ dối trá, và nói dối bằng thống kê còn có tội nặng hơn là nói dối đáng nguyền rủa. Con số phần trăm là một chỉ số được sử dụng để thuyết phục công chúng về nhiều vấn đề, được sử dụng bởi truyền thông, bởi các chính trị gia, bởi các hãng quảng cáo dù là vô tình hay cố ý. Bởi vậy, hãy là người biết lắng nghe thông thái.

Leave a Reply

Your email address will not be published. Required fields are marked *