Cách tốt nhất để thấy được tầm quan trọng của định lý Bayes là cho thấy mọi người hiểu sai nó.
P1: 90% kẻ h/ã/m h/i/ế/p là nam giới
P2: Bạn là nam giới
P3: Vì vậy, bạn có 90% khả năng bạn là kẻ h/ã/m h/i/ế/p con nhà người ta.
Nghe vô cùng sai đúng không nào, nhưng mà tranh cãi kiểu này thì lại ở khắp mọi nơi mới đau.
Định lý Bayes nói rằng P(A | B) = (P(B | A) * P(A)) / P(B).
Theo như ví dụ trên, ta có tỉ lệ một người là nam, nếu là một kẻ h/ã/m h/i/ế/p, là 90%, tức 0.9.
Thứ ta cần xác định là khả năng một người là kẻ h/ã/m h/i/ế/p, nếu họ là nam giới.
Hai số này không hề giống nhau.
Sáng tỏ hơn, bạn cần biết hai thứ: tỉ lệ nam giới trong dân số, và tỉ lệ kẻ hãm hiếp trong dân.
Tìm kiếm nhanh trên Google thì ta thấy 49% dân số là nam giới ở Mỹ, nên P(male) = 0.49.
Google nhanh thì hơi khó để tìm được tỉ lệ người h/ã/m h/i/ế/p trên tổng số dân, nên tôi giả sử là 1 trong 5000 đi, tức P(rapist) = 0.0002.
Vậy ta có đủ dữ kiện để tính toán rồi.
P(ra.pist | male) = (P(male | ra.pist) * P(ra.pist))/P(male) = (0.9 * 0.0002) / 0.49 = 0.00037, hay 0.037%, tức là có 1 trên mỗi 2722 người… nghe đỡ sợ hơn nhiều là cái tỉ lệ 9 trên 10 kia nhỉ.
Đó, khác biệt này, có thể áp dụng cho bất cứ thống kê nào, chính là lý do định lý Bayes quan trọng đến như thế nào.
_____________________
u/ZuG (3 points)
Định lý Bayes cho phép bạn cập nhật xác suất dựa trên một số thông tin có thêm được, nghe thì đơn giản đấy nhưng thật sự rất mạnh. Ví dụ yêu thích của tôi như thế này:
Câu hỏi: Bạn tới gặp bác sĩ và họ gợi ý thực hiện xét nghiệm HIV. Xét nghiệm trả kết quả dương tính. Độ chính xác của xét nghiệm là 99%. Có bao nhiêu khả năng bạn nhiễm HIV?
Trả lời: ~ 10%. Chẳng nơi nào trên trái đất mong chờ kết quả này đúng cả. Nhưng thực tế là vậy, và Bayes chứng minh cho kết quả đó.
Edit: Trong trường hợp bạn thắc mắc, xác suất này sao lại thấp đến vậy vì thực sự lượng HIV xung quanh là rất thấp. Tỉ lệ chính xác 99% là tỉ lệ phát hiện HIV nếu nó xuất hiện. Thực tế, sai số khi xét nghiệm có khả năng phát hiện quá mức, nên bạn có khoảng 2% khả năng là dương tính giả. Nếu 5 triệu người thực hiện xét nghiệm, lượng lớn người trong đó không mắc HIV, nhưng 2% trong số 5 triệu người đó lại là một lượng dương tính giả rất lớn, so với lượng nhỏ người thực sự mắc HIV.
_____________________
u/negative_epsilon (3 points)
Bài toán liên quan đến định lý Bayes thực ra xuất hiện rất nhiều trong cuộc sống. Có hẳn một mảng thống kê dựa trên Bayes cơ mà. Cứ nghĩ đến các vấn đề này xem:
15% tài xế có bảo hiểm lái xe gắn máy, 60% lái SUV, 10% lái xe thể thao, 15% lái xe lai.
Trong công ty bảo hiểm, 3% người lái xe gắn máy gặp tai nạn, 7% các tài xế SUV tai nạn, 1% xe lai và 3% xe thể thao sẽ gặp tai nạn.
Một tài xế gặp tai nạn. Xác suất bao nhiêu phần trăm người đó lái xe thể thao?
Nhìn qua thì có vẻ khá là đơn giản — nhưng không sử dụng định lý Bayes thì sẽ rất khó khăn. Định lý đưa ra một cách đơn giản để chuyển xác suất có điều kiện. Cho phần lớn các xác suất xảy ra trong thế giới thực đều có điều kiện đi, nó cho phép ta sử dụng thông tin đó một cách hiệu quả nhất.
_____________________
Ảnh là công thức Bayes bằng đèn neon.
Nguồn: Wikipedia