Trả lời bởi Dale L Olausen, nhà thống kê học (bán nghỉ hưu) (1991 – nay)
Đây là một câu hỏi thú vị, và nó cũng hiếm khi được nói kĩ trong phần mở đầu các khoá học xác suất. Sau cùng thì, sự thật thì phân phối chuẩn (normal distribution) trở nên “bình thường” (“normal”) tới mức nó hiếm khi được nhắc đến trong các khoá học nâng cao. Tôi sẽ cố gắng giải thích ở mức đơn giản nhất có thể, để các bạn đọc bình thường có thể hiểu chút nào (mong là thế).
Đầu tiên, thông thường mọi người thường hỏi “phân phối chuẩn là gì”? Có một thứ toán học mà bạn có lẽ đã nghe qua, gọi là “đường cong hình chuông” hoặc là phân phối Gauss. Cách gọi thông thường dựa trên hình dáng trên đồ thị (như hình dưới), trong khi cách gọi sau lại liên quan đến một trong những người nổi tiếng nhất tìm ra nó, nhà toán học đại tài Gauss. (ảnh 1)

Hình ảnh biểu diễn một thứ gọi là phân phối chuẩn tắc. Trục xbiểu diễn các giá trị khác nhau của một bộ dữ liệu thực tế, và trục y biểu diễn tốc độ thay đổi của xác suất của biến thực sự nhận giá trị đó. Tất cả dữ liệu phân phối bình thường đều có thể chuyển về phân phối chuẩn tắc này, và vì vậy có thể phân tích thành một bộ các nguyên tắc phù hợp với hình ảnh này.
Ở giữa là giá trị trung bình, thứ mọi người thường coi là trung bình cộng. Về hai phía trái và phải là các giá trị lệch khỏi giá trị trung bình, thể hiện nó qua một khái niệm gọi là độ lệch chuẩn. Như trong ảnh, với một bộ dữ liệu phân phối chuẩn bình thường, khoảng hai phần ba các giá trị sẽ nằm trong khoảng 1 lần độ lệch chuẩn, với 95% các giá trị rơi vào khoảng 2 lần độ lệch chuẩn, và tới 99% rơi vào khoảng 3 lần độ lệch chuẩn. Vậy nên, một bộ dữ liệu phân phối thông thường sẽ có một số tính chất nhận biết rất đẹp. Chúng cũng có một số tính chất đẹp như đối xứng quanh giá trị trung bình, như trên ảnh. Hai tính chất này là vô giá với các nhà thống kê học và khoa học dữ liệu (data scientists), khi ứng dụng toán học và các thuật toán để dự đoán rất nhiều tính chất của thế giới thực.
Một điểm quan trọng khác của phân phối chuẩn, đó là rất, rất nhiều tình huống trong thế giới thực có thể mô hình hoá bằng phân phối chuẩn, hoặc ít nhất là rất gần phân phối chuẩn. Thực tế, mọi người thường hướng đến phân phối này đầu tiên (“go-to” distribution), trong phần lớn các mục tiêu. Một số ví dụ như chiều cao của một nhóm người ngẫu nhiên, hay phân phối IQ hoặc đồ thị các phát bắn trượt một xạ thủ quanh hồng tâm.
Trở lại câu hỏi lúc đầu, tại sao nhiều dữ liệu thực tế lại tuân theo phân phối chuẩn? Giải thích thông thường có thể thấy thông qua một tên gọi khác của phân phối chuẩn, “phân phối sai số” (error distribution). Ý tưởng là sai số hoàn toàn ngẫu nhiên, nên nó có khả năng theo một hướng hơn những hướng còn lại. Ví dụ thế này, một thiện xạ có thể bắn hơi lệch trái một chút, lệch phải một chút, lệch một chút lên trên hoặc một chút xuống dưới. Vì vậy, đồ thị biểu diễn khoảng cách của mỗi phát bắn so với hồng tâm sẽ phản ánh xu hướng ngẫu nhiên này, và sẽ đối xứng quanh giá trị trung bình. Tương tự với chiều cao và chỉ số thông minh – nhiều gen (có thể tới hàng ngàn) ảnh hưởng tới các tính trạng này, cũng như rất nhiều các yếu tố môi trường như dinh dưỡng, ốm đau, thu nhập thấp, vân vân.
Do đường cong có hình chuông, có vẻ như nó sẽ liên quan đến những định lý khác của xác suất, nguyên lý Bernoulli và Định lý Giới hạn Trung tâm. Nguyên lý Bernoulli là một nguyên lý xác định xác suất thành công hay thất bại, như tung một đồng xu. Định lý Giới hạn Trung tâm nói rằng, nếu bạn lấy một số lượng lớn mẫu theo bất cứ một phân phối nào, và phân tích một số thống kê từ nhóm các mẫu đó, cuối cùng bạn cũng sẽ thu được phân phối chuẩn từ phân phối đó. Tôi đưa hai thứ đó vào đây, trong thí nghiệm như hình bên dưới.
Trong thí nghiệm này, tôi tung đồng xu 16 lần, và đếm số lần mặt ngửa. Khi tôi tăng số lần thử lên [T/N: mỗi lần thử tung 16 lần nhé], phân phối càng ngày càng gần với phân phối chuẩn. Tôi mô phỏng thí nghiệm này trên Excel, với kết quả như hình dưới. (ảnh 2, 3, 4)



Bạn có thể thấy đồ thị càng ngày càng giống “đường cong hình chuông” khi số lần thử tăng từ 40 lên 4000. Số lần cần thử để “tiến đủ gần” tới phân phối chuẩn có vẻ khá gây tranh cãi, nhưng do nhiều mục đích thống kê, có thể coi “chuẩn” sau khoảng 100 lần thử, như một số phương pháp thống kê và/hoặc khoa học dữ liệu khá là mạnh, trong trường hợp này.
Đây là một đoạn trích trong một cuốn sách tôi có, tên là “Điều thú vị của xác suất” (The Pleasures of Probability) của Richard Isaac:
“Định lý Giới hạn Trung tâm đôi khi được dùng để giải thích theo lý thuyết cho tần suất các phân phối chuẩn hay phân phối gần chuẩn miêu tả thế giới tự nhiên. Người ta cho rằng chiều cao của một người trưởng thành, ví dụ, phụ thuộc vào rất nhiều yếu tố: do gen, chế độ ăn uống, yếu tố môi trường, vân vân… Những yếu tố này thường kết hợp lại theo một cách xấp xỉ nào đó, nên kết quả là, theo Định lý Giới hạn Trung tâm, gần với phân phối chuẩn. Đúng là những yếu tố ảnh hưởng tới chiều cao của một cá nhân nói chung không có cùng một phân phối, hay luôn độc lập với nhau, nên có thể Định lý Giới hạn Trung tâm có thể không áp dụng được ở đây. Tuy nhiên, vẫn có những lúc Định lý Giới hạn Trung tâm đúng nếu ban đầu giả sử phân phối giống nhau, hay thậm chí giả sử chúng độc lập với nhau. Các kết quả này có thể đưa ra những lời giải thích thoả đáng cho việc tại sao rất nhiều hiện tượng tự nhiên xấp xỉ tuân theo phân phối chuẩn.” (trang 138)
Chú ý rằng có rất nhiều phân phối xác suất khác cũng xuất hiện trong các bộ dữ liệu thực tế. Một trong số đó là phân phối mũ miêu tả nhiều hiện tượng tự nhiên (ví dụ phân phối kích cỡ các miệng núi lửa trên mặt trăng) và phân phối dữ liệu xã hội (ví dụ như dữ liệu bán sách hoặc phim).
Việc nhận ra khi nào phân phối chuẩn chấp nhận được là vô cùng quan trọng. Tác giả cuốn kinh tế nổi tiếng “The Black Swan” đã đi sâu vào vấn đề này, nhưng đó là câu chuyện khác (về cơ bản, những thứ khó lường xảy ra nhiều hơn ta nghĩ khi giả định phân phối chuẩn, và khi chuyện đó xảy ra, chúng có thể để lại hậu quả khôn lường, như thị trường chứng khoán sụp đổ). (ảnh 5)

Và cũng phải thấy được sự khác nhau giữa phân phối chuẩn và một con ma nhé. (ảnh 6)

Theo: Hưng Nguyễn