Đầu tiên thì tôi có ví dụ như sau: Tuổi trung bình của những đứa trẻ trong một bài test là 12.93 với độ lệch chuẩn là 0.76. Bây giờ có thể tôi đang nghĩ quá lên, nhưng Google toàn cho ra lời giải thích phức tạp về độ lệch chuẩn mà không thèm nói gì liên quan tới đám nhóc trong ví dụ hết.
Edit: Mấy bồ tuyệt vời quá! Mấy bồ giúp tôi nhiều dữ lắm, nếu ôm được hết thì tôi sẽ ôm liền luôn.
_____________________
Để tôi giải thích thử:
Chẳng hạn như bồ đang 5 tuổi và bố thì 30 tuổi. Tuổi trung bình giữa hai người là 35/2=17.5. Rồi bồ có hai người anh họ lần lượt 17 và 18 tuổi. Tuổi trung bình cũng ra 17.5 luôn.
Bồ thấy đó, giá trị trung bình không nói được nhiều về những số liệu của bồ. Thế là độ lệch chuẩn ra đời. Hai người anh họ sẽ có độ lệch chuẩn là 0.5, trong khi bồ và bố thì là 12.5.
Độ lệch chuẩn cho phép bồ biết số liệu hiện có gần như thế nào với giá trị trung bình. Độ lệch chuẩn càng thấp thì độ rải rác của số liệu hiện có càng nhỏ.
>u/BAXterBEDford (1.2k points)
Bồ tính độ lệch chuẩn giữa nhiều hơn hai giá trị như thế nào? Giống như bồ muốn tìm độ tuổi trung bình và độ lệch chuẩn của một nhóm 5 người chẳng hạn.
>>u/RashmaDu (1.8k points – x1 silver – x2 helpful)
Với mỗi người thì lấy số chênh lệch với giá trị trung bình rồi bình phương lên. Sau đó, cộng những giá trị đã bình phương lại, chia cho tổng số người, rồi lại lấy căn bậc hai của giá trị vừa ra (lưu ý là trong một cỡ mẫu n, bồ nên chia cho n-1, nhưng nếu là cỡ mẫu lớn thì không cần do chênh lệch không đáng kể).
Vậy nếu như bồ có nhóm người 10, 11, 12, 13, 14, tuổi thì giá trị trung bình bằng 12.
Bồ được phép tính:
√[(10-12)^2 +(11-12)^2 +(12-12)^2 +(13-12)^2 +(14-12)^2 /5] = √[ (4+1+0+1+4)/5] = √2 ≈ 1.4
Edit: Như nhiều bồ nói bên dưới, bồ cần phải chia cho cỡ mẫu sau khi cộng các giá trị bình phương lại, giáo viên dạy thống kê chắc xấu hổ về tôi lắm. Chính xác hơn thì bồ chỉ cần chia cho cỡ mẫu N nếu cỡ mẫu của bồ là tổng dân số luôn, không thì phải chia cho n-1 nếu cỡ mẫu nhỏ (bồ search “Bậc tự do” để tìm hiểu thêm nha).
>>>u/Hedoh (346 points)
Tôi nghĩ phải chia N trước khi căn bậc hai.
Không phải nó sẽ là √(10/5) = √2 = 1.41 ư?
_____________________
u/Atharvious (1.4k points – x2 silvers)
Tôi giải thích chắc cũng đơn giản thôi, nhưng mà trả lời kiểu ELI5 thì như sau:
Giá trị trung bình của (0, 1, 99, 100) là 50.
Giá trị trung bình của (50, 50, 50, 50) cũng là 50.
Nhưng bồ có thể thấy ở ví dụ đầu tiên, giá trị trung bình 50 đó không quan trọng, trừ khi chúng ta muốn thêm dữ kiện về những số liệu hiện có “chênh lệch/lệch chuẩn” như thế nào so với giá trị trung bình.
Độ lệch chuẩn là thang đo mức độ “rải rác” của số liệu thực tế so với giá trị trung bình.
Cho nên cụm số liệu đầu tiên sẽ có độ lệch chuẩn cao hơn (vì tất cả các giá trị trong đó đều cách xa 50), còn cụm số liệu thứ hai chắc chắn có độ lệch chuẩn bằng 0 rồi.
>u/Silent-Standard-3641 (293 points)
Bồ ơi, bồ giải thích luôn về phương sai được không? Mình dùng nó chi vậy?
>>u/SuperPie27 (241 points)
Phương sai được dùng chủ yếu cho hai mục đích sau:
Nó là bình phương của độ lệch chuẩn (mặc dù bồ có thể cãi ngược lại rằng chúng ta dùng độ lệch chuẩn bởi vì nó là căn bậc hai của phương sai).
Nhưng quan trọng hơn, nó gần như tuyến tính luôn: Giả sử bồ nhân toàn bộ số liệu cho một số a bất kỳ thì phương sai mới sẽ bằng a^2 lần phương sai cũ, và phương sai của X+Y là phương sai của X nhân với phương sai của Y, nếu X và Y độc lập với nhau.
Nó cũng thay đổi bất biến, cho nên nếu bồ thêm một giá trị nào đó vào dữ kiện của bồ thì phương sai sẽ không thay đổi, mặc dù điều này cũng đúng với hầu hết các phép tính phổ rộng.
>>>u/Osato (58 points)
Vậy nếu dùng phương sai tiện hơn và nó chỉ là bình phương của độ lệch chuẩn thì tại sao dùng độ lệch chuẩn làm gì nhỉ?
Liệu độ lệch chuẩn có gì đó hữu ích hơn so với phương sai không?
>>>>u/SuperPie27 (260 points – x1 helpful)
Căn bậc hai của phương sai sẽ trả về gói giá trị ban đầu được bồ bình phương lên. Ví dụ như bồ đang đo chiều dài theo đơn vị mét, nhưng phương sai lại là m^2.
Lúc này dùng độ lệch chuẩn sẽ lợi hơn trong phân tích thực nghiệm, còn phương sai được dùng nhiều nhất trong lý thuyết. Nó cũng lợi hơn khi biến đổi các phân phối vì tính chất bình phương tuyến tính của phương sai: nếu bồ chia toàn bộ dữ kiện cho độ lệch chuẩn thì bồ sẽ có phương sai và độ lệch chuẩn bằng 1.
>u/Mookman01 (22 points)
Comment trên Reddit giải thích còn hay hơn so với cả một chương toán tôi học ở cấp 3 nữa.
_____________________
u/sonicstreak (500 points)
ELI5: Độ lệch chuẩn là để cho bồ biết độ “rải rác” của dữ liệu.
Độ lệch chuẩn thấp = đa số bọn trẻ có tuổi gần với tuổi trung bình.
Độ lệch chuẩn cao = đa số bọn trẻ có tuổi xa với tuổi trung bình.
===
ELI10: Biết được độ rải rác của dữ liệu rất quan trọng.
Dễ nhất là bồ hỏi “Trên trung bình thì mỗi số liệu cách giá trị trung bình bao xa?”. Bồ sẽ có được độ lệch chuẩn tuyệt đối (Mean Absolute Deviation).
“Độ lệch chuẩn” và “Phương sai” là phiên bản phức tạp hơn của cái này, nhưng cũng có nhiều lợi ích hơn.
Edit: Tôi muốn viết ra những lợi ích này nhưng mà nhiều quá không vừa textbox được.
_____________________
u/escpoir (34 points – x1 gold)
Khi bồ cộng thêm và trừ đi độ lệch chuẩn cho giá trị trung bình thì 68% số liệu của bồ (tuổi của đám nhóc) nằm trong khoảng từ (12.93-0.76) cho tới (12.93+0.76).
Nếu bồ cộng thêm hoặc trừ đi hai độ lệch chuẩn với nhau thì 95% sẽ nằm trong khoảng từ (12.93-2*0. 76) cho tới (12.93+2*0. 76).
Nếu bồ kiểm tra thêm một nhóm trẻ nữa và có độ lệch chuẩn >0.76, nghĩa là nhóm này có độ tuổi đa dạng và phổ rộng hơn.
Ngược lại, nếu bồ kiểm tra thêm một nhóm trẻ khác nữa và có độ lệch chuẩn <0.76, nghĩa là nhóm này có độ tuổi gần với giá trị trung bình, ít rải rác hơn.
>u/Nerscylliac (8 points)
Ahh, tôi hiểu rồi. Tôi nghĩ mình bắt đầu thấm được. Cảm ơn nhiều nha!
>>u/Snizzbut (7 points)
Lưu ý là comment trên chỉ áp dụng cho độ lệch chuẩn trong phân phối chuẩn thôi nha bồ, không phải cho mọi độ lệch chuẩn nói chung đâu!
_____________________
Dịch bởi Thái Hiền
