Lý thuyết Các số đặc trưng đo mức độ phân tán cho mẫu số liệu không ghép nhóm (Cánh diều 2024) Toán 10
Tóm tắt lý thuyết Toán 10 Bài 3: Các số đặc trưng đo mức độ phân tán cho mẫu số liệu không ghép nhóm ngắn gọn, chính xác sách Kết nối tri thức sẽ giúp học sinh nắm vững kiến thức trọng tâm, ôn luyện để học tốt Toán 10.
Lý thuyết Toán lớp 10 Bài 3: Các số đặc trưng đo mức độ phân tán cho mẫu số liệu không ghép nhóm
A. Lý thuyết
I. Khoảng biến thiên. Khoảng tứ phân vị
1. Định nghĩa
- Trong một mẫu số liệu, khoảng biến thiên là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất của mẫu số liệu đó.
Ta có thể tính khoảng biến thiên R của mẫu số liệu theo công thức sau: R = xmax – xmin, trong đó xmax là giá trị lớn nhất, xmin là giá trị nhỏ nhất của mẫu số liệu đó.
- Giả sử Q1, Q2, Q3 là tứ phân vị của mẫu số liệu. Ta gọi hiệu ∆Q = Q3 – Q1 là khoảng tứ phân vị của mẫu số liệu đó.
Chú ý: Khoảng tứ phân vị của mẫu số liệu còn gọi là khoảng trải giữa (tiếng Anh là InterQuartile Range – IQR) của mẫu số liệu đó.
Ví dụ: Mẫu số liệu thống kê cân nặng (đơn vị: kg) của 8 học sinh trong một tổ như sau:
45 52 41 37 50 52 66 49
a) Tìm khoảng biến thiên của mẫu số liệu trên.
b) Tìm khoảng tứ phân vị của mẫu số liệu trên.
Hướng dẫn giải
a) Trong mẫu có số liệu lớn nhất là 66, số liệu nhỏ nhất là 37.
Khi đó, khoảng biến thiên của mẫu là R = xmax – xmin = 66 – 37 = 29 (kg).
Vậy khoảng biến thiên của mẫu là R = 29 kg.
b) Sắp xếp mẫu theo thứ tự tăng dần, ta được:
37 41 45 49 50 52 52 66
Khi đó, trung vị của mẫu là: Q2 = .
Q1 là trung vị của mẫu 37, 41, 45, 49 nên Q1 = .
Q3 là trung vị của mẫu 50, 52, 52, 66 nên Q3 = .
Khi đó, ta có khoảng tứ phân vị là:
∆Q = Q3 – Q1 = 52 – 43 = 9 (kg).
Vậy khoảng tứ phân vị của mẫu là ∆Q = 9 kg.
2. Ý nghĩa
a) Ý nghĩa của khoảng biến thiên: Khoảng biến thiên của mẫu số liệu phản ánh sự “dao động”, “sự dàn trải” của các số liệu trong mẫu đó. Khoảng biến thiên được sử dụng trong nhiều tình huống thực tiễn, chẳng hạn: tìm ra sự phân tán điểm kiểm tra của một lớp học hay xác định phạm vi giá cả của một dịch vụ …
Theo cách nhìn như ở trong vật lí, ở đó biên độ dao động phản ánh khoảng cách từ điểm cân bằng đến điểm xa nhất của dao động, nếu coi số trung bình cộng là “điểm cân bằng” của mẫu số liệu thì khoảng biến thiên của mẫu số liệu có thể xem như hai lần biên độ dao động của các số liệu trong mẫu đó quanh điểm cân bằng.
Trong các đại lượng đo mức độ phân tán của mẫu số liệu, khoảng biến thiên là đại lượng dễ hiểu, dễ tính toán và tương đối tốt đối với các mẫu số liệu nhỏ. Tuy nhiên, do khoảng biến thiên chỉ sử dụng hai giá trị xmax và xmin của mẫu số liệu nên đại lượng đó chưa diễn giải đầy đủ sự phân tán của số liệu trong mẫu. Ngoài ra, giá trị của khoảng biến thiên sẽ bị ảnh hưởng bởi các giá trị bất thường của mẫu số liệu đó. Trong những trường hợp như vậy, khoảng biến thiên của mẫu số liệu không phản ánh chính xác độ dàn trải của mẫu số liệu.
b) Ý nghĩa của khoảng tứ phân vị: Khoảng tứ phân vị là đại lượng cho biết mức độ phân tán của 50% số liệu chính giữa của mẫu số liệu đã sắp xếp và có thể giúp xác định các giá trị bất thường của mẫu số liệu đó. Khoảng tứ phân vị thường được sử dụng thay cho khoảng biến thiên vì nó loại trừ hầu hết giá trị bất thường của mấu số liệu.
II. Phương sai
1. Định nghĩa
- Mỗi hiệu số giữa số liệu và số trung bình cộng gọi là độ lệch của số liệu đó đối với số trung bình cộng.
- Cho mẫu số liệu thống kê có n giá trị x1, x2, …, xn và số trung bình cộng là .
Ta gọi số là phương sai của mẫu số liệu trên.
Nhận xét:
- Khi có các số liệu bằng nhau, ta có thể tính phương sai theo công thức sau:
+ Đối với bảng tần số:
Phương sai của mẫu số liệu thống kê trong bảng phân bố tần số là:
trong đó n = n1 + n2 + …+ nk ; là số trung bình cộng của các số liệu đã cho.
+ Đối với bảng phân bố tần số tương đối:
Phương sai của mẫu số liệu thống kê trong bảng phân bố tần số tương đối là:
trong đó là số trung bình cộng của số liệu đã cho.
- Trong thực tế, người ta còn dùng công thức sau để tính phương sai của mẫu số liệu:
trong đó: xi là giá trị của quan sát thứ i; là giá trị trung bình và n là số quan sát trong mẫu số liệu đó.
Ví dụ: Hai lớp 10A và 10B của một trường THPT đồng thời làm bài thi môn Toán theo cùng một đề thi. Kết quả được ghi lại trong bảng tần số sau:
Điểm thi của lớp 10A:
Điểm thi |
5 |
6 |
7 |
8 |
9 |
10 |
Số học sinh |
3 |
7 |
12 |
14 |
3 |
1 |
Điểm thi của lớp 10B:
Điểm thi |
6 |
7 |
8 |
9 |
Số học sinh |
8 |
18 |
10 |
4 |
a) Tính phương sai của từng mẫu số liệu ở hai bảng trên.
b) Xét xem kết quả bài thi của lớp nào đồng đều hơn.
Hướng dẫn giải
Ta có điểm thi trung bình của lớp 10A là:
Điểm thi trung bình của lớp 10A là:
Ta có phương sai của mẫu số liệu lớp 10A là:
⇒ = 1,2875
Ta có phương sai của mẫu số liệu lớp 10B là:
⇒ = 0,7875.
Ta thấy điểm thi trung bình của lớp 10A và 10B bằng nhau đều bằng 7,25. Nhưng phương sai bảng điểm của lớp 10A lại lớn hơn phương sai bảng điểm lớp 10B nên kết quả làm bài thi của lớp 10B đồng đều hơn lớp 10A.
2. Ý nghĩa
Phương sai là số đặc trưng đo mức độ phân tán của mẫu số liệu. Mẫu số liệu nào có phương sai nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn.
III. Độ lệch chuẩn
1. Định nghĩa
Căn bậc hai (số học) của phương sai gọi là độ lệch chuẩn của mẫu số liệu thống kê.
Nhận xét: Vì độ lệch chuẩn có cùng đơn vị đo với số liệu thống kê nên khi cần chú ý đến đơn vị đo thì ta sử dụng độ lệch chuẩn mà không sử dụng phương sai.
Ví dụ: Cho mẫu số liệu:
23 22 20 12 35
Tính độ lệch chuẩn của mẫu trên.
Hướng dẫn giải
Mẫu trên có 5 số liệu.
Số trung bình của mẫu trên là: .
Phương sai của mẫu số liệu đó là:
⇒ s = = ≈ 7,39.
Vậy độ lệch chuẩn của mẫu là 7,39.
2. Ý nghĩa
Cũng như phương sai, khi hai mấu số liệu thống kê có cùng đơn vị đo và có số trung bình cộng bằng nhau (hoặc xấp xỉ nhau), mẫu số liệu nào có độ lệch chuẩn nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn. Độ lệch chuẩn là số đặc trưng đo mức độ phân tán của mẫu số liệu thống kê có cùng đơn vị đo.
IV. Tính hợp lí của số liệu thống kê
Ta có thể sử dụng các số đặc trưng đo mức độ phân tán cho mẫu số liệu không ghép nhóm để chỉ ra được những số liệu bất thường của mẫu số liệu đó. Ta thường sử dụng khoảng tứ phân vị để xác định số liệu bất thường của mẫu số liệu. Cụ thể như sau:
Giả sử Q1, Q2, Q3 là tứ phân vị của mẫu số liệu và hiệu ∆Q = Q3 – Q1 là khoảng tứ phân vị của mẫu số liệu đó. Một giá trị trong mẫu số liệu được coi là một giá trị bất thường nếu nó nhỏ hơn hoặc lớn hơn . Như vậy, khoảng tứ phân vị cho ta cách nhận biết giá trị bất thường của mẫu số liệu.
Chú ý: Ta cũng có thể xác định số liệu bất thường của mẫu số liệu bằng số trung bình cộng và độ lệch chuẩn. Cụ thể như sau:
Giả sử , s lần lượt là số trung bình cộng và độ lệch chuẩn của mẫu số liệu. Một giá trị trong mẫu số liệu cũng được coi là một giá trị bất thường nếu nó nhỏ hơn – 3s hoặc lớn hơn + 3s. Như vậy, số trung bình cộng và độ lệch chuẩn cho ta cách nhận ra giá trị bất thường của mẫu số liệu.
Ví dụ: Hãy tìm các giá trị bất thường của mẫu số liệu sau:
12 4 10 –5 6 7 9 30
Hướng dẫn giải
Mẫu được sắp xếp theo thứ tự tăng dần là:
–5 4 6 7 9 10 12 30
Mẫu có 8 số liệu
Trung vị của mẫu là: = 8. Suy ra Q2 = 8.
Trung vị nửa dưới –5, 4, 6, 7 là = 5. Suy ra Q1 = 5.
Trung vị nửa trên 9, 10, 12, 30 là = 11. Suy ra Q3 = 11.
Khoảng tứ phân vị là ∆Q = Q3 – Q1 = 11 – 5 = 6.
Ta có: ; .
Ta thấy –5 < –4 và 30 > 20 nên các giá trị –5 và 30 là các giá trị bất thường của mẫu.
Vậy mẫu có hai giá trị bất thường là –5 và 30.
B. Bài tập tự luyện
B.1 Bài tập tự luận
Bài 1. Thời gian 5 lần chạy cự li 100 m (đơn vị: giây) của hai bạn Long và Nam được ghi lại trong bảng sau:
Long |
20 |
23 |
19 |
21 |
22 |
Nam |
18 |
21 |
20 |
22 |
22 |
a) Tính thời gian chạy trung bình của mỗi bạn Long và Nam. Bạn nào có kết quả chạy tốt hơn.
b) Tính phương sai, độ lệch chuẩn của mẫu số liệu thống kê kết quả 5 lần chạy của mỗi bạn. Từ đó cho biết bạn nào có kết quả chạy ổn định hơn.
Hướng dẫn giải
a) Thời gian chạy trung bình của Long là: (s).
Thời gian chạy trung bình của Nam là: (s).
Do (21 > 20,6) nên kết quả chạy của Nam tốt hơn của Long.
Vậy thời gian chạy trung bình của Long là 21 giây, của Nam là 20,6 giây và kết quả chạy của Nam tốt hơn của Long.
b) Ta có phương sai của mẫu số liệu thống kê kết quả 5 lần chạy của Long là:
⇒ sL = = ≈ 1,41.
Phương sau của mẫu số liệu thống kê kết quả 5 lần chạy của Nam là:
⇒ sN = = ≈ 1,5.
Ta thấy (2 < 2,24) nên bạn Long có kết quả chạy ổn định hơn bạn Nam.
Vậy phương sai của mẫu số liệu thống kê kết quả 5 lần chạy của Long và Nam lần lượt là 2 và 2,24. Độ lệch chuẩn của mẫu số liệu thống kê kết quả 5 lần chạy của Long và Nam lần lượt là 1,41 và 1,5. Bạn Long có kết quả chạy ổn định hơn bạn Nam.
Bài 2. Cho mẫu số liệu thống kê chiều cao của 13 cây xoan đào (đơn vị: mét) như sau:
2,4 3 2,5 4 0,9 5 4,3 4 3,7 3,9 4,4 7,3 1,7
a) Tìm khoảng biến thiên của mẫu số liệu trên.
b) Tìm khoảng tứ phân vị của mẫu số liệu.
c) Tìm các giá trị bất thường của mẫu.
Hướng dẫn giải
a) Sắp xếp mẫu theo thứ tự tăng dần:
0,9 1,7 2,4 2,5 3 3,7 3,9 4 4 4,3 4,4 5 7,3
Mẫu có 13 số liệu, số liệu nhỏ nhất là 0,9; số liệu lớn nhất là 8.
Khi đó khoảng biến thiên của mẫu là R = 8 – 0,9 = 7,1 (m).
Vậy khoảng biến thiên của mẫu là 7,1 mét.
b) Trung vị của mẫu là 3,9; tức là Q2 = 3,9.
Trung vị nửa dưới của mẫu 0,9; 1,7; 2,4; 2,5; 3; 3,7 là = 2,45. Suy ra Q1 = 2,45 (m).
Trung vị nửa dưới của mẫu 4; 4; 4,3; 4,4; 5; 8 là = 4,35. Suy ra Q3 = 4,35(m).
Khi đó khoảng tứ phân vị của mẫu là: ∆Q = Q3 – Q1 = 4,35 – 2,45 = 1,9 (m).
Vậy khoảng tứ phân vị là 1,9 m.
c) Ta có: ; .
Ta thấy 7,3 > 7,2 nên giá trị 7,3 là các giá trị bất thường của mẫu.
Vậy mẫu có giá trị bất thường là 7,3.
B.2 Bài tập trắc nghiệm
Câu 1. Năng suất lúa hè thu (tạ/ha) năm 1998 của 31 tỉnh thành ở Việt Nam được thống kê trong bảng sau:
Năng suất lúa (tạ/ha) |
25 |
30 |
35 |
40 |
45 |
Tần số |
4 |
7 |
9 |
6 |
5 |
Hãy tính khoảng biến thiên của mẫu số liệu trên.
A. 40;
B. 20;
C. 61;
D. 1.
Hướng dẫn giải
Đáp án đúng là: B
Theo bảng số liệu trên ta có: Giá trị lớn nhất của số liệu là 45; giá trị nhỏ nhất của số liệu là 25.
Khoảng biến thiên : R = 45 – 25 = 20.
Câu 2. Tiến hành đo huyết áp của 8 người ta thu được kết quả sau:
77 105 117 84 96 72 105 124
Hãy tìm khoảng tứ phân vị của mẫu số liệu trên.
A. 10;
B. 20;
C. 10,5;
D. 30,5.
Hướng dẫn giải
Đáp án đúng là: D
Mẫu số liệu trên được sắp xếp theo thứ tự tăng dần như sau:
72 77 84 96 105 105 117 124
Trung vị của mẫu số liệu trên là: = 100,5 ⇒ Q2 = 100,5.
Nửa dãy phía dưới số 100,5 (nghĩa là những số nhỏ hơn 100,5) gồm: 72 77 84 96 có trung vị là = 80,5 ⇒ Q1 = 80,5.
Nửa dãy phía trên số 100,5 (nghĩa là những số lớn hơn 100,5) gồm: 105 105 117 124 có trung vị là = 111 ⇒ Q3 = 111.
Do đó, tứ phân vị của mẫu số liệu: Q1 = 80,5; Q2 = 100,5; Q3 = 111.
Vậy khoảng tứ phân vị của mẫu số liệu là: ∆Q = Q3 – Q1 = 111 – 80,5 = 30,5.
Câu 3. Thời gian chạy 50 m của 20 học sinh được ghi lại trong bảng sau đây:
Thời gian (giây) |
8,3 |
8,4 |
8,5 |
8,7 |
8,8 |
Tần số |
2 |
3 |
9 |
5 |
1 |
Hãy tìm độ lệch chuẩn của mẫu số liệu đã cho.
A. 0,14;
B. 0,0191;
C. 8,53;
D. 8,5.
Hướng dẫn giải
Đáp án đúng là: A
Ta có: = = 8, 53.
Phương sai là:
s2=
= 0,0191
⇒ Độ lệch chuẩn: s = 0,14.