Lý thuyết Các số đặc trưng đo mức độ phân tán của mẫu số liệu (Chân trời sáng tạo 2024) Toán 10
Tóm tắt lý thuyết Toán 10 Bài 4: Các số đặc trưng đo mức độ phân tán của mẫu số liệu ngắn gọn, chính xác sách Chân trời sáng tạo sẽ giúp học sinh nắm vững kiến thức trọng tâm, ôn luyện để học tốt Toán 10.
Lý thuyết Toán lớp 10 Bài 4: Các số đặc trưng đo mức độ phân tán của mẫu số liệu
A. Lý thuyết Các số đặc trưng đo mức độ phân tán của mẫu số liệu
1. Khoảng biến thiên và khoảng tứ phân vị
1.1. Khoảng biến thiên và khoảng tứ phân vị
Sắp xếp mẫu số liệu theo thứ tự không giảm, ta được:
x1 ≤ x2 ≤ … ≤ xn.
• Khoảng biến thiên của một mẫu số liệu, kí hiệu là R, là hiệu giữa giá trị lớn nhất và giá trị nhỏ nhất của mẫu số liệu đó, tức là:
R = xn – x1.
• Khoảng tứ phân vị, kí hiệu là ∆Q, là hiệu giữa Q3 và Q1, tức là:
∆Q = Q3 – Q1.
Ví dụ: Hãy tính khoảng biến thiên và khoảng tứ phân vị của mẫu số liệu:
10; 3; 5; 7; 20; 1; 4; 9.
Hướng dẫn giải
Sắp xếp mẫu số liệu theo thứ tự không giảm, ta được: 1; 3; 4; 5; 7; 9; 10; 20.
- Khoảng biến thiên của mẫu số liệu là R = 20 – 1 = 19.
- Cỡ mẫu là n = 8, là số chẵn nên giá trị tứ phân vị thứ hai là Q2 = 6.
- Tứ phân vị thứ nhất là trung vị của mẫu: 10; 3; 5; 7. Do đó Q1 = 4.
- Tứ phân vị thứ 3 là trung vị của mẫu: 7; 9; 10; 20. Do đó Q3 = 9,5.
- Khoảng tứ phân vị của mẫu là: ∆Q = 9,5 – 4 = 5,5.
1.2. Ý nghĩa của khoảng biến thiên và khoảng tứ phân vị
Khoảng biến thiên đặc trưng cho độ phân tán của toàn bộ mẫu số liệu.
Khoảng tứ phân vị đặc trưng cho độ phân tán của một nửa các số liệu, có giá trị thuộc đoạn từ Q1 đến Q3 trong mẫu.
Khoảng tứ phân vị không bị ảnh hưởng bởi các giá trị rất lớn hoặc rất bé trong mẫu.
Ví dụ: Dưới đây là bảng số liệu thống kê của Biểu đồ nhiệt độ trung bình các tháng trong năm 2019 của hai tỉnh Lai Châu và Lâm Đồng (được đề cập đến ở hoạt động khởi động của bài học).
a) Hãy tìm khoảng biến thiên và khoảng tứ phân vị của nhiệt độ trung bình mỗi tháng của tỉnh Lai Châu và Lâm Đồng.
b) Hãy cho biết trong một năm, nhiệt độ ở địa phương nào ít thay đổi hơn.
Hướng dẫn giải
a)
* Tỉnh Lai Châu:
Sắp xếp các số liệu theo thứ tự không giảm, ta được:
14,2; 14,8; 18,6; 18,8; 20,3; 21,0; 22,7; 23,5; 23,6; 24,2; 24,6; 24,7.
+ Khoảng biến thiên của mẫu số liệu là: R = 24,7 – 14,2 = 10,5.
+ Cỡ mẫu là n = 12 là số chẵn nên giá trị tứ phân vị thứ hai là:
Q2 = .
+ Tứ phân vị thứ nhất là trung vị của mẫu: 14,2; 14,8; 18,6; 18,8; 20,3; 21,0.
Do đó Q1 = .
+ Tứ phân vị thứ ba là trung vị của mẫu: 22,7; 23,5; 23,6; 24,2; 24,6; 24,7.
Do đó Q3 = .
+ Khoảng tứ phân vị của mẫu là: ∆Q = 23,9 – 18,7 = 5,2.
* Tỉnh Lâm Đồng:
Sắp xếp các số liệu theo thứ tự không giảm, ta được:
16,0; 16,3; 17,4; 17,5; 18,5; 18,6; 18,7; 19,3; 19,5; 19,8; 20,2; 20,3.
+ Khoảng biến thiên của mẫu số liệu là: R' = 20,3 – 16,0 = 4,3.
+ Cỡ mẫu là n = 12 là số chẵn nên giá trị tứ phân vị thứ hai là:
Q'2 = .
+ Tứ phân vị thứ nhất là trung vị của mẫu: 16,0; 16,3; 17,4; 17,5; 18,5; 18,6.
Do đó Q'1 = .
+ Tứ phân vị thứ ba là trung vị của mẫu: 18,7; 19,3; 19,5; 19,8; 20,2; 20,3.
Do đó Q'3 = .
+ Khoảng tứ phân vị của mẫu là: ∆'Q = 19,65 – 17,45 = 2,2.
b) Xét về cả khoảng biến thiên và khoảng tứ phân vị của nhiệt độ trung bình mỗi tháng của cả hai tỉnh, ta thấy: 10,5 > 4,3 hay R > R' và 5,2 > 2,2 hay ∆Q > ∆'Q.
Điều đó có nghĩa là trong một năm, nhiệt độ ở Lâm Đồng ít thay đổi hơn.
1.3. Giá trị ngoại lệ
Khoảng tứ phân vị được dùng để xác định các giá trị ngoại lệ trong mẫu, đó là các giá trị quá nhỏ hay quá lớn so với đa số các giá trị của mẫu. Cụ thể, phần tử x trong mẫu là giá trị ngoại lệ nếu x > Q3 + 1,5∆Q hoặc x < Q1 – 1,5∆Q.
Sự xuất hiện của các giá trị ngoại lệ làm cho số trung bình và phạm vi của mẫu thay đổi lớn. Do đó, khi mẫu có giá trị ngoại lệ, người ta thường sử dụng trung vị và khoảng tứ phân vị để đo mức độ tập trung và mức độ phân tán của đa số các phần tử trong mẫu số liệu.
Ví dụ: Trong ví dụ ở phần 1.1, ta có:
Q1 – 1,5∆Q = 4 – 1,5 . 5,5 = – 4,25
Q3 + 1,5∆Q = 9,5 + 1,5 . 5,5 = 17,75
Do đó, mẫu có một giá trị ngoại lệ là 20.
2. Phương sai và độ lệch chuẩn
2.1. Công thức tính phương sai và độ lệch chuẩn
* Giả sử ta có một mẫu số liệu là x1, x2, …, xn.
• Phương sai của mẫu số liệu này, kí hiệu là S2, được tính bởi công thức:
trong đó là số trung bình của mẫu số liệu.
• Căn bậc hai của phương sai được gọi là độ lệch chuẩn, kí hiệu là S.
Chú ý: Có thể biến đổi công thức tính phương sai ở trên thành:
.
Trong thống kê, người ta cũng quan tâm đến phương sai hiệu chỉnh, kí hiệu là , được tính bởi công thức:
.
* Giả sử mẫu số liệu được cho dưới dạng bảng tần số:
Giá trị |
x1 |
x2 |
… |
xk |
Tần số |
n1 |
n2 |
… |
nk |
Khi đó, công thức tính phương sai trở thành:
trong đó n = n1 + n2 + … + nk.
Có thể biến đổi công thức tính phương sai trên thành
.
Ví dụ: Tính phương sai và độ lệch chuẩn của mẫu số liệu sau:
8; 10; 9; 7; 6; 10; 6; 7; 8; 9.
Hướng dẫn giải
Cỡ mẫu n = 10.
Số trung bình: (8 + 10 + 9 + 7 + 6 + 10 + 6 + 7 + 8 + 9) : 10 = 8.
Phương sai mẫu số liệu là:
S2 = (82 + 102 + 92 + 72 + 62 + 102 + 62 + 72 + 82 + 92) – 82 = 2.
Độ lệch chuẩn mẫu số liệu là S = .
Ví dụ: Điều tra số con của mỗi hộ gia đình trong tổ dân cư xóm 2, kết quả được ghi lại ở bảng sau:
Số con |
0 |
1 |
2 |
3 |
4 |
Số hộ gia đình |
4 |
4 |
8 |
3 |
1 |
Tính phương sai và độ lệch chuẩn của mẫu số liệu.
Hướng dẫn giải
Tổng số hộ gia đình là: n = 4 + 4 + 8 + 3 + 1 = 20 (hộ gia đình).
Số trung bình của mẫu số liệu trên là
(4 . 0 + 4 . 1 + 8 . 2 + 3 . 3 + 1 . 4) = 1,65
Phương sai của mẫu số liệu trên là:
S2 = (4 . 02 + 4 . 12 + 8 . 22 + 3 . 32 + 1 . 42) – 1,652 = 1,2275
Độ lệch chuẩn của mẫu số liệu trên là:
.
2.2. Ý nghĩa của phương sai và độ lệch chuẩn
Phương sai là trung bình cộng của các bình phương độ lệch từ mỗi giá trị của mẫu số liệu đến số trung bình.
Phương sai và độ lệch chuẩn được dùng để đo mức độ phân tán của các số liệu trong mẫu quanh số trung bình. Phương sai và độ lệch chuẩn càng lớn thì các giá trị của mẫu càng cách xa nhau (có độ phân tán lớn).
Ví dụ: Bảng dưới đây thống kê tổng số giờ nắng trong năm 2019 theo từng tháng được đo bởi hai trạm quan sát khí tượng đặt ở Tuyên Quang và Cà Mau.
a) Hãy tính phương sai và độ lệch chuẩn của dữ liệu từng tỉnh.
b) Nêu nhận xét về sự thay đổi tổng số giờ nắng theo từng tháng ở mỗi tỉnh.
Hướng dẫn giải
a)
* Tỉnh Tuyên Quang:
+ Số trung bình:
.
+ Phương sai mẫu số liệu ở tỉnh Tuyên Quang là:≈ 2920,34.
+ Độ lệch chuẩn mẫu số liệu ở tỉnh Tuyên Quang là:
S1 = .
* Tỉnh Cà Mau:
+ Số trung bình:
.
+ Phương sai mẫu số liệu ở tỉnh Cà Mau là:
(1802 + 2232 + 2572 + 2452 + 1912 + 1112 + 1412 + 1342 + 1302 + 1222 + 1572 + 1732) – 1722 = 2183.
+ Độ lệch chuẩn mẫu số liệu ở tỉnh Cà Mau là:
S2 = .
b) Phương sai mẫu và độ lệch chuẩn mẫu số liệu ở tỉnh Tuyên Quang cao hơn tỉnh Cà Mau nên tổng số giờ nắng trong năm 2019 theo từng tháng ở tỉnh Tuyên Quang có độ phân tán cao hơn ở tỉnh Cà Mau. Do đó, sự thay đổi tổng số giờ nắng theo từng tháng ở tỉnh Cà Mau ổn định (có ít sự thay đổi) hơn so với tỉnh Tuyên Quang.
B. Bài tập tự luyện
Bài 1. Hai lớp 10A, 10B của một trường Trung học phổ thông đồng thời làm bài thi môn Toán theo cùng một đề thi. Kết quả thi được trình bày ở hai bảng phân bố tần số sau đây:
Điểm thi Toán của lớp 10A
Điểm thi |
5 |
6 |
7 |
8 |
9 |
10 |
Cộng |
Tần số |
3 |
7 |
12 |
14 |
3 |
1 |
40 |
Điểm thi Toán của lớp 10B
Điểm thi |
6 |
7 |
8 |
9 |
Cộng |
Tần số |
8 |
18 |
10 |
4 |
40 |
a) Tính các số trung bình cộng, phương sai, độ lệch chuẩn của các mẫu số liệu đã cho.
b) Xét xem kết quả làm bài thi môn Toán ở lớp nào đồng đều hơn?
Hướng dẫn giải
a)
* Lớp 10A:
Số trung bình: (3 . 5 + 7 . 6 + 12 . 7 + 14 . 8 + 3 . 9 + 1 . 10) = 7,25.
Phương sai mẫu số liệu:
(3 . 52 + 7 . 62 + 12 . 72 + 14 . 82 + 3 . 92 + 1 . 102) – 7,252 = 1,2875.
Độ lệch chuẩn: SA = .
* Lớp 10B:
Số trung bình: (8 . 6 + 18 . 7 + 10 . 8 + 4 . 9) = 7,25.
Phương sai mẫu số liệu:
(8 . 62 + 18 . 72 + 10 . 82 + 4 . 92) – 7,252 = 0,7875.
Độ lệch chuẩn: SB = .
b) Vì 0,887 < 1,135 nên SB < SA hay độ lệch chuẩn của mẫu số liệu lớp 10B nhỏ hơn lớp 10A.
Vậy kết quả làm bài thi của học sinh lớp 10B đồng đều hơn.
Bài 2. Hãy tìm độ lệch chuẩn, khoảng biến thiên, khoảng tứ phân vị và các giá trị ngoại lệ (nếu có) của mẫu số liệu sau: 6; 8; 3; 4; 5; 6; 7; 2; 4.
Hướng dẫn giải
Số trung bình: .
Phương sai mẫu số liệu là:
(62 + 82 + 32 + 42 + 52 + 62 + 72 + 22 + 42) – 52 = .
Độ lệch chuẩn mẫu số liệu là: .
Sắp xếp các số liệu theo thứ tự không giảm, ta được:
2; 3; 4; 4; 5; 6; 6; 7; 8.
Khoảng biến thiên của mẫu là: R = 8 – 2 = 6.
Vì cỡ mẫu là 9 là số lẻ nên tứ phân vị thứ hai là Q2 = 5.
Tứ phân vị thứ nhất là trung vị của mẫu: 2; 3; 4; 4. Do đó Q1 = 3,5.
Tứ phân vị thứ ba là trung vị của mẫu: 6; 6; 7; 8. Do đó Q3 = 6,5.
Khoảng tứ phân vị của mẫu là: ∆Q = 6,5 – 3,5 = 3.
Ta có: Q3 + 1,5∆Q = 6,5 + 1,5 . 3 = 11 và Q1 – 1,5∆Q = 3,5 – 1,5 . 3 = – 1.
Do đó mẫu số liệu không có giá trị ngoại lệ.
Bài 3. Kết quả điều tra mức lương hằng tháng của một số công nhân của hai nhà máy A và B được cho ở bảng sau (đơn vị: triệu đồng):
a) Hãy tìm số trung bình, mốt, tứ phân vị và độ lệch chuẩn của hai mẫu số liệu lấy từ nhà máy A và nhà máy B.
b) Hãy tìm các giá trị ngoại lệ trong mỗi mẫu số liệu trên. Công nhân nhà máy nào có mức lương cao hơn? Tại sao?
Hướng dẫn giải
a)
* Nhà máy A:
+ Số trung bình mức lương hàng tháng: .
+ Giá trị 4 và 5 có tần số lớn nhất nên mốt của mẫu số liệu ở nhà máy A là 4 và 5.
+ Sắp xếp các số liệu theo thứ tự không giảm, ta được:
4; 4; 4; 5; 5; 5; 6; 47.
Vì cỡ mẫu là 8 là số chẵn nên tứ phân vị thứ hai là Q2A = 5.
Tứ phân vị thứ nhất là trung vị của mẫu: 4; 4; 4; 5. Do đó Q1A = 4.
Tứ phân vị thứ ba là trung vị của mẫu: 5; 5; 6; 47. Do đó Q3A = 5,5.
+ Phương sai mẫu:
(42 + 52 + 52 + 472 + 52 + 62 + 42 + 42) – 102 = 196.
+ Độ lệch chuẩn: SA = .
* Nhà máy B:
+ Số trung bình mức lương hàng tháng: .
+ Giá trị 9 có tần số lớn nhất nên mốt của mẫu số liệu ở nhà máy B là 9.
+ Sắp xếp các số liệu theo thứ tự không giảm, ta được:
2; 8; 9; 9; 9; 9; 9; 10; 11.
Vì cỡ mẫu là 9 là số lẻ nên tứ phân vị thứ hai là Q2B = 9.
Tứ phân vị thứ nhất là trung vị của mẫu: 2; 8; 9; 9. Do đó Q1B = 8,5.
Tứ phân vị thứ ba là trung vị của mẫu: 9; 9; 10; 11. Do đó Q3B = 9,5.
+ Phương sai mẫu:
(22 + 82 + 92 + 92 + 92 + 92 + 92 + 102 + 112) – 8,42 = 6,55.
+ Độ lệch chuẩn: SB = .
b)
+ Khoảng tứ phân vị của mẫu số liệu ở nhà máy A là: ∆QA = 5,5 – 4 = 1,5.
Ta có: Q3A + 1,5∆QA = 5,5 + 1,5 . 1,5 = 7,75 và Q1A – 1,5∆QA = 4 – 1,5 . 1,5 = 1,75.
Do đó giá trị ngoại lệ trong mẫu số liệu ở nhà máy A là 47.
+ Khoảng tứ phân vị của mẫu số liệu ở nhà máy B là: ∆QB = 9,5 – 8,5 = 1.
Ta có: Q3B + 1,5∆QB = 9,5 + 1,5 . 1 = 11 và Q1B – 1,5∆QB = 8,5 – 1,5 . 1 = 7.
Do đó giá trị ngoại lệ trong mẫu số liệu ở nhà máy B là 2.
+ Quan sát các số liệu tính được ở câu a), ta thấy
- Số trung bình mức lương hàng tháng của công nhân ở nhà máy A cao hơn nhà máy B.
- Phương sai mẫu và độ lệch chuẩn mẫu số liệu ở nhà máy A cao hơn nhà máy B nên mức lương hằng tháng của công nhân nhà máy A có độ phân tán cao hơn nhà máy B, do đó mức lương của công nhân nhà máy B ổn định hơn nhà máy A.
- Mức lương xuất hiện nhiều nhất trong mẫu A là 4 và 5 triệu đồng, nhà máy B là 9 triệu đồng.
Do đó, ta có thể khẳng định công nhân nhà máy A có mức lương cao hơn (đều và ổn định hơn).