Lý thuyết Thu thập và phân loại dữ liệu
a) Thu thập dữ liệu
Tiến hành thu thập dữ liệu ta sẽ làm theo các bước sau:
Bước 1: Khảo sát ý kiến bằng bằng phỏng vấn, bảng hỏi, hoặc có thể thông qua văn bản, bảng biểu, biểu đồ, hình ảnh trong thực tiễn,...
Bước 2: Thống kê lại kết quả nhận được sau khi khảo sát.
b) Phân loại dữ liệu
Dữ liệu sau khi thu thập được phân thành hai loại. Đó là:
- Dữ liệu là số (số liệu) hay còn gọi là dữ liệu định lượng.
- Dữ liệu không là số hay còn gọi là dữ liệu định tính.
Dữ liệu không là số có thể phân thành hai loại. Đó là:
+ Loại không thể sắp thứ tự.
+ Loại có thể sắp thứ tự.
Ví dụ 1. Em hãy đưa ra phương án khảo sát về thời gian (đơn vị: giờ) tự học trong một ngày của các bạn học sinh lớp em và cho biết dãy dữ liệu em vừa thu thập được thuộc loại nào?
Hướng dẫn giải:
Ta có thể sử dụng các phương án khác nhau. Hai trong số các phương án đó có thể là:
+ Phương án 1: Em có thể phỏng vấn tất cả các bạn trong lớp với câu hỏi: “Bạn thường dành bao nhiêu giờ đồng hồ để tự học mỗi ngày?” và ghi lại kết quả.
+ Phương án 2: Sắp xếp các bạn học sinh theo xếp loại học lực Giỏi, Khá, Trung bình, Yếu. Sau đó lần lượt phỏng vấn 2 ‒ 5 học sinh trong mỗi loại học lực đó và ghi lại kết quả.
Vì thời gian tự học (tính theo đơn vị: giờ) là số liệu (chẳng hạn 1 giờ; 1,5 giờ; 2 giờ;...) nên dãy dữ liệu em thu thập được là dãy số liệu hay còn gọi là dữ liệu định lượng.
Ví dụ 2. Hoa đã phỏng vấn các bạn trong lớp và thu thập được các dãy dữ liệu sau:
(1) Số điểm 10 các môn học trong học kỳ hiện tại của 8 bạn trong lớp là:
12; 6; 4; 9; 2; 10; 5; 8.
(2) Đánh giá của 4 bạn về bộ phim Doraemon là:
Khá hay; Tuyệt vời; Hay; Bình thường.
(3) Tên các môn học mà 6 bạn yêu thích là:
Toán; Ngữ văn; Khoa học tự nhiên; Anh văn; Lịch sử và Địa lí; Âm nhạc.
Em hãy xác định mỗi dãy dữ liệu trên thuộc loại nào.
Hướng dẫn giải:
Dãy dữ liệu (1) là số lượng điểm 10 các môn học nên đây là dãy số liệu.
Dãy dữ liệu (2) là các mức độ đánh giá về bộ phim Doraemon nên đây không phải là dãy số liệu, có thể sắp thứ tự từ mức độ cao nhất đến mức độ thấp nhất (Tuyệt vời; Hay; Khá hay; Bình thường).
Dãy dữ liệu (3) là tên các môn học nên đây không phải là dãy số liệu, không thể sắp thứ tự.