Trong quá trình thực hiện các nghiên cứu học thuật và làm khóa luận, sinh viên và nhà nghiên cứu thường phải đối mặt với một thách thức lớn: chất lượng của dữ liệu. Sau khi thu thập, dữ liệu không thể được xử lý và phân tích ngay lập tức bởi có thể chứa nhiều lỗi cần phải được loại bỏ. Do đó, việc làm sạch dữ liệu và chuẩn hóa dữ liệu trở thành những bước vô cùng quan trọng trong quy trình nghiên cứu.
Mục lục
Toggle1. Lí do tại sao cần làm sạch dữ liệu, chuẩn hóa dữ liệu
Các lỗi trong dữ liệu có thể xuất phát từ nhiều nguyên nhân. Một phần do chất lượng của việc khảo sát, khi người trả lời hiểu sai câu hỏi hoặc trả lời qua loa cho xong, dẫn đến dữ liệu thu thập không chính xác. Ngoài ra, người thực hiện khảo sát cũng có thể ghi chép nhầm thông tin. Trong quá trình nhập liệu, người nhập dữ liệu có thể gặp phải các lỗi như nhập thiếu, thừa hoặc sai dữ liệu. Những lỗi này, dù là từ lý do chủ quan hay khách quan, đều có thể làm giảm chất lượng dữ liệu, ảnh hưởng đến độ chính xác của các kết quả phân tích.
Việc làm sạch dữ liệu và chuẩn hóa dữ liệu giúp loại bỏ các lỗi này, đảm bảo rằng dữ liệu đạt được độ chính xác và tin cậy cao nhất trước khi đưa vào phân tích. Đối với sinh viên và nhà nghiên cứu, điều này không chỉ giúp cải thiện chất lượng của nghiên cứu mà còn góp phần nâng cao uy tín khoa học của công trình. Chính vì vậy, việc làm sạch dữ liệu và chuẩn hóa dữ liệu là những kỹ năng không thể thiếu trong hành trang của mỗi nhà nghiên cứu và sinh viên khi bước vào con đường học thuật.
Dưới đây là 2 phương pháp làm sạch dữ liệu phổ biến được các nhà nghiên cứu sử dụng để nhận diện các dữ liệu sai lệch, outlier.
2. Phương pháp sạch dữ liệu, chuẩn hóa dữ liệu
a) Dùng bảng tần số
Lập bảng tần số cho tất cả các biến, đọc soát để tìm các giá trị lạ. Sau đó, tại các biến có dữ liệu lỗi, sử dụng lệnh tìm kiếm/thay thế Find and Replace để tìm giá trị lỗi và chỉnh sửa. Cách lập bảng tần số các bạn sẽ làm quen sau, còn cách thức dùng lệnh Find tìm giá trị lỗi tác giả sẽ trình bày ngay dưới đây.
Ở giao diện Data View, nhấp chuột vào tên biến đầu cột để chọn cột biến có giá trị bị lỗi. Tác giả sẽ thực hành ví dụ với biến Giới tính:
Có sự bất hợp lý ở đây khi biến Giới tính chỉ có 2 giá trị 1, 2 tương ứng với Nam, Nữ nhưng bảng thống kê tần số xuất hiện giá trị 3, 11, 12 và 1 giá trị Missing, cần rà soát lại các dữ liệu lỗi này. Sau khi chọn cột biến Giới tính, vào Edit > Find hoặc nhấn tổ hợp phím Ctrl + F để mở hộp thoại Find and Replace.
Nhập giá trị 11 vào ô Find, nhấp nút Find Next thì vị trí của ô chứa giá trị lỗi 11 sẽ đổi sang màu vàng và các vùng khác sẽ có màu trắng mặc định.
Dò ngược lại số thứ tự hàng, giá trị lỗi 11 vừa tìm được nằm ở hàng số 14, kiểm tra lại phiếu khảo sát số 14 và sửa giá trị lỗi. Nếu có nhiều giá trị 11, các bạn tiếp tục nhấn Find Next để tìm hết các lỗi và chỉnh sửa.
b) Dùng bảng kết hợp
Sử dụng bảng kết hợp 2, 3 biến rồi dựa vào các quan hệ hợp lý để tìm ra lỗi. Cách lập bảng kết hợp các bạn sẽ làm quen ở chương 4. Ví dụ như khi lập bảng kết hợp biến tuổi với học vấn, bạn phát hiện có trường hợp tuổi chỉ có 15 tuổi nhưng học vấn lại là sau đại học, tức là hoặc dữ liệu biến tuổi hoặc biến học vấn đã bị nhập sai. Để tìm và sửa lỗi, chúng ta sẽ sử dụng lệnh Select Case trong SPSS. Tác giả sẽ thực hành ví dụ bảng kết hợp giữa biến Độ tuổi và biến Học vấn:
Nhận thấy rằng đang có sự bất hợp lý ở đây khi độ tuổi dưới 18 lại có trình độ học vấn trên đại học, cần kiểm tra lại dữ liệu lỗi này bằng lệnh Select Cases. Vào Data > Select Cases… Hộp thoại Select Cases xuất hiện.
Tích chọn vào mục If condition is sastified, sau đó nhấp vào nút If… ngay bên dưới để mở hộp thoại điều kiện lọc.
Nhập hàm vào khung điều kiện: Độtuổi=”Dưới 18 tuổi” & Họcvấn= “Trên đại học” để lọc ra các trường hợp có độ tuổi dưới 18 và học vấn trên đại học. Trong đó DoTuoi, HocVan là tên biến được mã hóa trong file dữ liệu. Mức giá trị 1 của độ tuổi là “Dưới 18 tuổi”, mức giá trị 3 của học vấn là “Trên đại học”. Sau khi đã nhập hàm xong, tiếp tục nhấp vào nút Continue, sau đó chọn OK.
Khi lệnh này được thực hiện, SPSS tạo ra một biến mới có tên filter_$, biến này nhận giá trị 0 tại tất cả các tình huống không thỏa mãn và nhận giá trị 1 tại các tình huống thỏa điều kiện của lệnh If, tức là tình huống có sai sót. Lưu ý, biến filter_$ chỉ là biến tạm, khi bạn thực hiện một lệnh Select Cases mới, biến này sẽ mất đi. Bên cạnh đó, các ô thứ tự hàng sẽ được gạch chéo tại các hàng không thỏa điều kiện (giá trị filter_$ là 0), các ô không có dấu gạch chéo nghĩa là hàng này thỏa điều kiện lọc (giá trị filter_$ là 1).
Sau khi đã lọc ra được các hàng theo điều kiện, một vấn đề khác phát sinh đó là nếu số lượng hàng quá lớn thì việc tìm được hàng chứa giá trị lỗi (dòng có giá trị 1 ở cột filter_$ và không bị gạch chéo ô thứ tự hàng) sẽ rất mất thời gian và công sức. Lúc này, bạn cần sử dụng đến sự trợ giúp của lệnh Sort Case bằng cách vào Data > Sort Cases…
Hộp thoại Sort Cases xuất hiện, đưa biến bạn muốn sắp xếp thứ tự vào khung Sort by. Cụ thể trong ví dụ này là biến filter_$. Chọn hình thức sắp xếp tăng dần (Ascending) hoặc giảm dần (Descending). Nếu sắp xếp giảm dần thì những hàng mang giá trị 1 sẽ ở trên cùng và ngược lại. Tiếp tục nhấp vào OK.
Sau khi đã sắp xếp thứ tự giá trị của cột biến filter_$, tiến hành kiểm tra các hàng chứa giá trị nằm trong điều kiện lọc để tìm dữ liệu bị lỗi và chỉnh sửa.
Cũng cần chú ý rằng, bất cứ khi nào đã thực hiện thành công lệnh Select Cases, bạn phải trở lại giao diện cửa số Select Cases và trả lại trạng thái dữ liệu bình thường All Case, nếu không các lệnh thống kê sau đó sẽ chỉ được thực hiện với những trường hợp được lọc.
Trên đây là 2 phương pháp làm sạch dữ liệu và chuẩn hóa dữ liệu bằng SPSS được sử dụng nhiều hiện nay, ngoài ra còn nhiều cách thức khác các bạn có thể tìm kiếm thêm trên Internet. Tuy nhiên, nguyên tắc để có một bộ dữ liệu tốt vẫn là “phòng bệnh hơn chữa bệnh”, để hạn chế cao nhất các lỗi dữ liệu phát sinh về sau, chúng ta cần làm tốt các biện pháp ngăn ngừa lỗi sau:
- Thiết kế bảng khảo sát rõ ràng, tham khảo qua sự đánh giá của các chuyên gia, giảng viên hướng dẫn.
- Thiết kế bảng khảo sát nên sử dụng “câu hỏi gài” và “câu hỏi đảo ngược đáp án” để loại bỏ các bảng khảo sát kém chất lượng, người được khảo sát trả lời qua loa. Các bạn có thể tham khảo 2 dạng câu hỏi này tại bài viết Câu hỏi gài trong xây dựng bảng câu hỏi khảo sát.
- Các câu hỏi khảo sát cần phải dễ hiểu để người trả lời có thể đưa ra đánh giá, câu trả lời chính xác vấn đề được hỏi.
- Thực hiện khảo sát sơ bộ để đưa ra các điều chỉnh cần thiết trước khi đi vào khảo sát chính thức quy mô lớn.
- Lựa chọn người trả lời một cách chọn lọc, các đáp viên không có thái độ hỗ trợ hoặc không nằm trong nhóm đối tượng khảo sát sẽ đưa ra những đánh giá không phù hợp, làm sai lệch kết quả so với thực tế.
- Bảng khảo sát sau khi thu về, cần phải được rà soát lỗi, chỉnh sửa trước khi tiến hành nhập liệu.
SPSS, một công cụ phân tích số liệu thống kê không thể thiếu cho người nghiên cứu, giúp chúng ta thực hiện các phân tích dữ liệu một cách chính xác. Bạn đã có link tải phần mềm SPSS full bản quyền chưa? Hãy nhanh tay truy cập và tải về trong bài viết link tải phần mềm SPSS full bản quyền của Xulysolieu nhé!
Trong bài hướng dẫn này, Xulysolieu đã trình bày phương pháp làm sạch dữ liệu và chuẩn hóa dữ liệu bằng SPSS một cách tỉ mỉ, đi kèm với ví dụ minh họa giúp bạn dễ dàng theo dõi. Mong rằng qua bài viết, bạn đã có thể nắm bắt được cách thức thực hiện phương pháp làm sạch dữ liệu và chuẩn hóa dữ liệu và áp dụng chúng một cách thành thạo trong công việc phân tích dữ liệu với SPSS.