Đa cộng tuyến là gì: Nguyên nhân, nhận biết và cách khắc phục trên SPSS 26, 27

Xem thêm:

Hướng dẫn 4 bước phân tích hồi quy tuyến tính trong SPSS

Hướng dẫn phân tích tương quan Pearson trong SPSS

Khái Niệm, Nguyên Nhân, Giải Pháp Cho Hiện Tượng Đa Cộng Tuyến

Khái niệm, nguyên nhân, giải pháp cho hiện tượng đa cộng tuyến

Khái niệm đa cộng tuyến

Đa cộng tuyến là hiện tượng xảy ra khi có mối tương quan cao giữa hai hoặc nhiều biến độc lập trong mô hình hồi quy bội. Hiện tượng này có thể dẫn đến việc ước lượng các hệ số hồi quy trở nên thiếu chính xác, làm giảm khả năng phân biệt tác động riêng lẻ của từng biến độc lập đối với biến phụ thuộc. Điều này có thể gây ra những sai lệch hoặc hiểu lầm trong việc đánh giá mức độ ảnh hưởng của các biến độc lập, từ đó ảnh hưởng đến khả năng dự đoán và diễn giải mô hình thống kê một cách chính xác.

Cách kiểm tra đa cộng tuyến trên SPSS

Giả sử có tập dữ liệu sau hiển thị giá trị đại diện của các biến độc lập và biến phụ thuộc (sau khi tính trung bình từ các biến quan sát từ bước EFA).

Xem thêm: Phân tích nhân tố khám phá EFA trong SPSS: 7 bước phải biết

 
Da Cong Tuyen La Gi 1

Tập dữ liệu mẫu

Để xác định xem đa cộng tuyến có phải là vấn đề hay không, chúng ta thực hiện các bước sau:

Bước 1: Nhấp chọn vào Analyze -> Regression -> Linear

Da Cong Tuyen La Gi 2

Nhấp chọn vào Analyze -> Regression -> Linear

Bước 2: Kéo biến phụ thuộc vào nhãn Dependent, biến độc lập vào nhãn Independent. 

Da Cong Tuyen La Gi 3

Kéo thả biến phụ thuộc, biến độc lập vào ô tương ứng

Bước 3: Nhấn vào Statistics -> Tích Collinearity diagnostics -> Continue -> OK

Da Cong Tuyen La Gi 4

Statistics -> Collinearity diagnostics -> Continue -> OK

Sau khi nhấp OK, sẽ hiển thị giá trị VIF như sau:

Da Cong Tuyen La Gi 5 E1722929666416

Kết quả hồi quy kèm giá trị VIF

Giá trị của VIF bắt đầu từ 1 và không có giới hạn trên.

– VIF = 1: Không có mối tương quan giữa biến dự báo và các biến khác trong mô hình.
– VIF từ 1 đến 5: Có mối tương quan vừa phải, thường không đáng lo ngại.
– VIF > 5: Mối tương quan nghiêm trọng có thể ảnh hưởng đến độ tin cậy của kết quả hồi quy.

Nguyên nhân đa cộng tuyến

– Thu thập dữ liệu

Đa cộng tuyến có thể xảy ra khi mẫu dữ liệu được lấy không đại diện cho toàn bộ tập dữ liệu. Ví dụ, trong một nghiên cứu về chuỗi cung ứng, quy mô hàng tồn kho tăng theo khoảng cách giao hàng, gây ra mối tương quan giữa các biến độc lập. Giải pháp đơn giản là thu thập thêm dữ liệu từ các trường hợp giao hàng cự ly ngắn với lượng hàng tồn kho lớn, hoặc ngược lại.

– Ràng buộc mô hình

Đa cộng tuyến có thể phát sinh do bản chất của dữ liệu và các biến dự đoán trong mô hình, tương tự như vấn đề thu thập dữ liệu. Ví dụ, khi xây dựng mô hình dự đoán mức độ hài lòng của nhân viên, có thể có mối tương quan tự nhiên giữa số giờ làm việc và mức độ căng thẳng, hoặc giữa trình độ học vấn và mức lương. Trong những trường hợp này, thu thập thêm dữ liệu có thể không giải quyết được vấn đề vì đa cộng tuyến bắt nguồn từ chính bản chất của dữ liệu.

– Mô hình được xác định quá mức

Đa cộng tuyến có thể xảy ra khi mô hình có quá nhiều biến dự báo so với số lượng điểm quan sát dữ liệu, đặc biệt trong các nghiên cứu sinh học. Để giải quyết vấn đề này, cần loại bỏ một số biến dự báo khỏi mô hình. Việc xác định biến nào cần loại bỏ có thể được thực hiện thông qua nghiên cứu sơ bộ với các tập hợp con của các biến hồi quy hoặc sử dụng phân tích thành phần chính (PCA) để kết hợp các biến đa cộng tuyến.

Dấu hiệu nhận biết hiện tượng đa cộng tuyến

Dựa vào ma trận tương quan Pearson: Khi phân tích tương quan, ta chú ý đến cột “Sig.” (hay “p-value”) trong ma trận tương quan.

– Nếu giá trị p của một cặp biến độc lập nhỏ hơn 0.05, đồng nghĩa với việc hai biến này có mối liên hệ thống kê có ý nghĩa.

– Tuy nhiên, nếu hệ số tương quan Pearson giữa hai biến này lớn hơn hoặc bằng 0.5, ta cần cảnh giác với khả năng xảy ra đa cộng tuyến.

Da Cong Tuyen La Gi 6

Đa cộng tuyến từ tương quan Pearson

Dựa vào giá trị VIF ở hồi quy: VIF (Variance Inflation Factor) – Yếu tố Phóng đại Phương sai là một chỉ số thống kê quan trọng giúp chúng ta đánh giá mức độ đa cộng tuyến trong mô hình hồi quy. VIF cho biết mức độ mà phương sai của hệ số hồi quy được thổi phồng lên do sự tương quan giữa các biến độc lập.

Ý nghĩa của VIF:

– Đối với biến định lượng: VIF > 2: Biến độc lập đó bị ảnh hưởng bởi đa cộng tuyến.
– Đối với biến định tính (tuổi, giới tính, nghề nghiệp, thu nhập,…): VIF > 10: Có hiện tượng đa cộng tuyến

Da Cong Tuyen La Gi 5 E1722929666416

Đa cộng tuyến từ kết quả VIF

Cách khắc phục đa cộng tuyến

1. Loại bỏ biến có VIF cao nhất:

– Tính toán VIF cho tất cả các biến độc lập trong mô hình.
– Xác định biến có giá trị VIF lớn nhất.
– Loại bỏ biến này khỏi mô hình và chạy lại phân tích hồi quy.

2. Tăng kích thước mẫu:

Lý do: Khi kích thước mẫu nhỏ, các ước lượng của mô hình hồi quy có thể không ổn định và dễ bị ảnh hưởng bởi đa cộng tuyến.
Cách thực hiện: Thu thập thêm dữ liệu để tăng kích thước mẫu.
Lưu ý: Việc tăng kích thước mẫu chỉ hiệu quả khi các dữ liệu mới thu thập được không bị ảnh hưởng bởi đa cộng tuyến.
3. Điều chỉnh lại mô hình:

Lý do: Đôi khi, đa cộng tuyến xảy ra do cách thiết kế mô hình ban đầu không hợp lý.
Cách thực hiện:
– Xem xét lại các biến độc lập đã chọn, có thể có những biến thừa hoặc không cần thiết.
– Tạo các biến tương tác hoặc biến biến đổi để giảm mức độ tương quan giữa các biến.
– Sử dụng các phương pháp hồi quy khác như Ridge regression hoặc LASSO.

Đa cộng tuyến là một vấn đề thường gặp trong phân tích hồi quy. Việc phát hiện và khắc phục đa cộng tuyến là rất quan trọng để đảm bảo kết quả phân tích chính xác và đáng tin cậy. Tuy nhiên, việc lựa chọn giải pháp phù hợp đòi hỏi sự hiểu biết sâu sắc về lý thuyết thống kê và kinh nghiệm thực tế.

Vì vậy nếu bạn gặp khó khăn khi gặp hiện tượng đa cộng tuyến, bạn có thể tham khảo Dịch vụ chạy SPSS, trong đó bao gồm tất cả chỉ số cần phân tích. Hoặc bạn có thể trực tiếp liên hệ thông quan fanpage chính thức của xulysolieu.info.

Bài viết này hữu ích với bạn?

Bình luận

Bài liên quan
error: Nội dung bản quyền !!