Phân tích tương quan Pearson là một công cụ quan trọng trong nghiên cứu khoa học, đặc biệt là trong phân tích định lượng sử dụng SPSS. Thường thì bước phân tích này được thực hiện trước khi tiến hành phân tích hồi quy. Hãy cùng khám phá chi tiết về phân tích tương quan Pearson trong bài viết này.
Mục lục
Toggle1. Nền Tảng Lý Thuyết
Định Nghĩa Hệ Số Tương Quan Pearson
Hệ số tương quan Pearson là một chỉ số đo lường mức độ mạnh mẽ và chiều hướng của mối quan hệ tuyến tính giữa hai biến số liên tục. Nó cung cấp thông tin về cả cường độ và chiều của mối liên kết này.
Hệ số tương quan Pearson tạo ra một hệ số tương quan mẫu, ký hiệu là r, để đánh giá mức độ và chiều hướng của mối quan hệ tuyến tính giữa hai biến liên tục. Ngoài ra, nó cũng được sử dụng để kiểm tra xem có bằng chứng thống kê về mối quan hệ tuyến tính giữa các cặp biến trong toàn bộ quần thể hay không, thông qua hệ số tương quan quần thể, ký hiệu là ρ (rho). Hệ số tương quan Pearson là một thước đo tham số dùng để ước lượng mối tương quan.
Thước đo này còn được biết đến với các tên gọi khác như:
- Pearson’s correlation
- Pearson product-moment correlation (PPMC)
Mục Đích Sử Dụng Phân Tích Tương Quan Pearson
Phân tích tương quan Pearson thường được sử dụng để:
- Đánh giá sự tương quan giữa các cặp biến số.
- Nghiên cứu các mối tương quan trong và giữa các tập hợp biến.
Hệ số tương quan Pearson chỉ ra những điều sau:
- Liệu có tồn tại một mối quan hệ tuyến tính có ý nghĩa thống kê giữa hai biến số liên tục hay không.
- Độ mạnh của mối quan hệ tuyến tính, tức là mối quan hệ đó gần với một đường thẳng hoàn hảo đến mức nào.
- Chiều hướng của mối quan hệ tuyến tính (tăng hoặc giảm).
Lưu ý quan trọng:
- Hệ số tương quan Pearson không phù hợp để phân tích các mối quan hệ phi tuyến tính hoặc giữa các biến phân loại. Trong những trường hợp này, các biện pháp liên kết khác cần được áp dụng.
- Tương quan Pearson chỉ thể hiện mối liên hệ giữa các biến số liên tục và không thể suy luận về quan hệ nhân quả, cho dù hệ số tương quan có lớn đến đâu.
Yêu Cầu Về Dữ Liệu Để Thực Hiện Phân Tích Tương Quan Pearson
Để phân tích tương quan Pearson, dữ liệu cần đáp ứng những yêu cầu sau:
- Hai hoặc nhiều biến liên tục: Các biến cần đo lường ở mức khoảng hoặc tỷ lệ.
- Không có giá trị thiếu: Tất cả các trường hợp phải có giá trị trên cả hai biến.
- Mối quan hệ tuyến tính: Các biến phải có mối quan hệ tuyến tính.
- Tính độc lập của các trường hợp:
- Không có mối liên hệ giữa các giá trị của biến giữa các trường hợp. Điều này có nghĩa là:
- Các giá trị của tất cả các biến trong các trường hợp là độc lập và không liên quan.
- Trong mỗi trường hợp, giá trị của bất kỳ biến nào không ảnh hưởng đến giá trị của bất kỳ biến nào trong các trường hợp khác.
- Không có trường hợp nào có thể ảnh hưởng đến trường hợp khác trên bất kỳ biến nào.
- Hệ số tương quan Pearson song phương và phép thử ý nghĩa tương ứng không còn đáng tin cậy khi tính độc lập bị vi phạm.
- Phân phối chuẩn:
- Mỗi cặp biến phải tuân theo phân phối chuẩn hai biến.
- Mỗi cặp biến phải tuân theo phân phối chuẩn hai biến ở mọi cấp độ của biến còn lại. Giả định này đảm bảo rằng các biến có liên quan tuyến tính. Vi phạm giả định này có thể chỉ ra rằng tồn tại mối quan hệ phi tuyến tính giữa các biến. Tính tuyến tính có thể được đánh giá trực quan bằng cách sử dụng biểu đồ phân tán của dữ liệu.
- Mẫu dữ liệu ngẫu nhiên: Dữ liệu phải được thu thập từ một mẫu ngẫu nhiên.
- Không có dữ liệu ngoại lệ (outlier): Dữ liệu không chứa các giá trị quá khác biệt so với phần còn lại.
Giả Thuyết Thống Kê Trong Phân Tích Tương Quan Pearson
Các giả thuyết không và giả thuyết thay thế được sử dụng trong kiểm định ý nghĩa của mối tương quan có thể được diễn đạt theo nhiều cách khác nhau, tùy thuộc vào việc bạn đang thực hiện kiểm định một phía (one-tailed test) hay hai phía (two-tailed test):
- Kiểm định hai phía (two-tailed test):
- H0: ρ = 0 (hệ số tương quan quần thể bằng 0; không có mối liên hệ).
- ρ ≠ 0 (hệ số tương quan quần thể khác 0; có thể tồn tại mối tương quan khác không).
- Kiểm định một phía (one-tailed test):
- H0: ρ = 0 (“hệ số population correlation coefficient bằng 0; không có mối liên hệ nào”)
- H1: ρ > 0 (“hệ số population correlation coefficient lớn hơn 0; có thể tồn tại mối tương quan dương”)
HOẶC - H1: ρ < 0 (“hệ số population correlation coefficient nhỏ hơn 0; có thể tồn tại mối tương quan âm”)
Trong đó, ρ là hệ số population correlation coefficient.
Thiết lập dữ liệu:
Bộ dữ liệu cần thiết cho phân tích phải chứa ít nhất hai biến liên tục, được đo ở thang đo, và mỗi biến đại diện cho một đặc trưng khác nhau của các đơn vị quan sát. Mỗi quan sát (đơn vị) phải được trình bày trên một hàng riêng biệt. Trong trường hợp dữ liệu lặp lại cho cùng một đơn vị quan sát, dữ liệu cần được định hình lại theo cấu trúc “wide format” trước khi tiến hành phân tích tương quan.
2. Làm sao phân tích tương quan Pearson trong SPSS?
Để thực hiện phân tích tương quan Pearson trong SPSS, cần thực hiện các bước như sau:
Bước 0: Tính giá trị đại diện cho nhân tố bằng cách tính trung bình tất cả các biến quan sát của nhân tố đó. Lưu ý chỉ tính cho những biến được hình thành từ ma trận xoay EFA. Vào Transform > Compute Variables, nhập tên biến cần tính và công thức ở ô bên phải bằng hàm MEAN(biến 1, biến 2,…), làm lần lượt cho từng biến, sau đó nhấn OK để quay lại giao diện ban đầu.
Hình: Chọn Analyze > Correlate > Bivariate
- Bước 2: Một cửa sổ có tên “Bivariate Correlations” sẽ xuất hiện, cho phép bạn chọn các biến cần phân tích. Danh sách tất cả các biến trong tập dữ liệu sẽ được hiển thị ở khung bên trái. Để thêm các biến vào phân tích, hãy chọn chúng và nhấp vào nút mũi tên để chuyển chúng sang khung “Variables“.
Lưu ý: Để dễ đọc và hiểu kết quả, nên đưa biến phụ thuộc lên đầu tiên (ví dụ: biến RI) và sau đó là các biến độc lập.
Di chuyển các biến sang khung “Variables”
- Variables: Các biến được sử dụng trong Phân tích tương quan Pearson hai biến. Bạn phải chọn ít nhất hai biến liên tục, nhưng có thể chọn nhiều hơn hai. SPSS sẽ tính toán hệ số tương quan cho từng cặp biến trong danh sách này.
- Correlation Coefficients: Có nhiều loại hệ số tương quan. Theo mặc định, Pearson được chọn. Việc chọn Pearson sẽ tạo ra số liệu thống kê kiểm tra cho Hệ số tương quan Pearson hai biến.
- Test of Significance: Chọn Two-tailed (kiểm định hai phía) hoặc One-tailed (kiểm định một phía), tùy thuộc vào kiểm định ý nghĩa mong muốn của bạn. SPSS mặc định sử dụng kiểm tra hai phía.
- Flag significant correlations: Chọn tùy chọn này để hiển thị các dấu hoa thị () cạnh các hệ số tương quan có ý nghĩa thống kê ở mức alpha = 0.05 và 0.01. Mức alpha = 0.001 sẽ được coi tương đương với mức alpha = 0.01 trong trường hợp này.
- Options: Nhấp vào Options để mở một cửa sổ, nơi bạn có thể chỉ định các Statistics (thống kê) cần đưa vào (ví dụ: Means and standard deviations, Cross-product deviations and covariances) và cách xử lý Missing Values (giá trị thiếu) (ví dụ: Loại trừ các trường hợp theo cặp hoặc Loại trừ các trường hợp theo danh sách).
Hộp thoại Options
- Bước 3: Nhấp OK để bắt đầu phân tích.
3. Giải Thích Kết Quả Phân Tích Tương Quan Pearson
Kết quả phân tích sẽ hiển thị các mối tương quan trong bảng “Correlations“. Ý nghĩa của các ký hiệu trong bảng này:
- Pearson Correlation: Hệ số tương quan Pearson (r).
- Sig. (2-tailed): Giá trị p (sig) của kiểm định t, đánh giá xem hệ số tương quan Pearson có ý nghĩa thống kê hay không.
- N: Cỡ mẫu.
Kết quả phân tích tương quan Pearson trong SPSS
Chúng ta sẽ xem xét hai loại mối quan hệ tương quan: tương quan giữa biến phụ thuộc với các biến độc lập và tương quan giữa các biến độc lập với nhau. Sự khác biệt này xuất phát từ kỳ vọng khác nhau về kết quả giữa hai loại mối quan hệ này.
3.1. Tương Quan Giữa Biến Độc Lập và Biến Phụ Thuộc
Trong bảng kết quả trên, các giá trị sig (p-value) nằm trong vùng được tô màu đỏ. Khi xây dựng mô hình nghiên cứu, chúng ta đã nghiên cứu kỹ lưỡng để xác định các biến độc lập có tác động lên biến phụ thuộc. Việc lựa chọn này dựa trên cơ sở lý thuyết vững chắc, các nghiên cứu trước đó và đánh giá thực tế tại môi trường khảo sát. Do đó, chúng ta kỳ vọng rằng kết quả phân tích từ dữ liệu sẽ chỉ ra các biến độc lập có tương quan với biến phụ thuộc, hay nói cách khác là có tác động lên biến phụ thuộc.
Nếu chúng ta thực hiện phân tích tương quan trước phân tích hồi quy, kết quả từ tương quan Pearson cho thấy biến độc lập có tương quan với biến phụ thuộc, khả năng biến độc lập đó sẽ có tác động lên biến phụ thuộc trong phân tích hồi quy sẽ cao hơn.
Trong bảng kết quả ví dụ, giá trị sig của kiểm định t cho tương quan Pearson giữa 5 biến độc lập PP, PS, COO, CS, BL và biến phụ thuộc RI đều nhỏ hơn 0.05. Điều này cho thấy có mối liên hệ tuyến tính giữa các biến độc lập này và biến phụ thuộc.
Kỳ vọng: Giá trị sig của tương quan giữa biến độc lập và biến phụ thuộc nhỏ hơn 0.05 và hệ số tương quan càng cao càng tốt.
3.2. Tương Quan Giữa Các Biến Độc Lập
Trong bảng kết quả, các giá trị sig nằm ở các hàng không nằm trong vùng tô màu đỏ. Tên gọi “biến độc lập” thể hiện mong muốn rằng các biến này không có sự liên quan đến nhau. Nếu hai biến độc lập có tương quan quá mạnh, có thể chúng thực chất chỉ là một biến hoặc cùng thể hiện một khái niệm.
Khi hai biến độc lập không có tương quan (giá trị sig lớn hơn 0.05), khả năng xảy ra đa cộng tuyến giữa chúng là rất thấp. Ngược lại, nếu hai biến có tương quan (giá trị sig nhỏ hơn 0.05) và hệ số tương quan tuyệt đối lớn hơn 0.7, thì khả năng xảy ra đa cộng tuyến giữa chúng là khá cao (theo nghiên cứu của Carsten F. Dormann và cộng sự, 2013).
Cần lưu ý rằng khi đánh giá đa cộng tuyến, nên kết hợp hệ số tương quan Pearson ở bước này với chỉ số VIF (Variance Inflation Factor) trong phân tích hồi quy tuyến tính để có được kết quả đánh giá chính xác nhất. Bạn có thể tham khảo thêm về cách đánh giá VIF và biện pháp khắc phục trong bài viết chuyên sâu.
Kỳ vọng: (1) Giá trị sig của tương quan giữa các biến độc lập lớn hơn 0.05 hoặc (2) giá trị sig nhỏ hơn 0.05 và hệ số tương quan càng thấp càng tốt (nên dưới 0.7).
3.3. Ý Nghĩa Ở Hai Dòng Cuối Trong Kết Quả Pearson
Khi giá trị sig nhỏ hơn 0.05, bạn sẽ thấy ký hiệu * hoặc ** bên cạnh hệ số tương quan Pearson.
- Ký hiệu ** cho biết rằng cặp biến này có sự tương quan tuyến tính ở mức tin cậy đến 99% (tương ứng mức ý nghĩa 1% = 0.01).
- Ký hiệu * cho biết rằng cặp biến này có sự tương quan tuyến tính ở mức tin cậy đến 95% (tương ứng mức ý nghĩa 5% = 0.05).
Phân tích tương quan Pearson đòi hỏi những điều kiện nhất định liên quan đến chất lượng dữ liệu, mẫu khảo sát và các chỉ số trước đó. Do đó, bạn có thể mất nhiều thời gian để điều chỉnh cho phù hợp với nghiên cứu của mình. Bạn có thể tham khảo Dịch vụ chạy SPSS, trong đó bao gồm tất cả chỉ số cần phân tích. Hoặc bạn có thể trực tiếp liên hệ thông quan fanpage chính thức của xulysolieu.info.