Trong thế giới của phân tích dữ liệu và nghiên cứu khoa học, việc hiểu rõ mối quan hệ giữa các biến là chìa khóa để đưa ra những kết luận đáng tin cậy. Một trong những công cụ mạnh mẽ và được sử dụng phổ biến nhất để khám phá mối liên hệ này chính là hệ số tương quan. Bài viết này của xulysolieu.info sẽ đi sâu vào công thức hệ số tương quan, đặc biệt là tương quan Pearson, từ lý thuyết cơ bản đến cách tính toán và diễn giải kết quả, giúp bạn trang bị kiến thức vững chắc cho các đề tài luận văn, luận án và nghiên cứu định lượng.
Mục lục
Toggle1. Công Thức Hệ Số Tương Quan Pearson
Khi nhắc đến công thức hệ số tương quan, chúng ta thường nghĩ ngay đến hệ số tương quan Pearson (ký hiệu r), một công cụ thống kê dùng để đo lường mức độ và chiều hướng của mối quan hệ tuyến tính giữa hai biến định lượng. Đây là một chỉ số quan trọng trong nhiều lĩnh vực, từ kinh tế học, tâm lý học đến khoa học xã hội và y tế. Giá trị của r luôn nằm trong khoảng từ -1 đến 1, phản ánh bản chất của mối liên hệ.
1.1. Hiểu Rõ Công Thức Pearson r và Ý Nghĩa Của Nó
Công thức Pearson r phổ biến nhất được biểu diễn như sau:
r = (n∑xy – ∑x∑y) / [ √(n∑x2 – (∑x)2) × √(n∑y2 – (∑y)2) ]
Trong công thức này:
- n: là số cặp quan sát (số lượng mẫu).
- ∑xy: là tổng của tích các cặp dữ liệu x và y.
- ∑x: là tổng của tất cả các giá trị của biến x.
- ∑y: là tổng của tất cả các giá trị của biến y.
- ∑x2: là tổng của bình phương các giá trị của biến x.
- ∑y2: là tổng của bình phương các giá trị của biến y.
Công thức này thoạt nhìn có vẻ phức tạp nhưng bản chất thể hiện sự “đồng biến” hay “nghịch biến” giữa hai tập hợp dữ liệu. Một cách diễn giải khác, ngắn gọn hơn của công thức hệ số tương quan Pearson là:
r = Cov(x, y) / (σxσy)
Ở đây, Cov(x,y) là hiệp phương sai giữa biến x và y, còn σx và σy lần lượt là độ lệch chuẩn của x và y. Về cơ bản, công thức này cho thấy hệ số tương quan là hiệp phương sai đã được chuẩn hóa, chia cho tích độ lệch chuẩn của hai biến, giúp loại bỏ ảnh hưởng của đơn vị đo lường và đưa kết quả về một thang đo chung (-1 đến 1).
1.2. Diễn Giải Giá Trị Của Hệ Số Tương Quan
Khi bạn đã tính toán được công thức hệ số tương quan, việc diễn giải kết quả là vô cùng quan trọng:
- r > 0: Cho thấy có mối quan hệ thuận chiều giữa hai biến. Khi giá trị của biến này tăng, giá trị của biến kia cũng có xu hướng tăng theo. Ví dụ, chi tiêu cho quảng cáo và doanh thu thường có tương quan thuận.
- r < 0: Biểu thị mối quan hệ nghịch chiều. Khi giá trị của biến này tăng, giá trị của biến kia có xu hướng giảm. Ví dụ, số giờ học và số điểm thi trượt có thể có tương quan nghịch.
- |r| càng gần 1: Mối quan hệ tuyến tính càng mạnh và chặt chẽ. Giá trị r = 1 hoặc r = -1 biểu thị mối quan hệ tuyến tính hoàn hảo.
- r ≈ 0: Cho thấy mối quan hệ tuyến tính rất yếu hoặc hầu như không tồn tại. Tuy nhiên, điều này không có nghĩa là không có mối quan hệ nào khác; có thể tồn tại mối quan hệ phi tuyến tính mà tương quan Pearson không thể bắt giữ được.
Hiểu rõ giá trị của r giúp nhà nghiên cứu xác định được bản chất của mối liên hệ, từ đó đưa ra các giả thuyết và định hướng nghiên cứu sâu hơn.
2. Cách Tính Tương Quan Trong Excel: Ví Dụ Thực Tế

Mặc dù các phần mềm chuyên dụng như SPSS, R hay Python giúp tính toán hệ số tương quan nhanh chóng, việc hiểu và thực hiện cách tính tương quan trong Excel giúp củng cố kiến thức về công thức hệ số tương quan và quy trình tính toán dưới nền. Đây là một bài tập hữu ích để nắm rõ từng bước.
2.1. Hướng Dẫn Tính Toán Thủ Công Theo Công Thức
Để tính toán hệ số tương quan Pearson thủ công hoặc trong Excel bằng các hàm cơ bản, chúng ta sẽ làm theo các bước sau:
- Thu thập dữ liệu: Chuẩn bị các cặp dữ liệu (x, y). Ví dụ, bạn thu thập dữ liệu về số giờ học (biến x) và điểm số bài kiểm tra (biến y) của 10 sinh viên.
| Sinh viên | Giờ học (x) | Điểm số (y) |
|---|---|---|
| 1 | 2 | 65 |
| 2 | 3 | 70 |
| 3 | 4 | 75 |
| 4 | 5 | 80 |
| 5 | 6 | 85 |
| 6 | 7 | 90 |
| 7 | 8 | 95 |
| 8 | 9 | 98 |
| 9 | 10 | 100 |
| 10 | 1 | 60 |
- Tính ∑x, ∑y, ∑x2, ∑y2, ∑xy: Tạo các cột phụ trong bảng để tính toán các giá trị này. Ví dụ trong Excel, bạn có thể tạo cột xy, x2, y2.
| Sinh viên | x | y | xy | x2 | y2 |
|---|---|---|---|---|---|
| 1 | 2 | 65 | 130 | 4 | 4225 |
| … | … | … | … | … | … |
| 10 | 1 | 60 | 60 | 1 | 3600 |
| Tổng | ∑x | ∑y | ∑xy | ∑x2 | ∑y2 |
| 55 | 828 | 4673 | 385 | 69320 |
(n = 10)
- Thay số vào công thức:
Tử số: n∑xy – ∑x∑y = 10 × 4673 – 55 × 828 = 46730 – 45540 = 1190
Mẫu số thứ nhất: n∑x2 – (∑x)2 = 10 × 385 – (55)2 = 3850 – 3025 = 825
Mẫu số thứ hai: n∑y2 – (∑y)2 = 10 × 69320 – (828)2 = 693200 – 685584 = 7616
Vậy:
r = 1190 / [√(825) × √(7616)] = 1190 / [28.7228 × 87.2720] = 1190 / 2506.66 ≈ 0.4747
Kết quả r ≈ 0.4747 cho thấy mối quan hệ tương quan thuận chiều, mức độ trung bình.
2.2. Sử Dụng Hàm CORREL Trong Excel
Để nhanh chóng tìm ra công thức hệ số tương quan bằng Excel, bạn chỉ cần dùng hàm
CORREL:=CORREL(Array1, Array2)Trong đó, Array1 là vùng dữ liệu của biến x, và Array2 là vùng dữ liệu của biến y. Ví dụ, nếu giờ học ở cột A và điểm số ở cột B, bạn sẽ nhập
=CORREL(A2:A11, B2:B11). Hàm này sẽ tự động tính toán công thức hệ số tương quan Pearson và trả về kết quả ngay lập tức, tiết kiệm rất nhiều thời gian so với tính thủ công, đặc biệt với dữ liệu lớn.3. Ma Trận Hiệp Phương Sai và Hệ Số Định Hướng Tương Quan
Để hiểu sâu hơn về công thức hệ số tương quan và mối quan hệ giữa nhiều biến, khái niệm ma trận hiệp phương sai là không thể thiếu. Hiệp phương sai đo lường mức độ hai biến thay đổi cùng nhau. Khi được chuẩn hóa, nó trở thành hệ số tương quan.
3.1. Ma Trận Hiệp Phương Sai: Nền Tảng Của Mối Quan Hệ Đa Biến
Ma trận hiệp phương sai là một ma trận đối xứng, trong đó các phần tử trên đường chéo chính là phương sai của từng biến, và các phần tử ngoài đường chéo chính là hiệp phương sai giữa các cặp biến. Ví dụ, với 3 biến x, y, z, ma trận sẽ có dạng:
| Var(x) | Cov(x, y) | Cov(x, z) |
| Cov(y, x) | Var(y) | Cov(y, z) |
| Cov(z, x) | Cov(z, y) | Var(z) |
Ma trận này cung cấp cái nhìn tổng quan về sự biến động và mối liên hệ giữa tất cả các cặp biến trong tập dữ liệu. Từ ma trận hiệp phương sai, chúng ta có thể dễ dàng suy ra ma trận tương quan bằng cách chia mỗi hiệp phương sai cho tích độ lệch chuẩn tương ứng, theo đúng công thức hệ số tương quan đã nêu trên.
3.2. Hệ Số Định Hướng Tương Quan: Chiều Hướng Của Mối Liên Hệ
Hệ số định hướng tương quan chính là dấu của r (dương hoặc âm), cho biết chiều hướng của mối quan hệ tuyến tính giữa hai biến. Như đã phân tích, r > 0 nghĩa là hai biến có mối quan hệ thuận, trong khi r < 0 biểu thị mối quan hệ nghịch. Việc xác định định hướng này là bước đầu tiên và quan trọng trong việc diễn giải ý nghĩa thực tiễn của mối tương quan.
Ví dụ, khi nghiên cứu về mối quan hệ giữa giá cả và nhu cầu đối với một sản phẩm, chúng ta kỳ vọng hệ số định hướng tương quan sẽ là âm (nghịch chiều): khi giá tăng, nhu cầu giảm và ngược lại. Nếu kết quả cho ra r dương, điều đó có thể chỉ ra một hiện tượng đặc biệt (ví dụ, sản phẩm xa xỉ) hoặc cần xem xét lại dữ liệu/giả thuyết.
4. Tương Quan Tuyến Tính Chặt Chẽ: Đánh Giá Sức Mạnh Mối Quan Hệ
Sau khi đã hiểu về công thức hệ số tương quan và chiều hướng, việc đánh giá độ chặt chẽ của mối quan hệ tuyến tính là bước tiếp theo. Khi nào thì một mối tương quan được coi là tương quan tuyến tính chặt chẽ?
4.1. Mức Độ Chặt Chẽ Của Mối Tương Quan
Độ lớn của giá trị tuyệt đối |r| cho biết mức độ chặt chẽ:
- |r| từ 0 đến 0.2: Rất yếu hoặc không đáng kể.
- |r| từ 0.2 đến 0.4: Yếu.
- |r| từ 0.4 đến 0.6: Trung bình.
- |r| từ 0.6 đến 0.8: Mạnh.
- |r| từ 0.8 đến 1: Rất mạnh hoặc gần như hoàn hảo.
Đây là các ngưỡng phổ biến, nhưng mức độ chặt chẽ có thể được diễn giải khác nhau tùy thuộc vào lĩnh vực nghiên cứu cụ thể. Trong một số ngành khoa học xã hội, r = 0.3 có thể đã được coi là có ý nghĩa, trong khi trong vật lý, người ta có thể kỳ vọng r rất gần 1.
4.2. Khác Biệt Giữa Tương Quan và Nhân Quả
Một cảnh báo quan trọng khi diễn giải công thức hệ số tương quan là: tương quan không suy ra nhân quả. Mối tương quan tuyến tính chặt chẽ giữa hai biến chỉ nói lên rằng chúng có xu hướng biến đổi cùng nhau, nhưng không khẳng định rằng một biến gây ra sự thay đổi ở biến kia.
Ví dụ thực tế: Có thể có tương quan dương mạnh giữa việc ăn kem và số vụ đuối nước ở biển. Liệu ăn kem có gây đuối nước? Không. Cả hai đều có thể bị ảnh hưởng bởi một biến thứ ba: nhiệt độ môi trường. Khi trời nóng, người ta ăn kem nhiều hơn và đi tắm biển nhiều hơn, dẫn đến tăng số vụ đuối nước. Hiểu rõ điểm này là cực kỳ quan trọng để tránh đưa ra những kết luận sai lầm trong nghiên cứu và chính sách.
5. Thực Hành Tính Toán và Đọc Kết Quả Trong SPSS

SPSS là một trong những phần mềm thống kê phổ biến nhất, giúp bạn thực hiện tính toán công thức hệ số tương quan một cách dễ dàng và nhanh chóng, đồng thời cung cấp các kiểm định ý nghĩa thống kê quan trọng.
5.1. Các Bước Chạy Tương Quan Pearson Trong SPSS
Để chạy tương quan Pearson trong SPSS, bạn thực hiện theo các bước sau:
- Mở SPSS: Khởi động phần mềm và mở file dữ liệu của bạn.
- Vào Menu: Chọn
Analyze > Correlate > Bivariate.... - Chọn biến: Một hộp thoại sẽ hiện ra. Đưa các biến mà bạn muốn kiểm tra tương quan vào ô Variables. Tốt nhất nên đưa biến phụ thuộc lên trước để tiện cho việc đọc bảng kết quả.
- Thiết lập các tùy chọn:
- Correlation Coefficients: Đảm bảo rằng Pearson được chọn.
- Test of Significance: Chọn Two-tailed (kiểm định hai phía) nếu bạn không có giả thuyết cụ thể về chiều hướng của mối quan hệ, hoặc One-tailed (kiểm định một phía) nếu bạn có giả thuyết rõ ràng về mối quan hệ thuận hay nghịch.
- Flag significant correlations: Nên chọn để SPSS tự động đánh dấu các mối tương quan có ý nghĩa thống kê.
- Chạy phân tích: Nhấn OK.
SPSS sẽ tạo ra một bảng kết quả tương quan (correlation matrix) trong cửa sổ Output.
5.2. Đọc và Diễn Giải Bảng Kết Quả Từ SPSS
Bảng kết quả từ SPSS sẽ bao gồm các thông tin sau cho mỗi cặp biến:
- Pearson Correlation: Đây chính là giá trị r mà chúng ta đã tìm hiểu từ công thức hệ số tương quan. Nó cho biết chiều hướng (dương/âm) và độ mạnh của mối quan hệ tuyến tính.
- Sig. (2-tailed): Đây là giá trị p (p-value) của kiểm định ý nghĩa thống kê.
- Nếu Sig. < 0.05: Mối tương quan được xem là có ý nghĩa thống kê ở mức 5%. Điều này có nghĩa là chúng ta có đủ bằng chứng để bác bỏ giả thuyết H0 (không có tương quan) và kết luận rằng có mối tương quan tuyến tính trong tổng thể.
- Nếu Sig. < 0.01: Mối tương quan có ý nghĩa thống kê ở mức 1%, mạnh hơn nữa.
- N: Số lượng quan sát được sử dụng để tính toán mối tương quan cho cặp biến đó.
Thường thì SPSS sẽ dùng dấu sao để đánh dấu mức ý nghĩa: * tương ứng với p < 0.05 và ** tương ứng với p < 0.01.
Ví dụ thực tế: Giả sử bạn chạy tương quan giữa “Mức độ hài lòng với công việc” (thang điểm 1-5) và “Năng suất lao động” (số sản phẩm/giờ).
Kết quả SPSS cho ra:
Kết quả SPSS cho ra:
- Pearson Correlation = 0.685**
- Sig. (2-tailed) = 0.000
- N = 150
Diễn giải: Với Pearson Correlation = 0.685, đây là một mối tương quan thuận chiều (dương), và có mức độ mạnh (0.685 > 0.6). Dấu ** và Sig. = 0.000 (nhỏ hơn 0.01) cho thấy mối tương quan này có ý nghĩa thống kê ở mức 1%. Điều này có nghĩa là, với bằng chứng thống kê, chúng ta có thể kết luận rằng có mối quan hệ thuận chiều và mạnh mẽ giữa mức độ hài lòng với công việc và năng suất lao động trong mẫu nghiên cứu.
6. Những Lưu Ý Quan Trọng Khi Sử Dụng Hệ Số Tương Quan
Khi áp dụng công thức hệ số tương quan vào nghiên cứu, có một số điểm cần lưu ý để đảm bảo tính hợp lệ và chính xác của kết quả.
6.1. Hạn Chế Của Tương Quan Pearson
Hệ số tương quan Pearson phù hợp nhất khi bạn muốn đo lường mối tương quan tuyến tính chặt chẽ giữa hai biến định lượng có phân phối xấp xỉ chuẩn. Nó sẽ không phản ánh chính xác nếu:
- Mối quan hệ phi tuyến tính: Nếu mối quan hệ giữa hai biến có dạng đường cong chứ không phải đường thẳng, Pearson r có thể bằng 0 hoặc rất nhỏ, mặc dù thực tế có một mối quan hệ mạnh.
- Dữ liệu có ngoại lệ (outliers): Các điểm dữ liệu này có thể làm méo mó đáng kể giá trị của hệ số tương quan, kéo nó về phía 1 hoặc -1 một cách không chính xác.
- Phân phối dữ liệu không chuẩn: Đối với dữ liệu có phân phối quá lệch hoặc dữ liệu thứ bậc (ordinal), các hệ số tương quan phi tham số như Spearman hoặc Kendall Tau có thể phù hợp hơn.
6.2. Ứng Dụng Trong AMOS, SmartPLS, STATA/EVIEWS
Mặc dù trọng tâm bài viết này là công thức hệ số tương quan Pearson và thực hành trên SPSS, các phần mềm khác như AMOS, SmartPLS, STATA hay EVIEWS cũng có chức năng tương tự để phân tích tương quan.
- AMOS và SmartPLS: Các phần mềm mô hình cấu trúc tuyến tính (SEM) này thường sử dụng tương quan (thường ở dạng ma trận hiệp phương sai) làm đầu vào để đánh giá mối quan hệ giữa các biến tiềm ẩn và các biến quan sát, hoặc để kiểm tra các mối quan hệ ban đầu trước khi xây dựng mô hình phức tạp hơn. Ví dụ, trong SmartPLS, bạn có thể xem ma trận tương quan giữa các cấu trúc để đánh giá mức độ hội tụ và phân biệt.
- STATA/EVIEWS: Đây là các phần mềm chuyên dụng cho kinh tế lượng và phân tích chuỗi thời gian. Chúng cung cấp các lệnh mạnh mẽ để tính toán tương quan, hiệp phương sai và thực hiện các kiểm định liên quan đến mối quan hệ giữa các biến, thường là một bước tiền xử lý trước khi xây dựng các mô hình hồi quy phức tạp.
Dù sử dụng phần mềm nào, việc nắm vững công thức hệ số tương quan và nguyên lý của nó là nền tảng để bạn có thể diễn giải kết quả một cách chính xác và hiệu quả.
7. Kết Luận: Nắm Vững Công Thức Hệ Số Tương Quan Để Nghiên Cứu Hiệu Quả Hơn
Hiểu và áp dụng công thức hệ số tương quan không chỉ là một kỹ năng phân tích dữ liệu cơ bản mà còn là một yếu tố then chốt giúp bạn đưa ra những nhận định sắc bén và đáng tin cậy trong mọi công trình nghiên cứu. Từ việc giải mã công thức Pearson r phức tạp đến việc thực hiện cách tính tương quan trong Excel hay diễn giải kết quả trong SPSS, mỗi bước đều đóng góp vào khả năng của bạn trong việc làm chủ dữ liệu.
Đừng quên rằng, dù có mối tương quan tuyến tính chặt chẽ đến đâu, nguyên tắc “tương quan không suy ra nhân quả” luôn phải được ghi nhớ. Điều này giúp các nhà nghiên cứu tránh được những sai lầm trong suy luận và đưa ra các đề xuất thiết thực hơn.
Nếu bạn đang gặp khó khăn trong việc áp dụng các công cụ thống kê, cần hỗ trợ xử lý dữ liệu phức tạp, hay muốn đảm bảo tính chính xác và khoa học cho luận văn, luận án của mình, đừng ngần ngại liên hệ xulysolieu.info. Chúng tôi cung cấp các dịch vụ xử lý dữ liệu chuyên nghiệp bằng SPSS, AMOS, SmartPLS, STATA/EVIEWS cũng như tư vấn phương pháp định lượng toàn diện, giúp bạn vững bước trên con đường nghiên cứu. Hãy để chúng tôi đồng hành cùng bạn để biến những số liệu khô khan thành những kiến thức giá trị và có ý nghĩa!
Xem thêm: hệ số tương quan Pearson
Xem thêm: phân tích tương quan
Xem thêm: cách tính độ lệch chuẩn trong Excel
Bài viết này hữu ích với bạn?









