Nếu bạn đang làm nghiên cứu có biến kết quả chỉ có hai trạng thái (0/1), ví dụ “có/không”, “thành công/thất bại”, “trả nợ/không trả nợ”, thì thuật toán hồi quy logistic là một lựa chọn gần như bắt buộc. Bài viết này hướng dẫn cách hiểu, chạy và đọc kết quả thuật toán hồi quy logistic nhị phân (binary logistic) trong SPSS theo kiểu thực hành, đi thẳng vào những bảng quan trọng và cách diễn giải để phục vụ phân tích dữ liệu và dự báo.
Mục lục
ToggleThuật toán hồi quy logistic là gì và dùng khi nào?
thuật toán hồi quy logistic là một phương pháp mô hình hóa mối quan hệ giữa biến phụ thuộc nhị phân và một hoặc nhiều biến độc lập. Thay vì dự đoán trực tiếp giá trị Y như hồi quy tuyến tính, thuật toán hồi quy logistic tập trung vào phân tích xác suất: ước lượng xác suất để sự kiện xảy ra (Y=1) khi các biến độc lập có một giá trị cụ thể.
Trong thực tế phân tích dữ liệu, bạn chọn thuật toán hồi quy logistic khi:
- Biến kết quả là biến phụ thuộc nhị phân (0/1).
- Bạn muốn dự báo xác suất (probability) thay vì dự đoán giá trị liên tục.
- Bạn cần giải thích tác động của biến độc lập lên khả năng xảy ra sự kiện.
Điểm quan trọng: khi Y chỉ có hai trạng thái, dùng hồi quy tuyến tính sẽ vi phạm giả định về phần dư phân phối chuẩn và dễ làm sai các kiểm định. Vì vậy, mô hình logistic và hồi quy logistic nhị phân được xây dựng để xử lý đúng bản chất phân phối nhị thức của dữ liệu.
Đặc điểm cốt lõi của hồi quy logistic nhị phân
Trong hồi quy logistic nhị phân, mô hình logistic tạo ra một giá trị đầu ra dạng xác suất trong khoảng 0 đến 1. Để làm được điều này, thuật toán hồi quy logistic sử dụng hàm sigmoid (đường cong chữ S) nhằm “ép” mọi tổ hợp tuyến tính của biến độc lập về miền xác suất.
Nói đơn giản, thay vì trả kết quả kiểu “-2.3” hay “3.7” như hồi quy tuyến tính, thuật toán hồi quy logistic sẽ cho bạn kết quả kiểu “0.82”, nghĩa là xác suất xảy ra sự kiện là 82%.
Phương trình mô hình logistic và ý nghĩa các thành phần
Với hồi quy logistic nhị phân, bạn thường gặp hai lớp biểu diễn: (1) phương trình logit và (2) phương trình xác suất. Trong phân tích dữ liệu bằng SPSS, nền tảng vẫn là ước lượng tham số các hệ số (B) để tối ưu khả năng dự báo.
Mô hình logistic thường được viết dưới dạng:
logit(P) = ln(P/(1-P)) = B0 + B1X1 + B2X2 + … + BkXk
Trong đó P là xác suất Y=1. Từ biểu thức logit, bạn suy ra công thức dự báo xác suất:
P = 1 / (1 + e-(B0 + B1X1 + … + BkXk))
Trong quá trình chạy logistic regression spss, SPSS sẽ thực hiện ước lượng tham số B0, B1…Bk (các hệ số hồi quy) và cung cấp các kiểm định phù hợp để bạn kết luận mô hình có ý nghĩa hay không.
Đánh giá độ phù hợp của thuật toán hồi quy logistic trên SPSS

Khi dùng thuật toán hồi quy logistic, bạn cần trả lời hai câu hỏi: mô hình có phù hợp không, và các biến có ý nghĩa không. SPSS cung cấp các bảng cốt lõi để xử lý hai câu hỏi này.
1) Kiểm định độ phù hợp mô hình bằng Chi-square
Khác hồi quy tuyến tính dùng kiểm định F, hồi quy logistic nhị phân dùng kiểm định Chi-square để so sánh mô hình “trống” (không có biến độc lập) với mô hình có biến độc lập. SPSS thể hiện kết quả này trong bảng Omnibus Tests of Model Coefficients.
Cách đọc nhanh:
- Nếu Sig. ở dòng Model < 0.05: mô hình logistic là phù hợp (mô hình có biến độc lập tốt hơn mô hình trống một cách có ý nghĩa thống kê).
- Nếu Sig. ≥ 0.05: cần xem lại biến đầu vào, dữ liệu, hoặc cách mã hóa.
Đây là bước bạn nên đọc đầu tiên khi đánh giá thuật toán hồi quy logistic trong logistic regression spss.
2) Chỉ số -2 Log Likelihood (-2LL)
-2LL là thước đo mức “không phù hợp” của mô hình: càng nhỏ càng tốt. SPSS cho bạn -2LL của mô hình trống và -2LL của mô hình đề xuất. Thông thường, nếu mô hình đề xuất có -2LL thấp hơn đáng kể, kết quả là tốt.
Tuy nhiên, khi Sig. Chi-square đã đạt ý nghĩa, việc so sánh -2LL chủ yếu mang tính minh họa bổ sung. Dù vậy, hiểu -2LL vẫn giúp bạn đọc báo cáo hồi quy logistic nhị phân mạch lạc hơn.
3) Pseudo R Square: Cox & Snell và Nagelkerke
Trong mô hình logistic, SPSS cung cấp hai chỉ số “R Square giả” gồm Cox & Snell R Square và Nagelkerke R Square. Hai chỉ số này càng lớn thì mô hình logistic càng phù hợp theo nghĩa tổng quát. Lưu ý: không diễn giải chúng giống hệt R Square trong hồi quy tuyến tính. Trong phân tích dữ liệu, hãy dùng chúng để tham khảo mức độ phù hợp, không phải để kết luận “giải thích bao nhiêu phần trăm biến thiên”.
Kiểm định ý nghĩa biến trong thuật toán hồi quy logistic
Sau khi mô hình đạt phù hợp, bạn cần kiểm tra biến độc lập nào thực sự có ảnh hưởng lên biến phụ thuộc nhị phân. Trong hồi quy logistic nhị phân, SPSS sử dụng kiểm định Wald thay vì kiểm định t.
Trong bảng Variables in the Equation, bạn chú ý:
- Sig. (Wald) < 0.05: biến có ý nghĩa thống kê.
- Dấu của B: cho biết tác động thuận (dương) hay nghịch (âm) lên log-odds, từ đó tác động lên xác suất.
- Exp(B): hệ số odds ratio, diễn giải theo “tỷ lệ tăng/giảm odds” khi X tăng 1 đơn vị.
Một lưu ý thực tế: trong hồi quy logistic nhị phân không có hệ số chuẩn hóa, vì vậy bạn không nên xếp hạng mức độ tác động theo cách của hồi quy tuyến tính.
Hướng dẫn chạy logistic regression spss từng bước
Dưới đây là quy trình chạy thuật toán hồi quy logistic trong SPSS theo cách phổ biến (Enter), phù hợp cho người mới bắt đầu:
Bước 1: Chuẩn bị dữ liệu và mã hóa biến
- Đảm bảo biến phụ thuộc nhị phân có mã 0 và 1 rõ ràng.
- Nếu biến độc lập là định tính nhiều nhóm, cần mã hóa biến giả (dummy) trước khi chạy mô hình logistic.
- Nếu biến là thang đo nhiều biến quan sát, tạo biến đại diện (trung bình/tổng) trước khi đưa vào phân tích.
Bước 2: Mở hộp thoại hồi quy logistic nhị phân
Vào Analyze > Regression > Binary Logistic…
Bước 3: Khai báo biến
- Đưa Y vào Dependent.
- Đưa các X vào Covariates.
- Ở Method chọn Enter (đưa tất cả biến vào cùng lúc).
Bước 4: Tùy chọn hiển thị cần thiết
Trong Options, có thể chọn Iteration history để theo dõi lịch sử lặp. Nhấn OK để chạy.
Nếu bạn cần hướng dẫn thao tác SPSS theo dữ liệu luận văn cụ thể, bạn có thể tham khảo thêm tại xulysolieu.info – Xử lý số liệu hoặc liên hệ 0878968468.
Cách đọc kết quả hồi quy logistic nhị phân trong SPSS
Khi SPSS trả output, bạn nên đọc theo thứ tự để không bỏ sót logic của thuật toán hồi quy logistic.
1) Case Processing Summary
Kiểm tra số quan sát hợp lệ, số thiếu dữ liệu, và số bị loại. Đây là bước đảm bảo dữ liệu đầu vào ổn trước khi diễn giải mô hình logistic.
2) Dependent Variable Encoding
Đảm bảo SPSS mã hóa đúng 0/1 cho biến phụ thuộc nhị phân. Sai mã hóa có thể làm bạn diễn giải ngược hoàn toàn ý nghĩa của kết quả.
3) Omnibus Tests of Model Coefficients
Đọc Sig. của dòng Model để kết luận mô hình có phù hợp không. Đây là “cổng vào” của toàn bộ diễn giải logistic regression spss.
4) Model Summary
Xem -2LL và Pseudo R Square (Cox & Snell, Nagelkerke) để đánh giá tổng quan độ phù hợp của mô hình logistic.
5) Classification Table
Bảng này cho biết khả năng phân loại đúng của mô hình: đúng bao nhiêu trường hợp Y=0 và Y=1, và tỷ lệ đúng chung. Với bài toán dự báo, đây là phần rất quan trọng khi bạn dùng thuật toán hồi quy logistic để ra quyết định.
6) Variables in the Equation
Đây là bảng “chốt kết luận” về biến: kiểm định Wald, hệ số B, và Exp(B). Từ đây, bạn viết kết luận biến nào có ý nghĩa, tác động thuận/nghịch, và diễn giải odds ratio theo ngữ cảnh nghiên cứu.
Ứng dụng dự báo: dùng mô hình logistic để tính xác suất
Một ưu điểm lớn của thuật toán hồi quy logistic là khả năng dự báo xác suất. Sau khi có phương trình, bạn thế giá trị X vào để tính P(Y=1). Nếu P lớn hơn một ngưỡng (thường 0.5), bạn phân loại là “xảy ra sự kiện”.
Ví dụ trong bối cảnh ngân hàng: biến phụ thuộc nhị phân là trả nợ (1) hoặc không trả nợ (0), các biến độc lập gồm tuổi và thu nhập. Khi có khách hàng mới, bạn đưa thông tin vào mô hình logistic để tính xác suất trả nợ. Nếu xác suất cao, ngân hàng có thể cân nhắc cho vay. Đây là cách logistic regression spss được dùng như một mô hình dự báo thực tế.
Kết luận
thuật toán hồi quy logistic là công cụ mạnh cho bài toán có biến phụ thuộc nhị phân, vừa hỗ trợ phân tích xác suất vừa phục vụ dự báo. Khi làm đúng quy trình trên SPSS, bạn chỉ cần tập trung vào các bảng cốt lõi: Omnibus (Chi-square), Model Summary (-2LL và Pseudo R Square), Classification Table (tỷ lệ dự đoán đúng) và Variables in the Equation (Wald, B, Exp(B)).
Nếu bạn muốn tối ưu cách chạy, cách mã hóa biến giả, cách trình bày kết quả hồi quy logistic nhị phân theo chuẩn luận văn và bám sát mục tiêu phân tích dữ liệu, hãy truy cập xulysolieu.info – Xử lý số liệu hoặc liên hệ 0878968468 để được hỗ trợ.






