Mô hình hồi quy logistic là một trong những mô hình quan trọng nhất trong thống kê ứng dụng và khoa học dữ liệu, đặc biệt khi biến phụ thuộc có dạng biến nhị phân. Thay vì dự đoán một giá trị liên tục như hồi quy tuyến tính, mô hình hồi quy logistic tập trung ước lượng xác suất xảy ra của một sự kiện dựa trên các biến độc lập.
Trong thực tế, mô hình hồi quy logistic được sử dụng rất rộng rãi trong y học, kinh tế, xã hội học, marketing, tài chính và cả Machine Learning. Việc hiểu đúng bản chất và cách phân tích mô hình hồi quy logistic sẽ giúp bạn đọc hiểu kết quả nghiên cứu và tránh nhiều sai lầm phổ biến khi xử lý dữ liệu.
Mục lục
Toggle1. Mô hình hồi quy logistic là gì?
Mô hình hồi quy logistic (logistic regression) là một phương pháp thống kê dùng để mô hình hóa mối quan hệ giữa một biến phụ thuộc dạng nhị phân (0/1) và một hoặc nhiều biến độc lập. Biến phụ thuộc thường đại diện cho việc một sự kiện có xảy ra hay không.
Ví dụ điển hình của mô hình hồi quy logistic gồm:
- Dự đoán sinh viên đỗ / trượt kỳ thi
- Dự đoán khách hàng mua / không mua sản phẩm
- Dự đoán bệnh nhân mắc / không mắc bệnh
Điểm cốt lõi của mô hình hồi quy logistic là mô hình hóa xác suất xảy ra của biến phụ thuộc thông qua mô hình logit, thay vì mô hình hóa trực tiếp giá trị của biến như hồi quy tuyến tính.
2. Bản chất của mô hình logit trong hồi quy logistic

Trong mô hình hồi quy logistic, xác suất P(Y=1) không được biểu diễn trực tiếp dưới dạng tuyến tính mà thông qua hàm logit. Công thức tổng quát:
logit(P) = ln(P / (1 − P)) = β0 + β1X1 + … + βpXp
Trong đó:
- P là xác suất xảy ra sự kiện
- X là các biến độc lập
- β là các hệ số cần ước lượng
Việc sử dụng mô hình logit giúp giá trị xác suất luôn nằm trong khoảng từ 0 đến 1, đúng với bản chất của xác suất. Đây là lý do vì sao mô hình hồi quy logistic phù hợp với biến nhị phân.
3. Hàm sigmoid và logistic regression
Trong logistic regression, hàm sigmoid được dùng để chuyển đổi giá trị logit sang xác suất. Hàm sigmoid có dạng chữ S và được biểu diễn như sau:
S(x) = 1 / (1 + e−x)
Hàm sigmoid đảm bảo rằng đầu ra của mô hình hồi quy logistic luôn là một giá trị xác suất hợp lệ. Đây là nền tảng giúp mô hình được sử dụng phổ biến trong phân loại nhị phân.
4. Biến nhị phân và vai trò trong mô hình hồi quy logistic
Một điều kiện quan trọng khi áp dụng mô hình hồi quy logistic là biến phụ thuộc phải là biến nhị phân. Biến này thường được mã hóa dưới dạng:
- 0: sự kiện không xảy ra
- 1: sự kiện xảy ra
Nếu biến phụ thuộc có nhiều hơn hai nhóm, cần sử dụng các biến thể khác của logistic regression như hồi quy logistic đa lớp hoặc hồi quy logistic thứ bậc.
5. Odds ratio trong phân tích hồi quy logistic
Một khái niệm rất quan trọng khi đọc kết quả phân tích hồi quy logistic là odds ratio. Odds ratio được tính bằng cách lấy số mũ của hệ số β:
Odds Ratio = eβ
Ý nghĩa của odds ratio:
- Odds ratio > 1: biến độc lập làm tăng khả năng xảy ra sự kiện
- Odds ratio < 1: biến độc lập làm giảm khả năng xảy ra sự kiện
- Odds ratio = 1: biến không có tác động
Trong thực hành, odds ratio giúp diễn giải mô hình hồi quy logistic một cách trực quan hơn so với hệ số β thuần túy.
6. Quy trình phân tích mô hình hồi quy logistic

Một quy trình phân tích mô hình hồi quy logistic chuẩn thường gồm các bước:
- Xác định biến nhị phân làm biến phụ thuộc
- Lựa chọn các biến độc lập phù hợp
- Ước lượng mô hình logit
- Đánh giá mức độ phù hợp của mô hình
- Diễn giải odds ratio và xác suất xảy ra
Trong SPSS, quá trình này được thực hiện thông qua chức năng Binary Logistic Regression.
7. Đánh giá mô hình hồi quy logistic
Để đánh giá mô hình hồi quy logistic, người phân tích thường sử dụng:
- Confusion Matrix
- ROC Curve và AUC
- Hosmer–Lemeshow Test
Các chỉ số này giúp xác định khả năng phân loại và mức độ phù hợp của mô hình đối với dữ liệu thực tế.
8. Ứng dụng của mô hình hồi quy logistic
Mô hình hồi quy logistic được ứng dụng rộng rãi trong:
- Dự đoán rủi ro tín dụng trong tài chính
- Phân tích bệnh lý trong y học
- Dự đoán hành vi khách hàng trong marketing
- Classification trong Machine Learning
Nhờ khả năng diễn giải rõ ràng và nền tảng thống kê vững chắc, logistic regression vẫn giữ vai trò quan trọng dù có nhiều thuật toán Machine Learning phức tạp hơn.
9. Kết luận
Mô hình hồi quy logistic là công cụ cốt lõi trong phân tích dữ liệu khi biến phụ thuộc là biến nhị phân. Việc hiểu đúng bản chất mô hình logit, xác suất xảy ra và odds ratio sẽ giúp bạn phân tích, diễn giải và ứng dụng mô hình một cách chính xác.
Nếu bạn cần hỗ trợ phân tích hồi quy logistic, chạy SPSS hoặc Xử lý số liệu chuyên sâu, bạn có thể tham khảo tại:
xulysolieu.info
Hotline/Zalo: 0878968468









