1. Khái niệm hồi quy nhị phân (Binary Logistic)
Hồi quy nhị phân hay còn gọi là hồi quy Binary Logistic là mô hình khá phổ biến trong nghiên cứu dùng để ước lượng xác suất một sự kiện sẽ xảy ra. Đặc trưng của hồi quy nhị phân là biến phụ thuộc chỉ có 2 giá trị: 0 và 1.2. Phương trình hồi quy nhị phân
Phương trình hồi quy nhị phân Binary Logistic có dạng:3. Thực hành phân tích hồi quy nhị phân trên SPSS
Thực hiện phân tích hồi quy nhị phân bằng phần mềm SPSS ở ví dụ dưới dây. Đây là nghiên cứu của một ngân hàng nhằm xem xét khả năng trả nợ của các cá nhân để quyết định có nên cho họ vay vốn hay không. Biến phụ thuộc TraNo mang 2 giá trị, 0 biểu hiện ý nghĩa không trả được nợ, 1 biểu hiện ý nghĩa trả được nợ. Có 3 biến độc lập trong mô hình tác động lên biến phụ thuộc TraNo gồm:- Trình độ học vấn (HocVan): số năm đi học
- Độ tuổi (Tuoi): số tuổi đến hiện tại
- Thu nhập hàng tháng (ThuNhap): mức thu nhập hàng tháng tính bằng triệu đồng
Thực hiện hồi quy nhị phân trên phần mềm SPSS. Chúng ta vào Analyze > Regression > Binary Logistic.
Phần tiếp theo là mục Block 0. Chúng ta sẽ bỏ qua phần này bởi vì các kết quả phân tích ở Block 0 nằm ở trường hợp không có bất kỳ biến độc lập nào được đưa vào mô hình. Chúng ta sẽ sử dụng kết quả ở Block 1: Mô hình với đầy đủ các biến độc lập được đưa vào xử lý.
Cột Chi-square và Sig. thể hiện kết quả của kiểm định Chi bình phương, đây là kiểm định để xem hệ số hồi quy của các biến độc lập có đồng thời bằng 0 hay không. Do phương pháp được chọn là Enter nên 3 giá trị sig của Step, Block và Model đều như nhau (hiện không có nhiều tài liệu đề cập đến việc chạy hồi quy Logistic bằng các phương pháp khác). Trong bảng này, chúng ta tập trung vào Sig ở hàng Model, cụ thể trong trường hợp này, giá trị sig kiểm định Chi-square ở hàng Model bằng 0.000 < 0.05, do đó, mô hình hồi quy là phù hợp.
Hai cột Cox & Snell R Square và Nagelkerke R Square là giá trị R bình phương giả. Hồi quy logistic không sử dụng giá trị R bình phương giống với hồi quy tuyến tính. Cũng giống như -2LL, 2 chỉ số này dùng để so sánh các mô hình hồi quy khác nhau trên cùng một bộ số liệu, cùng một biến phụ thuộc để xem mô hình nào tốt hơn. Mô hình tốt hơn sẽ có R bình phương lớn hơn.
Thường chúng ta sử dụng nhiều giá trị Nagelkerke R Square, giá trị này càng cao (càng tiến về 1) càng cho thấy mô hình hồi quy có độ phù hợp cao.
- Trong 129 trường hợp quan sát không trả được nợ, thì dự đoán có 122 trường hợp không trả được, tỉ lệ dự đoán đúng là 122/129 = 94.6%.
- Trong 171 trường hợp quan sát trả được nợ, dự đoán có 168 trường hợp trả được, tỉ lệ dự đoán đúng là 168/171 = 98.2%.
Bảng Variables in the Equation cung cấp nhiều thông tin về phương trình hồi quy. Chúng ta sẽ quan tâm cột Sig của kiểm định Wald đầu tiên (kiểm định Wald dùng để kiểm tra biến độc lập có ý nghĩa trong mô hình hồi quy hay không). Cụ thể trong trường hợp này, Sig kiểm định Wald của Tuoi, ThuNhap nhỏ hơn 0.05 (độ tin cậy 95%), 2 biến Tuoi và ThuNhap đều có sự ảnh hưởng lên khả năng trả nợ. Biến HocVan có sig kiểm định Wald bằng 0.278 > 0.05, HocVan không có sự tác động lên khả năng trả nợ.
Cột B là hệ số hồi quy chưa chuẩn hóa của các biến độc lập, giá trị này có thể âm hoặc dương. Nếu B nhận dấu âm, nghĩa là biến độc lập đang tác động nghịch lên biến phụ thuộc, ngược lại, B mang dấu dương thể hiện biến độc lập tác động thuận lên biến phụ thuộc. Lưu ý rằng, trong hồi quy nhị phân không có hệ số hồi quy chuẩn hóa, do đó chúng ta không thể đánh giá thứ tự tác động của các biến độc lập.
Với kết quả ở trên, thế vào phương trình hồi quy logistic ta có (trường hợp biến độc lập có Sig kiểm định Wald > 0.05 sẽ không được đưa vào phương trình hồi quy):
- Độ tuổi: 35 tuổi
- Thu nhập: 17 triệu/tháng