Mô hình hồi quy logistics và mô hình cox trong ước lượng xác suất vỡ nợ tín dụng, phân nhóm khách hàng theo nguy cơ vỡ nợ

Trong quá trình hoạt động, rủi ro xuất phát từ các khoản vay đang là một trong những mối quan tâm

hàng đầu của ngân hàng. Dựa trên các đặc điểm của hồ sơ vay nợ, ngân hàng có thể đưa ra ước lượng

cho xác suất vỡ nợ (PD) sau đó phân chia khách hàng vào các nhóm có cùng nguy cơ từ đó đưa ra quyết

định cho vay nhằm hạn chế rủi ro và tối đa lợi nhuận.

pdf 6 trang phuongnguyen 460
Bạn đang xem tài liệu "Mô hình hồi quy logistics và mô hình cox trong ước lượng xác suất vỡ nợ tín dụng, phân nhóm khách hàng theo nguy cơ vỡ nợ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Mô hình hồi quy logistics và mô hình cox trong ước lượng xác suất vỡ nợ tín dụng, phân nhóm khách hàng theo nguy cơ vỡ nợ

Mô hình hồi quy logistics và mô hình cox trong ước lượng xác suất vỡ nợ tín dụng, phân nhóm khách hàng theo nguy cơ vỡ nợ
22 Taïp chí nghieân cöùu Taøi chính keá toaùn
I. Giới thiệu
Ngày nay các ngân hàng thương mại đóng 
vai trò rất quan trọng trong lĩnh vực kinh tế của 
nước ta dưới hình thức chuyển nhượng quyền 
sử dụng vốn của mình cho khách hàng cá nhân 
hoặc hộ gia đình, sử dụng trong một thời hạn 
nhất định phải hoàn trả cả gốc và lãi với mục 
đích phục vụ đời sống hoặc phục vụ sản xuất 
kinh doanh. Cùng với đó, hệ thống ngân hàng 
thương mại Việt Nam cũng đã từng bước đổi mới 
và được coi là một trong các tổ chức tài chính 
quan trọng nhất của nền kinh tế với hoạt động 
chính là huy động vốn để sử dụng nhằm thu lợi 
nhuận, trong đó hoạt động tín dụng là hoạt động 
sinh lời lớn nhất, tuy nhiên, rủi ro là điều không 
thể tránh khỏi. Vì vậy, việc nhận dạng và phân 
nhóm khách hàng theo rủi ro tín dụng là việc 
làm cấp bách. Đáp ứng đòi hỏi từ thực tiễn đó, 
cần nghiên cứu mô hình cho phép ước lượng xác 
suất không trả được nợ và phương pháp phân 
nhóm khách hàng theo nguy cơ không trả được 
nợ tín dụng của khách hàng cá nhân. 
Xét trong mối quan hệ tín dụng ngân hàng, 
“khả năng trả nợ của khách hàng” là việc đánh 
giá khách hàng có thực hiện đầy đủ và đúng hạn 
nghĩa vụ nợ cho bên cấp tín dụng trong toàn 
bộ thời gian quan hệ tín dụng hoặc trong một 
khoảng thời gian xác định hay không. Phương 
pháp xác định khả năng trả nợ của khách hàng 
thường được dựa trên một tiêu chuẩn nhất định 
do ngân hàng lựa chọn như dựa trên đặc điểm 
của khách hàng, năng lực tài chính, thiện chí trả 
nợ của khách hàng khi chưa phát sinh nghĩa vụ 
nợ và dựa trên đặc điểm của khoản nợ như lịch 
sử thanh toán nợ, tình trạng trả nợ thực tế của 
khách hàng. Bài toán tập trung vào dịch vụ cho 
MÔ HÌNH HỒI QUY LOGISTICS VÀ MÔ HÌNH COX 
TRONG ƯỚC LƯỢNG XÁC SUẤT VỠ NỢ TÍN DỤNG, 
PHÂN NHÓM KHÁCH HÀNG THEO NGUY CƠ VỠ NỢ
Tô Thị Vân Anh*
Ngày nhận bài: 5/8/2019
Ngày chuyển phản biện: 7/8/2019
Ngày nhận phản biện: 15/8/2019
Ngày chấp nhận đăng: 22/8/2019
Trong quá trình hoạt động, rủi ro xuất phát từ các khoản vay đang là một trong những mối quan tâm 
hàng đầu của ngân hàng. Dựa trên các đặc điểm của hồ sơ vay nợ, ngân hàng có thể đưa ra ước lượng 
cho xác suất vỡ nợ (PD) sau đó phân chia khách hàng vào các nhóm có cùng nguy cơ từ đó đưa ra quyết 
định cho vay nhằm hạn chế rủi ro và tối đa lợi nhuận.
• Từ khóa: mô hình hồi quy, xác xuất vỡ nợ tín dụng, lợi nhuận, ngân hàng thương mại.
In the current banking context, risks from loans 
are one of the bank’s top concerns. Probability 
of default has much significance as it is one of 
the core parts for improved allocation of capital, 
pricing, client judgment, regulatory compliance 
and, finally, monitoring of high-risk customers. 
Due to these significant reasons, based on the 
information of the loan profile, the bank can give 
an estimate of the probability of default (PD) 
based on two models is Logistic regression model 
and Cox regression model. The objective of these 
two regression methods is to estimate credit risk 
and extract important variables in predicting credit 
risk, then divide the customer into groups at the 
same risk from which to make a loan decision risk 
and maximum profitability.
• Keywords: regression model, probability of credit 
default, profit, commercial bank.
* Đại học Khoa học Tự nhiên, ĐHQG Hà Nội 
NGHIEÂN CÖÙU TRAO ÑOÅI Soá 09 (194) - 2019
23Taïp chí nghieân cöùu Taøi chính keá toaùn
vay tín dụng. Mỗi một khách hàng khi có nhu 
cầu giao dịch sẽ được yêu cầu cung cấp thông 
tin khách hàng, các thông tin đó có thể là dữ liệu 
cá nhân như giới tính, tuổi tác, nghề nghiệp,... 
thông tin lịch sử vay tín dụng trong quá khứ 
như thời hạn vay. Dữ liệu hành vi như lịch sử 
sử dụng khoản vay trên các sản phẩm. Thông tin 
này biểu diễn dưới dạng vectơ X = (X
1
,..., X
m
).
1) Ước lượng PD hiện tại dựa trên hai mô 
hình là mô hình hồi quy Logistic và mô hình hồi 
quy Cox. Mục tiêu của hai phương pháp hồi quy 
này là ước tính rủi ro tín dụng và trích xuất các 
biến quan trọng trong dự đoán rủi ro tín dụng. 
2) Phân nhóm khách hàng theo nguy cơ 
không trả được nợ, các khách hàng trong cùng 
một nhóm sẽ có nguy cơ rủi ro như nhau.
3) Phân nhóm khách hàng theo các chỉ tiêu 
phân nhóm, biểu diễn dưới dạng cây quyết định.
II. Mô hình logistic trong ước tính xác suất 
vỡ nợ
Mô hình hồi quy logistics xem xét mối liên 
hệ giữa biến phụ thuộc (Y) và tất cả các biến còn 
lại là biến độc lập (X), thể hiện các nhân tố thông 
tin của khách hàng. Biến Y là biến nhị phân chỉ 
nhận hai giá trị 0 hoặc 1. Cụ thể:
Y= � 𝑁𝑁ế𝑢𝑢 𝑠𝑠ự 𝑘𝑘𝑘𝑘ệ𝑛𝑛 𝑣𝑣ỡ 𝑛𝑛ợ 𝑘𝑘ℎô𝑛𝑛𝑛𝑛 𝑥𝑥ả𝑦𝑦 𝑟𝑟𝑟𝑟𝑁𝑁ế𝑢𝑢 𝑠𝑠ự 𝑘𝑘𝑘𝑘ệ𝑛𝑛 𝑣𝑣ỡ 𝑛𝑛ợ 𝑥𝑥ả𝑦𝑦 𝑟𝑟𝑟𝑟01 (1)
Giả sử p
i 
là xác suất trả được nợ của khách 
hàng thứ i, ta có mô hình ước lượng cho như sau:
p
i
(x) = P (Y = 0|X = x)
 = 𝑒𝑒𝛽𝛽0+𝛽𝛽𝑇𝑇𝑥𝑥1 + 𝑒𝑒𝛽𝛽0+𝛽𝛽𝑇𝑇𝑥𝑥 = 11 + 𝑒𝑒−𝑠𝑠(𝑥𝑥) 
(2)
Hàm s(x) = β
0
+ βT x s(x) được gọi là điểm 
log-odds
𝑠𝑠(𝑥𝑥) = 𝑙𝑙𝑙𝑙𝑛𝑛( 𝜋𝜋𝑘𝑘(𝑥𝑥)1 − 𝜋𝜋𝑘𝑘(𝑥𝑥)) 
Nếu một khách hàng có m thông tin được mô 
tả bằng biến X = (X
1
, X
2
,..., X
m
) và giá trị cụ thể 
là x = (x
1
,...,x
m
) có βj là hệ số của thông tin xj thì 
s(x) là điểm tín dụng của khách hàng x. Tham số 
được ước lượng trong mô hình hồi quy logistic 
là β
0
 và β = (β
 1
, β
 2
,..., β
 m
), ký hiệu tương ứng là 
𝛽𝛽0⏜ và 𝛽𝛽⏜ . Tính toán ước lượng dựa trên phương 
pháp MLE.
III. Quyết định điểm cắt phân lớp khách 
hàng
Khi một người nộp đơn vay tín dụng, họ sẽ 
cung cấp đầy đủ thông tin để người cho vay 
xây dựng hồ sơ. Sau đó với mô hình ước lượng, 
điểm số s(x) = β
0
+ βT x s(x) sẽ được gán cho mỗi 
cá nhân. Điểm số cao thì ít rủi ro hơn nên những 
hồ sơ có điểm số cao sẽ được chấp nhận. Do đó, 
điểm cắt được đưa ra.
Nếu s(x) ≤ c thì loại bỏ hồ sơ tín dụng. Nếu 
s(x) ≥ c thì chấp nhận hồ sơ tín dụng. Xác suất 
cắt cho bởi 1 − 𝑙𝑙𝑙𝑙𝑛𝑛𝑘𝑘𝑙𝑙−1( 𝑐𝑐) = 1 − 11 + 𝑒𝑒−𝑐𝑐 
Quyết định điểm cắt sẽ dựa trên một số yếu 
tố liên quan đến mục tiêu của người cho vay như 
tối đa hóa lợi nhuận dự kiến. Nếu quyết định cho 
vay và người vay trả được nợ thì sẽ thu được một 
khoản lợi nhuận là g và nếu người vay không trả 
được thì người cho vay sẽ bị thua lỗ một khoản 
l. Khi đó 1 - F
0
(c) = P(S ≤ c|Y = 0) được gọi 
là phân lớp đúng của trường hợp trả được nợ. 
1 - F
1
(c) = P(S ≤ c|Y = 1) được gọi là phân lớp 
sai của trường hợp không trả được nợ, với
𝛾𝛾 = 𝑙𝑙
𝑛𝑛
và đặt chi phí là: 
𝑒𝑒𝛾𝛾(𝑐𝑐) = 𝐹𝐹0(𝑐𝑐)(1 − 𝑝𝑝1) + 𝛾𝛾(1 − 𝐹𝐹1(𝑐𝑐))𝑝𝑝1 
(3)
Điểm cắt được tìm là điểm cắt tối ưu theo 
chi phí
𝑐𝑐 = 𝑙𝑙𝑙𝑙𝑛𝑛[(𝛾𝛾/(1 + 𝛾𝛾))/(1 − 𝛾𝛾/(1 + 𝛾𝛾)))] = 𝑙𝑙𝑙𝑙𝑛𝑛 𝛾𝛾 (4)
IV. Mô hình Cox trong ước tính xác suất 
vỡ nợ
Một mô hình khác được dùng là mô hình phân 
tích sống sót để tính điểm tín dụng, biến quan 
tâm là thời gian xảy ra sự kiện. Mô hình này ước 
lượng được xác suất sống sót trên toàn bộ tập dữ 
liệu. Ưu điểm của mô hình phân tích sống sót là 
có thể kết hợp với dữ liệu kiểm duyệt.
A. Hàm sống sót
Hàm sống sót được định nghĩa bởi s(x) là xác 
suất mà một cá thể sống sót vượt quá thời gian t.
NGHIEÂN CÖÙU TRAO ÑOÅISoá 09 (194) - 2019
24 Taïp chí nghieân cöùu Taøi chính keá toaùn
𝑆𝑆(𝑙𝑙) = 𝑃𝑃(𝑇𝑇 > 𝑙𝑙) = 1 − 𝐹𝐹(𝑙𝑙) = � 𝑓𝑓(𝑥𝑥)𝑑𝑑𝑥𝑥∞
𝑙𝑙
(5)
B. Hàm rủi ro (Hazard function)
Đo khả năng thất bại tại thời điểm t biết rằng 
đối tượng đã sống sót qua một số thời điểm t:
 𝑙𝑙. ℎ( 𝑙𝑙) = 𝑙𝑙𝑘𝑘𝑙𝑙
△𝑙𝑙→0+ 𝑃𝑃(𝑙𝑙≤𝑇𝑇<𝑙𝑙+△𝑙𝑙|𝑇𝑇≥𝑙𝑙)△𝑙𝑙 = f(t)/S(t) (6)
Dt là khoảng thời gian rất nhỏ và là hàm mật 
độ xác suất của t.
Mối quan hệ giữa hàm sống sót và hàm rủi 
ro cho bởi:
ℎ(𝑙𝑙) = − �𝑑𝑑𝑆𝑆(𝑙𝑙)/𝑑𝑑𝑙𝑙
𝑆𝑆(𝑙𝑙) � 𝑆𝑆(𝑙𝑙) 
⇒ 𝑆𝑆(𝑙𝑙) = 𝑒𝑒𝑥𝑥𝑝𝑝 �−� ℎ(𝑢𝑢)𝑑𝑑𝑢𝑢𝑙𝑙0 � (7)
Với dữ liệu tín dụng trong mô hình Cox, xác 
suất vỡ nợ (PD) của khách hàng thứ i tại thời 
điểm t cho bởi:
𝜋𝜋𝑘𝑘(𝑋𝑋𝑘𝑘 , 𝑙𝑙) = 1 − 𝑆𝑆(𝑋𝑋𝑘𝑘 , 𝑙𝑙) 
= 1 − 𝑒𝑒𝑥𝑥𝑝𝑝 �−� ℎ(𝑋𝑋𝑘𝑘 ,𝑢𝑢)𝑑𝑑𝑢𝑢𝑙𝑙0 � (8)
V. Cây quyết định
Cây quyết định là một kiểu mô hình dự báo 
(predictive model), nghĩa là một ánh xạ từ các 
quan sát về một sự vật/hiện tượng tới các kết 
luận về giá trị mục tiêu của sự vật/hiện tượng. 
Dữ liệu được cho dạng (x,y) = (x
1
, x
2
, x
3
..., x
k
,y). 
Biến phụ thuộc (dependant variable) là biến mà 
chúng ta cần tìm hiểu, biến phân loại là x
1
, x
2
... 
là các biến sẽ giúp ta thực hiện công việc đó.
Giả sử S là tập dữ liệu hiện tại gồm s mẫu dữ 
liệu, tập nhãn lớp có m giá trị {C
1
,..., C
m
}, S
i
 là 
số lượng mẫu của S
i
 trong lớp C
i
. Để phân loại 
một mẫu ta sử dụng khái niệm entropy.
𝐸𝐸𝑛𝑛𝑙𝑙𝑟𝑟𝑙𝑙𝑝𝑝𝑦𝑦(𝑆𝑆) = −�𝑝𝑝𝑘𝑘 𝑙𝑙𝑙𝑙𝑛𝑛2( 𝑝𝑝𝑘𝑘)𝑙𝑙
𝑘𝑘=1 
với 𝑝𝑝𝑘𝑘 = 𝑠𝑠𝑘𝑘𝑠𝑠 
là xác suất mẫu thuộc lớp C
i
.
Thuộc tính V gồm n giá trị {v
1
,..., v
n
} được sử 
dụng để chia S thành nhiều tập con S
1
,...,S
n
.S
i
 là 
các mẫu trong S có giá trị thuộc tính V là v
i
.
Information Gain (IG) đánh giá khả năng của 
một thuộc tính khi được dùng để phân lớp các 
mẫu dựa vào số entropy. IG cho biết mức độ 
giảm của entropy khi phân nhánh mẫu.
𝐺𝐺𝑟𝑟𝑘𝑘𝑛𝑛(𝑆𝑆,𝑉𝑉) = 𝐸𝐸𝑛𝑛𝑙𝑙𝑟𝑟𝑙𝑙𝑝𝑝𝑦𝑦(𝑆𝑆) −� |𝑆𝑆𝑘𝑘||𝑆𝑆|𝑛𝑛
𝑘𝑘=1 𝐸𝐸𝑛𝑛𝑙𝑙𝑟𝑟𝑙𝑙𝑝𝑝𝑦𝑦(𝑆𝑆) 
(9)
Thuộc tính làm Gain (S,V) lớn nhất sẽ được 
chọn để phân mảnh.
Khi có một số lượng lớn các giá trị, ta sử dụng 
Gain Ratio tính thông qua thông tin tiềm năng 
(potential information) của mỗi phân hoạch
𝑃𝑃( 𝑆𝑆,𝑉𝑉) = −� |𝑆𝑆𝑘𝑘|
𝑆𝑆
𝑙𝑙
𝑘𝑘=1 𝑙𝑙𝑙𝑙𝑛𝑛2( |𝑆𝑆𝑘𝑘|𝑆𝑆 ) 
(10)
Thuộc tính được chọn nếu tỉ số
𝐺𝐺𝑟𝑟𝑘𝑘𝑛𝑛𝑟𝑟𝑟𝑟𝑙𝑙𝑘𝑘𝑙𝑙 = 𝐺𝐺𝑟𝑟𝑘𝑘𝑛𝑛(𝑆𝑆,𝑉𝑉)
𝑃𝑃( 𝑆𝑆,𝑉𝑉) 
đạt giá trị lớn nhất.
Khách hàng sẽ được phân nhóm theo các quy 
luật phân nhóm được biểu diễn dưới dạng cây 
quyết định (cây quyết định) với các nút mô tả 
chỉ tiêu và các nhánh mô tả kết quả của chỉ tiêu. 
Kết quả cuối cùng của việc phân nhánh cây là 
việc tạo ra các nhóm có nguy cơ vỡ nợ khác 
nhau có ý nghĩa.
VI. Kết quả thực nghiệm
Dữ liệu đầu vào bài toán là dữ liệu tín dụng 
trong hai năm 2015 - 2016. Bộ dữ liệu chuẩn của 
mô hình Logistic gồm 21 biến, bao gồm: Giới 
tính, nghề nghiệp, thu nhập, tổng hạn mức vay, 
tổng giá trị vay, chiều dài thời gian vay, số lần 
vay, số lần trễ hạn, tổng giá trị do trễ hạn, tổng 
giá trị đã vay, tổng giá trị ứng trước, thời gian trả 
nợ trung bình, số tiền trả nợ trung bình, số tiền 
đã tiêu, tổng số giao dịch, tổng thời gian trễ hạn, 
trung bình tháng, số dư lần cuối, tỷ lệ số dư cuối/ 
số dư đầu, trạng thái vỡ nợ (Y=1 nếu vỡ nợ, Y=0 
nếu không vỡ nợ).
Biến thu nhập được chia làm hai nhóm: 
Khách hàng có thông tin và không có thông tin 
NGHIEÂN CÖÙU TRAO ÑOÅI Soá 09 (194) - 2019
25Taïp chí nghieân cöùu Taøi chính keá toaùn
NGHIEÂN CÖÙU TRAO ÑOÅISoá 09 (194) - 2019
về thu nhập, kết quả như sau: Trong số 385.013 
khách hàng có 374.574 khách hàng không có 
thông tin thu nhập với số vỡ nợ là 9.050 (chiếm 
tỷ lệ 0.024), 10.439 khách hàng có thông tin thu 
nhập với số vỡ nợ là 87 (chiếm tỷ lệ 0.008). 
Phân tích trước tiên dựa trên nhóm khách 
hàng không có thông tin thu nhập, sau đó sẽ 
so sánh với nhóm khách hàng có thông tin thu 
nhập. Cách phân chia thực tế do thu nhập ảnh 
hưởng trực tiếp tới việc xác định tổng hạn mức 
vay và giá trị vay.
Dựa trên các thông tin khách hàng có 2 biến 
liên quan tới điều kiện vay là: tổng hạn mức vay 
và tổng giá trị vay.
 Chia biến tổng giá trị vay thành 5 nhóm miền 
giá trị là <276M, <800M, <2B, <4.7B <1073B. 
Chia biến tổng hạn mức vay thành 5 nhóm 
có miền giá trị sau: <366M, <2.67B, <5.8B, 
28.5B.
Có tất cả 21 nhóm biến, tính PD bằng phương 
pháp hồi quy Logistic cho các nhóm này, các giá 
trị PD gần nhau được gộp lại, kết quả còn lại 11 
nhóm.
Xử lý với nhóm khách hàng có thông tin 
thu nhập: Tính giá trị thu nhập trung bình chia 
nhóm khách hàng vào 11 nhóm có tương đồng 
thu nhập trung bình với các khoảng tổng giá trị 
khoản vay và tổng hạn mức, sau đó gộp toàn bộ 
dữ liệu của khách hàng theo 11 nhóm đã biết.
Kết quả có 11 nhóm được chia như sau:
Nhóm Tổng giá trị vay Tổng hạn mức vay
N1 < 276M < 366M
N2 < 276M < 2.67B
N3 < 276M < 5.8B
N4 < 276M < 28.5B
N5 28.5B
N6 < 800M < 2.67B
N7 2.67B
N8 366M
N9 < 4.7B < 2.67B
N10 2.67B
N11 > 4.7B > 2.67B
Kết quả cho mô hình Cox: Dữ liệu tín dụng 
theo dõi trong 2 năm: 01/01/2015- 31/12/2016.
Các biến gồm có: Tuổi (tuổi khách hàng), 
giới tính, giá trị vay, T
1
 (khoảng thời gian từ lúc 
mở hồ sơ vay đến khi trễ hạn lần 1), Y
1
 (nếu xảy 
ra trễ lần 1 thì Y
1
 = 1, nếu không thì Y
1
 = 0), T
2
là thời gian xảy ra sự kiện trễ hạn lần 2, Y
2
 nhận 
giá trị 0 hoặc 1 như với Y
1
, T ( khoảng thời gian 
từ lúc mở hồ sơ vay đến khi vỡ nợ), Y (Y = 1 nếu 
có vỡ nợ, Y = 0 nếu không có vỡ nợ).
Bảng 1: Kết quả AUC và PD cho 11 nhóm 
 AUC Accuracy Sensitivity Specificity Cutoff PD 
N1 0.98 0.92 0.94 0.92 0.023 0.03 
N2 0.98 0.96 0.95 0.96 0.013 0.0307 
N3 0.99 0.96 0.96 0.96 0.056 0.0771 
N4 0.92 0.88 0.88 0.88 0.002 0.052 
N5 NUL NUL NUL NUL NUL NUL 
N6 0.99 0.95 0.96 0.95 0.005 0.0058 
N7 0.94 0.96 0.94 0.96 0.007 0.0148 
N8 0.97 0.97 0.97 0.97 0.011 0.0103 
N9 NUL NUL NUL NUL NUL NUL 
N10 0.99 0.97 1 0.97 0.017 0.0123 
N11 0.96 0.98 0.9 0.98 0.078 0.0215 
Kết quả chạy riêng cho mô hình nhóm N4 
Tập dữ liệu training gồm 1658 khách hàng 
Kết luận mô hình: 
Kết quả cho mô hình Cox: Dữ liệu tín dụng theo dõi trong 2 năm: 01/01/2015- 31/12/2016. 
Các biến gồm có: Tuổi (tuổi khách hàng), giới tính, giá trị vay, T1 (khoảng thời gian từ lúc mở hồ sơ 
vay đến khi trễ hạn lần 1), Y1 (nếu xảy ra trễ lần 1 thì Y1 = 1, nếu không thì Y1 = 0), T2 là thời gian xảy ra 
sự kiện trễ hạn lần 2, Y2 nhận giá trị 0 hoặc 1 như với Y1, T ( khoảng thời gian từ lúc mở hồ sơ vay đến 
khi vỡ nợ), Y (Y = 1 nếu có vỡ nợ, Y = 0 nếu không có vỡ nợ). 
Thống kê dữ liệu gồm 1099552 hồ sơ, số hồ sơ vỡ nợ 6917, số hồ sơ trễ hạn lần 1 là 407248, số hồ sơ 
trễ hạn lần 2 là 189335 hồ sơ. 
�(�) = −7.6058 + 1.5925 × 
ℎ�������� − 2.0506 × ���������� − 
2.0953 × ������������������ + 6.3851 × 
���������������� − 5.4980 × ��������������ℎ − 
2.7063 × ����������� 
Bảng 1: Kết quả AUC và PD cho 11 nhóm 
 AUC Accuracy Sensitivity Specificity Cutoff PD 
N1 0.98 0.92 0.94 0.92 0.023 0.03 
N2 0.98 0.96 0.95 0.96 0.013 0.0307 
N3 0.99 0.96 0.96 0.96 0.056 0.0771 
N4 0.92 0.88 0.88 0.88 0.002 0.052 
N5 NUL NUL NUL NUL NUL NUL 
N6 0.99 0.95 0.96 0.95 0.005 0.0058 
N7 0.94 0.96 0.94 0.96 0.007 0.0148 
N8 0.97 0.97 0.97 0.97 0.011 0.0103 
N9 NUL NUL NUL NUL NUL NUL 
N10 0.99 0.97 1 0.97 0.017 0.0123 
N11 0.96 0.98 0.9 0.98 0.078 0.0215 
Kết quả chạy riêng cho mô hình nhóm N4 
Tập dữ liệu training gồm 1658 khách hàng 
Kết luận mô hình: 
Kết quả cho mô hình Cox: Dữ liệu tín dụng theo dõi trong 2 năm: 01/01/2015- 31/12/2016. 
Các biến gồm có: Tuổi (tuổi khách hàng), giới tính, giá trị vay, T1 (khoảng thời gian từ lúc mở hồ sơ 
vay đến khi trễ hạn lần 1), Y1 (nếu xảy ra trễ lần 1 thì Y1 = 1, nếu không thì Y1 = 0), T2 là thời gian xảy ra 
sự kiện trễ hạn lần 2, Y2 nhận giá trị 0 hoặc 1 như với Y1, T ( khoảng thời gian từ lúc mở hồ sơ vay đến 
khi vỡ nợ), Y (Y = 1 nếu có vỡ nợ, Y = 0 nếu không có vỡ nợ). 
Thống kê dữ liệu gồm 1099552 hồ sơ, số hồ sơ vỡ nợ 6917, số hồ sơ trễ hạn lần 1 là 407248, số hồ sơ 
trễ hạn lần 2 là 189335 hồ sơ. 
�(�) = −7.6058 + 1.5925 × 
ℎ�������� − 2.0506 × ���������� − 
2.0953 × ������������������ + 6.3851 × 
���������������� − 5.4980 × ��������������ℎ − 
2.7063 × ����������� 
Hình 1. Đường sống sót cho 3 nhóm tuổi (0,18], (18,55] và (55,99] 
Ta chia làm biến giá trị vay thành 6 n óm: 0 - 130M, 130M - 200M, 200M - 1B,1B - 2.8B, 2.8B-6.4B, 
6.4-100B. 
Hình 2. Đường sống sót 6 nhóm vay theo ngày 
Với thống kê dữ liệu đã làm sạch, chia nhóm theo hai biến tuổi và giá trị vay, có tất cả 18 nhóm chia. Gộp các 
nhóm có chung đường sống sót ta thu được 8 nhóm với 8 đường sống sót phân biệt như sau: 
 G1 Tuổi 0 - 18 
G2 Tuổi 55 - 99 
G3 Tuổi 18 - 55, vay 0 - 130 M 
G4 Tuổi 18 - 55, vay 130 M - 200 M 
G5 Tuổi 18 - 55, vay 200 M - 1B 
G6 Tuổi 18 - 55, vay 1B - 2.8B 
G7 Vay 2.8B - 6.4B 
G8 Vay 6.4B - 100B 
Hình 3. Đường sống sót cho nhóm G1, G2 
26 Taïp chí nghieân cöùu Taøi chính keá toaùn
Thống kê dữ liệu gồm 
1.099.552 hồ sơ, số hồ sơ vỡ 
nợ 6917, số hồ sơ trễ hạn lần 
1 là 407.248, số hồ sơ trễ hạn 
lần 2 là 189.335 hồ sơ.
Ta chia làm biến giá trị 
vay thành 6 nhóm: 0 - 130M, 
130M - 200M, 200M - 1B, 
1B - 2.8B, 2.8B - 6.4B, 6.4 
- 100B.
Với thống kê dữ liệu đã 
làm sạch, chia nhóm theo hai 
biến tuổi và giá trị vay, có tất 
cả 18 nhóm chia. Gộp các 
nhóm có chung đường sống 
sót ta thu được 8 nhóm với 
8 đường sống sót phân biệt 
như sau:
G1 Tuổi 0 - 18
G2 Tuổi 55 - 99
G3 Tuổi 18 - 55, 
 vay 0 - 130 M
G4 Tuổi 18 - 55, 
 vay 130 M - 200 M
G5 Tuổi 18 - 55, 
 vay 200 M - 1B
G6 Tuổi 18 - 55, 
 vay 1B - 2.8B
G7 Vay 2.8B - 6.4B
G8 Vay 6.4B - 100B
Đường sống sót 8 nhóm 
được thể hiện ở hình 3, 4, 5. 
Kết quả kiểm định cho thấy 
chỉ có nhóm G4 và G7 là có 
ý nghĩa, phù hợp với mô hình 
Cox. Mô hình hồi quy Logistic 
và mô hình Cox đều tính được 
xác suất vỡ nợ và phân loại các 
khách hàng thành các nhóm 
có cùng mức nguy cơ rủi ro. 
Hình 7 cho thấy với nhóm G4 
(tuổi 18-55, vay 130M-200M), 
khoản vay tối thiểu có xác suất 
vỡ nợ cao hơn khoản vay tối 
đa. Trong nhóm G7 (vay 2.8B 
- 6.4B), khoản vay tối đa có 
xác suất vỡ nợ cao hơn khoản 
vay tối thiểu. Kết quả được coi 
là phù hợp vì trong nhóm G7 
khoản vay lớn thì khả năng vỡ 
nợ là cao hơn còn trong nhóm 
G4 khoản vay nhỏ thuộc về các đối tượng 
nhỏ lẻ có xác suất vỡ nợ cao hơn khoản 
vay vừa phải.
Cây quyết định phân nhóm khách hàng 
theo các chỉ tiêu phân nhóm.
Dữ liệu được sử dụng là dữ liệu Logistic 
của 6 nhóm vay (hạn mức vay < 2.67B và 
giá trị vay từ 276M - 800M) với 76.365 
hồ sơ chia làm 2 tập: train set và test set. 
Các biến quan sát bao gồm: Tổng thời gian 
trễ hạn (ngày), tổng số tiền đã tiêu (VNĐ), 
NGHIEÂN CÖÙU TRAO ÑOÅI Soá 09 (194) - 2019
Hình 1. Đường sống sót cho 3 nhóm tuổi (0,18], (18,55] và (55,99] 
Ta chia làm biến giá trị vay thành 6 nhóm: 0 - 130M, 130M - 200M, 200M - 1B,1B - 2.8B, 2.8B-6.4B, 
6.4-100B. 
Hình 2. Đường sống sót 6 nhóm vay theo ngày 
Với thống kê dữ liệu đã làm sạch, chia nhóm theo hai biến tuổi và giá trị vay, có tất cả 18 nhóm chia. Gộp các 
nhóm có chung đường sống sót ta thu được 8 nhóm với 8 đường sống sót phân biệt như sau: 
 G1 Tuổi 0 - 18 
G2 Tuổi 55 - 99 
G3 Tuổi 18 - 55, vay 0 - 130 M 
G4 Tuổi 18 - 55, vay 130 M - 200 M 
G5 Tuổi 18 - 55, vay 200 M - 1B 
G6 Tuổi 18 - 55, vay 1B - 2.8B 
G7 Vay 2.8B - 6.4B 
G8 Vay 6.4B - 100B 
Hình 3. Đường sống sót cho nhóm G1, G2 
Hình 1. Đường sống sót cho 3 nhóm tuổi (0,18], (18,55] và (55,99] 
Ta chia làm biến giá trị vay thành 6 nhóm: 0 - 130M, 130M - 200M, 200M - 1B,1B - 2.8B, 2.8B-6.4B, 
6.4-100B. 
Hình 2. Đường sống sót 6 nhóm vay theo ngày 
Với thống kê dữ liệu đã làm sạch, chia nhóm theo hai biến tuổi và giá trị vay, có tất cả 18 nhóm chia. Gộp các 
nhóm có chung đường sống sót ta thu được 8 nhóm với 8 đường sống sót phân biệt như sau: 
 G1 Tuổi 0 - 18 
G2 Tuổi 55 - 99 
G3 Tuổi 18 - 55, vay 0 - 130 M 
G4 Tuổi 18 - 55, vay 130 M - 200 M 
G5 Tuổi 18 - 55, vay 200 M - 1B 
G6 Tuổi 18 - 55, vay 1B - 2.8B 
G7 Vay 2.8B - 6.4B 
G8 Vay 6.4B - 100B 
Hình 3. Đường sống sót cho nhóm G1, G2 
Hình 4. Đường sống sót của 4 nhóm G3, G4, G5, G6 
Hình 5. Đường sống sót của 2 nhóm G7, G8 
Bảng 2: Kết quả nhóm G4, G7 với sự kiện Y trong 24, 12 và 9 tháng 
 24m 12m 9m 
G4 
Tuoi.pca 
GTVpca -0.11 -0.13 -0.15 
GioiTinh.pca 
Kiếm định PH 0.0391 0.0478 0.1045 
C index 0.58 0.61 0.63 
G7 
Tuoi.pca -0.41 -0.42 -0.38 
GTVpca 
GioiTinh.pca 0.26 0.23 0.24 
Kiếm định PH 0.03188 0.02014 0.3364 
C index 0.59 0.63 0.65 
ì . , , , 
ì . , 
 , i i , 
i. 
 . . . 
i i i . 
i ị . . . 
 i . . . 
i. . . . 
i i i . . . . 
i ị . . . 
 i . . . 
Hình 6. Đồ thị xác suất vỡ nợ 
của hai hồ sơ vay 
có giá trị vay tối đa và tối thiểu 
trong 2 nhóm G4, G7, 
thời hạn vay 24 tháng 
Hình 7. Đồ thị xác suất vỡ nợ 
và đường rủi ro cơ sở của hai hồ sơ vay 
có giá trị vay tối đa và tối thiểu 
trong 2 nhóm G3, G4, thời hạn vay 12 tháng 
Đường sống sót 8 nhóm được thể hiện ở hình 3, 4, 5. Kết quả kiểm định cho thấy chỉ có nhóm G4 
và G7 là có ý nghĩa, phù hợp với mô hình Cox. Mô hình hồi quy Logistic và mô hình Cox đều tính được 
xác suất vỡ nợ và phân loại các khách hàng thành các nhóm có cùng mức nguy cơ rủi ro. Hình 7 cho thấy 
với nhóm G4 (tuổi 18-55, vay 130M-200M), khoản vay tối thiểu có xác suất vỡ nợ cao hơn khoản vay tối 
đa. Trong nhóm G7(vay 2.8B- 6.4B), khoản vay tối đa có xác suất vỡ nợ cao hơn khoản vay tối thiểu. Kết 
Hình 4. Đường sống sót của 4 nhóm G3, G4, G5, G6 
Hình 5. Đường sống sót của 2 nhóm G7, G8 
Bảng 2: Kết quả nhóm G4, G7 với sự kiện Y trong 24, 12 và 9 tháng 
 24m 12m 9m 
G4 
Tuoi.pca 
GTVpca -0.11 -0.13 -0.15 
GioiTinh.pca 
Kiếm định PH 0.0391 0.0478 0.1045 
C index 0.58 0.61 .63 
G7 
Tuoi.pca -0.41 -0.42 38 
GTVpca 
GioiTinh.pca 0.26 0.23 4 
Kiếm định PH 0.03188 0.02014 0.3364 
C index 0.59 0.63 0.65 
27Taïp chí nghieân cöùu Taøi chính keá toaùn
NGHIEÂN CÖÙU TRAO ÑOÅISoá 09 (194) - 2019
hạn mức vay (VNĐ), tổng giá trị ứng trước 
(VNĐ), số dư lần cuối (VNĐ), giá trị khoản vay 
(VNĐ), số dư trung bình tháng (VNĐ), giới tính 
(Nam, nữ).
Nguy cơ vỡ nợ thấp với nhóm khách hàng 
có tổng thời gian trễ hạn dưới 3 tháng và nguy 
cơ vỡ nợ cao với nhóm khách hàng có tổng 
thời gian trễ hạn cao và hạn mức vay nhỏ hơn 
600 triệu và tổng giá trị ứng trước cao hơn 
300 triệu.
VII. Kết luận
Hai mô hình hồi quy Logistic và mô hình 
Cox ước lượng được xác suất vỡ nợ của từng 
khách hàng và của từng nhóm khách hàng, xác 
suất vỡ nợ của hồ sơ sẽ thay đổi theo thời gian 
kể từ thời điểm bắt đầu vay. Mô hình Cox với 
giả thuyết mỗi nhóm có một nguy cơ riêng là 
phù hợp để tính xác suất và thời gian trả nợ trễ 
hạn lần 1. Trong lần trễ hạn đầu tiên, hồ sơ có 
giá trị vay lớn khả năng trễ hạn lần 1 lại thấp hơn 
hồ sơ có giá trị vay nhỏ.
Hình 9 cho thấy cây quyết định phân nhóm 
khách hàng thành 12 nhóm. Trong đó chỉ tiêu 
phân nhóm giúp phân biệt khách hàng có nguy 
cơ vỡ nợ thấp và cao là TongThoiGianTreHan. 
Thấy được mối quan hệ chặt chẽ giữa các chỉ 
tiêu, phân nhóm bằng cây quyết định sử dụng 
suy diễn cho kết quả tin cậy. Mười hai nhóm 
khách hàng có đặc điểm phân 
biệt rõ ràng và có nguy cơ vỡ nợ 
khác biệt nhau.
Tài liệu tham khảo:
Paul Murrell, “R Graphics”, NXB 
Chapman & Hall/CRC. (2005)
Yanagimoto, Kamakura, “The 
maximum full and partial like-lihood 
estimators in the proportional hazard 
model”, Annals of the Institute of 
Statistical Mathematics, 36, tr.363-373.
COX, D. R, “Regression models and 
life tables (with discussion)”, Journal of 
Royal Statistical Society:B, 34, tr.187-
220.
COX, D. R, Partial likelihood, 
Biometrika, 62, tr.269-276.
Kaplan, E. L. and Meier , P., 
Nonparametric estimation from 
incomplete observations, Journal of 
American Statistical Association, 53, tr.457-481 (1958).
Ross Gayler, “Credit Scoring using R. RPubs”.
G. Rodriguez, Revised, “Logit Models for Binary Data”.
Badr Missaoui, “Statistics in Retail Finance”, Room 
545, Huxley Building.
Edward S. Venter, “Probability of Default Calibration 
for Low Default Portfolios: Revisiting the Bayesian 
Approach”. Master thesis of Commerce in Financial Risk 
Management, Faculty of Economics and Business Sciences, 
Stellenbosch University, South Africa (2016).
Hình 6. Đồ thị xác suất vỡ nợ 
của hai hồ sơ vay 
có giá trị vay tối đa và tối thiểu 
trong 2 nhóm G4, G7, 
thời hạn vay 24 tháng 
Hình 7. Đồ thị xác suất vỡ nợ 
và đường rủi ro cơ sở của hai hồ sơ vay 
có giá trị vay tối đa và tối thiểu 
trong 2 nhóm G3, G4, thời hạn vay 12 tháng 
Đường sống sót 8 nhóm được thể hiện ở hình 3, 4, 5. Kết quả kiểm định cho thấy chỉ có nhóm G4 
và G7 là có ý nghĩa, phù hợp với mô hình Cox. Mô hình hồi quy Logistic và mô hình Cox đều tính được 
xác suất vỡ nợ và phân loại các khách hàng thành các nhóm có cùng mức nguy cơ rủi ro. Hình 7 cho thấy 
với nhóm G4 (tuổi 18-55, vay 130M-200M), khoản vay tối thiểu có xác suất vỡ nợ cao hơn khoản vay tối 
đa. Trong nhóm G7(vay 2.8B- 6.4B), khoản vay tối đa có xác suất vỡ nợ cao hơn khoản vay tối thiểu. Kết 
Kết quả được coi là phù hợp vì trong nhóm G7 khoản vay lớn thì khả năng vỡ nợ là cao hơn còn trong 
nhóm G4 khoản vay nhỏ thuộc về các đối tượng nhỏ lẻ có xác suất vỡ nợ cao hơn khoản vay vừa phải. 
Cây quyết định phân nhóm khách hàng theo các chỉ tiêu phân nhóm. 
Dữ liệu được sử dụng là dữ liệu Logistic của 6 nhóm vay (hạn mức vay < 2.67B và giá trị vay từ 276M - 
800M) với 76365 hồ sơ chia làm 2 tập: train set và test set. Các biến quan sát bao gồm: Tổng thời gian trễ 
hạn (ngày), tổng số tiền đã tiêu (VNĐ), hạn mức vay (VNĐ), tổng giá trị ứng trước (VNĐ), số dư lần cuối 
(VNĐ), giá trị khoản vay (VNĐ), số dư trung bình tháng (VNĐ), giới tính (Nam, Nữ). 
Hình 8. Kết quả Conditional inference Trees 
Nguy cơ vỡ nợ thấp với nhóm khách hàng có tổng thời gian trễ hạn dưới 3 thá g và nguy cơ vỡ ợ 
cao với nhóm khách hàng có tổng thời gian trễ hạn cao và hạ mức vay nhỏ hơn 600 triệu và tổng giá trị 
ứng trước cao hơn 300 triệu. 
VII. Kết luận 
Hai mô hình hồi quy Logistic và mô hình Cox ước lượng được xác suất vỡ nợ của từng khách hàng và 
của từng nhóm khách hàng, xác suất vỡ nợ của hồ sơ sẽ thay đổi theo thời gian kể từ thời điểm bắt đầu 
vay. Mô hình Cox với giả thuyết mỗi nhóm có một nguy cơ riêng là phù hợp để tính xác suất và thời gian 
trả nợ trễ hạn lần 1. Trong lầ tr đầu tiên, hồ sơ có giá trị vay lớn khả năng trễ hạn lần 1 lại thấp hơn 
hồ sơ có giá trị vay nhỏ. 
Hình 9 cho thấy cây quyế định phân nhóm khách hàng thành 12 nhóm. Trong đó chỉ tiêu phân nhóm giúp 
phân biệt khách hàng có nguy cơ vỡ nợ thấp và cao là TongThoiGianTreHan. Thấy được mối quan hệ 
chặt chẽ giữa các chỉ tiêu, phân nhóm bằng cây quyết định sử dụng suy diễn cho kết quả tin cậy. Mười hai 
nhóm khách hàng có đặc điểm phân biệt rõ ràng và có nguy cơ vỡ nợ khác biệt nhau. 
Tài liệu tham khảo: 
[1] Paul Murrell, “R Graphics”, NXB Chapman & Hall/CRC. (2005) 
[2] Yanagimoto, Kamakura , “The maximum full and partial like-lihood estimators in the proportional 
hazard mode”l, Annals of the Institute of Statistical Mathematics, 36, tr.363-373. 
[3] COX, D. R, “Regression models and life tables (with discus¬sion)”, Journal of Royal Statistical 
Society:B, 34, tr.187-220. 
[4] COX, D. R, Partial likelihood, Biometrika, 62, tr.269-276. 
[5] Kaplan, E. L. and Meier , P., Nonparametric estimation from incomplete observations, Journal of 
American Statistical Association, 53, tr.457-481 (1958). 
[6] Ross Gayler, “Credit Scoring using R. RPubs”. 
[7] G. Rodriguez, Revised, “Logit Models for Binary Data”. 
[8] Badr Missaoui, “Statistics in Retail Finance”, Room 545, Huxley Building. 

File đính kèm:

  • pdfmo_hinh_hoi_quy_logistics_va_mo_hinh_cox_trong_uoc_luong_xac.pdf