Mô hình hồi quy logistics và mô hình cox trong ước lượng xác suất vỡ nợ tín dụng, phân nhóm khách hàng theo nguy cơ vỡ nợ
Trong quá trình hoạt động, rủi ro xuất phát từ các khoản vay đang là một trong những mối quan tâm
hàng đầu của ngân hàng. Dựa trên các đặc điểm của hồ sơ vay nợ, ngân hàng có thể đưa ra ước lượng
cho xác suất vỡ nợ (PD) sau đó phân chia khách hàng vào các nhóm có cùng nguy cơ từ đó đưa ra quyết
định cho vay nhằm hạn chế rủi ro và tối đa lợi nhuận.
Bạn đang xem tài liệu "Mô hình hồi quy logistics và mô hình cox trong ước lượng xác suất vỡ nợ tín dụng, phân nhóm khách hàng theo nguy cơ vỡ nợ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Mô hình hồi quy logistics và mô hình cox trong ước lượng xác suất vỡ nợ tín dụng, phân nhóm khách hàng theo nguy cơ vỡ nợ
22 Taïp chí nghieân cöùu Taøi chính keá toaùn
I. Giới thiệu
Ngày nay các ngân hàng thương mại đóng
vai trò rất quan trọng trong lĩnh vực kinh tế của
nước ta dưới hình thức chuyển nhượng quyền
sử dụng vốn của mình cho khách hàng cá nhân
hoặc hộ gia đình, sử dụng trong một thời hạn
nhất định phải hoàn trả cả gốc và lãi với mục
đích phục vụ đời sống hoặc phục vụ sản xuất
kinh doanh. Cùng với đó, hệ thống ngân hàng
thương mại Việt Nam cũng đã từng bước đổi mới
và được coi là một trong các tổ chức tài chính
quan trọng nhất của nền kinh tế với hoạt động
chính là huy động vốn để sử dụng nhằm thu lợi
nhuận, trong đó hoạt động tín dụng là hoạt động
sinh lời lớn nhất, tuy nhiên, rủi ro là điều không
thể tránh khỏi. Vì vậy, việc nhận dạng và phân
nhóm khách hàng theo rủi ro tín dụng là việc
làm cấp bách. Đáp ứng đòi hỏi từ thực tiễn đó,
cần nghiên cứu mô hình cho phép ước lượng xác
suất không trả được nợ và phương pháp phân
nhóm khách hàng theo nguy cơ không trả được
nợ tín dụng của khách hàng cá nhân.
Xét trong mối quan hệ tín dụng ngân hàng,
“khả năng trả nợ của khách hàng” là việc đánh
giá khách hàng có thực hiện đầy đủ và đúng hạn
nghĩa vụ nợ cho bên cấp tín dụng trong toàn
bộ thời gian quan hệ tín dụng hoặc trong một
khoảng thời gian xác định hay không. Phương
pháp xác định khả năng trả nợ của khách hàng
thường được dựa trên một tiêu chuẩn nhất định
do ngân hàng lựa chọn như dựa trên đặc điểm
của khách hàng, năng lực tài chính, thiện chí trả
nợ của khách hàng khi chưa phát sinh nghĩa vụ
nợ và dựa trên đặc điểm của khoản nợ như lịch
sử thanh toán nợ, tình trạng trả nợ thực tế của
khách hàng. Bài toán tập trung vào dịch vụ cho
MÔ HÌNH HỒI QUY LOGISTICS VÀ MÔ HÌNH COX
TRONG ƯỚC LƯỢNG XÁC SUẤT VỠ NỢ TÍN DỤNG,
PHÂN NHÓM KHÁCH HÀNG THEO NGUY CƠ VỠ NỢ
Tô Thị Vân Anh*
Ngày nhận bài: 5/8/2019
Ngày chuyển phản biện: 7/8/2019
Ngày nhận phản biện: 15/8/2019
Ngày chấp nhận đăng: 22/8/2019
Trong quá trình hoạt động, rủi ro xuất phát từ các khoản vay đang là một trong những mối quan tâm
hàng đầu của ngân hàng. Dựa trên các đặc điểm của hồ sơ vay nợ, ngân hàng có thể đưa ra ước lượng
cho xác suất vỡ nợ (PD) sau đó phân chia khách hàng vào các nhóm có cùng nguy cơ từ đó đưa ra quyết
định cho vay nhằm hạn chế rủi ro và tối đa lợi nhuận.
• Từ khóa: mô hình hồi quy, xác xuất vỡ nợ tín dụng, lợi nhuận, ngân hàng thương mại.
In the current banking context, risks from loans
are one of the bank’s top concerns. Probability
of default has much significance as it is one of
the core parts for improved allocation of capital,
pricing, client judgment, regulatory compliance
and, finally, monitoring of high-risk customers.
Due to these significant reasons, based on the
information of the loan profile, the bank can give
an estimate of the probability of default (PD)
based on two models is Logistic regression model
and Cox regression model. The objective of these
two regression methods is to estimate credit risk
and extract important variables in predicting credit
risk, then divide the customer into groups at the
same risk from which to make a loan decision risk
and maximum profitability.
• Keywords: regression model, probability of credit
default, profit, commercial bank.
* Đại học Khoa học Tự nhiên, ĐHQG Hà Nội
NGHIEÂN CÖÙU TRAO ÑOÅI Soá 09 (194) - 2019
23Taïp chí nghieân cöùu Taøi chính keá toaùn
vay tín dụng. Mỗi một khách hàng khi có nhu
cầu giao dịch sẽ được yêu cầu cung cấp thông
tin khách hàng, các thông tin đó có thể là dữ liệu
cá nhân như giới tính, tuổi tác, nghề nghiệp,...
thông tin lịch sử vay tín dụng trong quá khứ
như thời hạn vay. Dữ liệu hành vi như lịch sử
sử dụng khoản vay trên các sản phẩm. Thông tin
này biểu diễn dưới dạng vectơ X = (X
1
,..., X
m
).
1) Ước lượng PD hiện tại dựa trên hai mô
hình là mô hình hồi quy Logistic và mô hình hồi
quy Cox. Mục tiêu của hai phương pháp hồi quy
này là ước tính rủi ro tín dụng và trích xuất các
biến quan trọng trong dự đoán rủi ro tín dụng.
2) Phân nhóm khách hàng theo nguy cơ
không trả được nợ, các khách hàng trong cùng
một nhóm sẽ có nguy cơ rủi ro như nhau.
3) Phân nhóm khách hàng theo các chỉ tiêu
phân nhóm, biểu diễn dưới dạng cây quyết định.
II. Mô hình logistic trong ước tính xác suất
vỡ nợ
Mô hình hồi quy logistics xem xét mối liên
hệ giữa biến phụ thuộc (Y) và tất cả các biến còn
lại là biến độc lập (X), thể hiện các nhân tố thông
tin của khách hàng. Biến Y là biến nhị phân chỉ
nhận hai giá trị 0 hoặc 1. Cụ thể:
Y= � 𝑁𝑁ế𝑢𝑢 𝑠𝑠ự 𝑘𝑘𝑘𝑘ệ𝑛𝑛 𝑣𝑣ỡ 𝑛𝑛ợ 𝑘𝑘ℎô𝑛𝑛𝑛𝑛 𝑥𝑥ả𝑦𝑦 𝑟𝑟𝑟𝑟𝑁𝑁ế𝑢𝑢 𝑠𝑠ự 𝑘𝑘𝑘𝑘ệ𝑛𝑛 𝑣𝑣ỡ 𝑛𝑛ợ 𝑥𝑥ả𝑦𝑦 𝑟𝑟𝑟𝑟01 (1)
Giả sử p
i
là xác suất trả được nợ của khách
hàng thứ i, ta có mô hình ước lượng cho như sau:
p
i
(x) = P (Y = 0|X = x)
= 𝑒𝑒𝛽𝛽0+𝛽𝛽𝑇𝑇𝑥𝑥1 + 𝑒𝑒𝛽𝛽0+𝛽𝛽𝑇𝑇𝑥𝑥 = 11 + 𝑒𝑒−𝑠𝑠(𝑥𝑥)
(2)
Hàm s(x) = β
0
+ βT x s(x) được gọi là điểm
log-odds
𝑠𝑠(𝑥𝑥) = 𝑙𝑙𝑙𝑙𝑛𝑛( 𝜋𝜋𝑘𝑘(𝑥𝑥)1 − 𝜋𝜋𝑘𝑘(𝑥𝑥))
Nếu một khách hàng có m thông tin được mô
tả bằng biến X = (X
1
, X
2
,..., X
m
) và giá trị cụ thể
là x = (x
1
,...,x
m
) có βj là hệ số của thông tin xj thì
s(x) là điểm tín dụng của khách hàng x. Tham số
được ước lượng trong mô hình hồi quy logistic
là β
0
và β = (β
1
, β
2
,..., β
m
), ký hiệu tương ứng là
𝛽𝛽0⏜ và 𝛽𝛽⏜ . Tính toán ước lượng dựa trên phương
pháp MLE.
III. Quyết định điểm cắt phân lớp khách
hàng
Khi một người nộp đơn vay tín dụng, họ sẽ
cung cấp đầy đủ thông tin để người cho vay
xây dựng hồ sơ. Sau đó với mô hình ước lượng,
điểm số s(x) = β
0
+ βT x s(x) sẽ được gán cho mỗi
cá nhân. Điểm số cao thì ít rủi ro hơn nên những
hồ sơ có điểm số cao sẽ được chấp nhận. Do đó,
điểm cắt được đưa ra.
Nếu s(x) ≤ c thì loại bỏ hồ sơ tín dụng. Nếu
s(x) ≥ c thì chấp nhận hồ sơ tín dụng. Xác suất
cắt cho bởi 1 − 𝑙𝑙𝑙𝑙𝑛𝑛𝑘𝑘𝑙𝑙−1( 𝑐𝑐) = 1 − 11 + 𝑒𝑒−𝑐𝑐
Quyết định điểm cắt sẽ dựa trên một số yếu
tố liên quan đến mục tiêu của người cho vay như
tối đa hóa lợi nhuận dự kiến. Nếu quyết định cho
vay và người vay trả được nợ thì sẽ thu được một
khoản lợi nhuận là g và nếu người vay không trả
được thì người cho vay sẽ bị thua lỗ một khoản
l. Khi đó 1 - F
0
(c) = P(S ≤ c|Y = 0) được gọi
là phân lớp đúng của trường hợp trả được nợ.
1 - F
1
(c) = P(S ≤ c|Y = 1) được gọi là phân lớp
sai của trường hợp không trả được nợ, với
𝛾𝛾 = 𝑙𝑙
𝑛𝑛
và đặt chi phí là:
𝑒𝑒𝛾𝛾(𝑐𝑐) = 𝐹𝐹0(𝑐𝑐)(1 − 𝑝𝑝1) + 𝛾𝛾(1 − 𝐹𝐹1(𝑐𝑐))𝑝𝑝1
(3)
Điểm cắt được tìm là điểm cắt tối ưu theo
chi phí
𝑐𝑐 = 𝑙𝑙𝑙𝑙𝑛𝑛[(𝛾𝛾/(1 + 𝛾𝛾))/(1 − 𝛾𝛾/(1 + 𝛾𝛾)))] = 𝑙𝑙𝑙𝑙𝑛𝑛 𝛾𝛾 (4)
IV. Mô hình Cox trong ước tính xác suất
vỡ nợ
Một mô hình khác được dùng là mô hình phân
tích sống sót để tính điểm tín dụng, biến quan
tâm là thời gian xảy ra sự kiện. Mô hình này ước
lượng được xác suất sống sót trên toàn bộ tập dữ
liệu. Ưu điểm của mô hình phân tích sống sót là
có thể kết hợp với dữ liệu kiểm duyệt.
A. Hàm sống sót
Hàm sống sót được định nghĩa bởi s(x) là xác
suất mà một cá thể sống sót vượt quá thời gian t.
NGHIEÂN CÖÙU TRAO ÑOÅISoá 09 (194) - 2019
24 Taïp chí nghieân cöùu Taøi chính keá toaùn
𝑆𝑆(𝑙𝑙) = 𝑃𝑃(𝑇𝑇 > 𝑙𝑙) = 1 − 𝐹𝐹(𝑙𝑙) = � 𝑓𝑓(𝑥𝑥)𝑑𝑑𝑥𝑥∞
𝑙𝑙
(5)
B. Hàm rủi ro (Hazard function)
Đo khả năng thất bại tại thời điểm t biết rằng
đối tượng đã sống sót qua một số thời điểm t:
𝑙𝑙. ℎ( 𝑙𝑙) = 𝑙𝑙𝑘𝑘𝑙𝑙
△𝑙𝑙→0+ 𝑃𝑃(𝑙𝑙≤𝑇𝑇<𝑙𝑙+△𝑙𝑙|𝑇𝑇≥𝑙𝑙)△𝑙𝑙 = f(t)/S(t) (6)
Dt là khoảng thời gian rất nhỏ và là hàm mật
độ xác suất của t.
Mối quan hệ giữa hàm sống sót và hàm rủi
ro cho bởi:
ℎ(𝑙𝑙) = − �𝑑𝑑𝑆𝑆(𝑙𝑙)/𝑑𝑑𝑙𝑙
𝑆𝑆(𝑙𝑙) � 𝑆𝑆(𝑙𝑙)
⇒ 𝑆𝑆(𝑙𝑙) = 𝑒𝑒𝑥𝑥𝑝𝑝 �−� ℎ(𝑢𝑢)𝑑𝑑𝑢𝑢𝑙𝑙0 � (7)
Với dữ liệu tín dụng trong mô hình Cox, xác
suất vỡ nợ (PD) của khách hàng thứ i tại thời
điểm t cho bởi:
𝜋𝜋𝑘𝑘(𝑋𝑋𝑘𝑘 , 𝑙𝑙) = 1 − 𝑆𝑆(𝑋𝑋𝑘𝑘 , 𝑙𝑙)
= 1 − 𝑒𝑒𝑥𝑥𝑝𝑝 �−� ℎ(𝑋𝑋𝑘𝑘 ,𝑢𝑢)𝑑𝑑𝑢𝑢𝑙𝑙0 � (8)
V. Cây quyết định
Cây quyết định là một kiểu mô hình dự báo
(predictive model), nghĩa là một ánh xạ từ các
quan sát về một sự vật/hiện tượng tới các kết
luận về giá trị mục tiêu của sự vật/hiện tượng.
Dữ liệu được cho dạng (x,y) = (x
1
, x
2
, x
3
..., x
k
,y).
Biến phụ thuộc (dependant variable) là biến mà
chúng ta cần tìm hiểu, biến phân loại là x
1
, x
2
...
là các biến sẽ giúp ta thực hiện công việc đó.
Giả sử S là tập dữ liệu hiện tại gồm s mẫu dữ
liệu, tập nhãn lớp có m giá trị {C
1
,..., C
m
}, S
i
là
số lượng mẫu của S
i
trong lớp C
i
. Để phân loại
một mẫu ta sử dụng khái niệm entropy.
𝐸𝐸𝑛𝑛𝑙𝑙𝑟𝑟𝑙𝑙𝑝𝑝𝑦𝑦(𝑆𝑆) = −�𝑝𝑝𝑘𝑘 𝑙𝑙𝑙𝑙𝑛𝑛2( 𝑝𝑝𝑘𝑘)𝑙𝑙
𝑘𝑘=1
với 𝑝𝑝𝑘𝑘 = 𝑠𝑠𝑘𝑘𝑠𝑠
là xác suất mẫu thuộc lớp C
i
.
Thuộc tính V gồm n giá trị {v
1
,..., v
n
} được sử
dụng để chia S thành nhiều tập con S
1
,...,S
n
.S
i
là
các mẫu trong S có giá trị thuộc tính V là v
i
.
Information Gain (IG) đánh giá khả năng của
một thuộc tính khi được dùng để phân lớp các
mẫu dựa vào số entropy. IG cho biết mức độ
giảm của entropy khi phân nhánh mẫu.
𝐺𝐺𝑟𝑟𝑘𝑘𝑛𝑛(𝑆𝑆,𝑉𝑉) = 𝐸𝐸𝑛𝑛𝑙𝑙𝑟𝑟𝑙𝑙𝑝𝑝𝑦𝑦(𝑆𝑆) −� |𝑆𝑆𝑘𝑘||𝑆𝑆|𝑛𝑛
𝑘𝑘=1 𝐸𝐸𝑛𝑛𝑙𝑙𝑟𝑟𝑙𝑙𝑝𝑝𝑦𝑦(𝑆𝑆)
(9)
Thuộc tính làm Gain (S,V) lớn nhất sẽ được
chọn để phân mảnh.
Khi có một số lượng lớn các giá trị, ta sử dụng
Gain Ratio tính thông qua thông tin tiềm năng
(potential information) của mỗi phân hoạch
𝑃𝑃( 𝑆𝑆,𝑉𝑉) = −� |𝑆𝑆𝑘𝑘|
𝑆𝑆
𝑙𝑙
𝑘𝑘=1 𝑙𝑙𝑙𝑙𝑛𝑛2( |𝑆𝑆𝑘𝑘|𝑆𝑆 )
(10)
Thuộc tính được chọn nếu tỉ số
𝐺𝐺𝑟𝑟𝑘𝑘𝑛𝑛𝑟𝑟𝑟𝑟𝑙𝑙𝑘𝑘𝑙𝑙 = 𝐺𝐺𝑟𝑟𝑘𝑘𝑛𝑛(𝑆𝑆,𝑉𝑉)
𝑃𝑃( 𝑆𝑆,𝑉𝑉)
đạt giá trị lớn nhất.
Khách hàng sẽ được phân nhóm theo các quy
luật phân nhóm được biểu diễn dưới dạng cây
quyết định (cây quyết định) với các nút mô tả
chỉ tiêu và các nhánh mô tả kết quả của chỉ tiêu.
Kết quả cuối cùng của việc phân nhánh cây là
việc tạo ra các nhóm có nguy cơ vỡ nợ khác
nhau có ý nghĩa.
VI. Kết quả thực nghiệm
Dữ liệu đầu vào bài toán là dữ liệu tín dụng
trong hai năm 2015 - 2016. Bộ dữ liệu chuẩn của
mô hình Logistic gồm 21 biến, bao gồm: Giới
tính, nghề nghiệp, thu nhập, tổng hạn mức vay,
tổng giá trị vay, chiều dài thời gian vay, số lần
vay, số lần trễ hạn, tổng giá trị do trễ hạn, tổng
giá trị đã vay, tổng giá trị ứng trước, thời gian trả
nợ trung bình, số tiền trả nợ trung bình, số tiền
đã tiêu, tổng số giao dịch, tổng thời gian trễ hạn,
trung bình tháng, số dư lần cuối, tỷ lệ số dư cuối/
số dư đầu, trạng thái vỡ nợ (Y=1 nếu vỡ nợ, Y=0
nếu không vỡ nợ).
Biến thu nhập được chia làm hai nhóm:
Khách hàng có thông tin và không có thông tin
NGHIEÂN CÖÙU TRAO ÑOÅI Soá 09 (194) - 2019
25Taïp chí nghieân cöùu Taøi chính keá toaùn
NGHIEÂN CÖÙU TRAO ÑOÅISoá 09 (194) - 2019
về thu nhập, kết quả như sau: Trong số 385.013
khách hàng có 374.574 khách hàng không có
thông tin thu nhập với số vỡ nợ là 9.050 (chiếm
tỷ lệ 0.024), 10.439 khách hàng có thông tin thu
nhập với số vỡ nợ là 87 (chiếm tỷ lệ 0.008).
Phân tích trước tiên dựa trên nhóm khách
hàng không có thông tin thu nhập, sau đó sẽ
so sánh với nhóm khách hàng có thông tin thu
nhập. Cách phân chia thực tế do thu nhập ảnh
hưởng trực tiếp tới việc xác định tổng hạn mức
vay và giá trị vay.
Dựa trên các thông tin khách hàng có 2 biến
liên quan tới điều kiện vay là: tổng hạn mức vay
và tổng giá trị vay.
Chia biến tổng giá trị vay thành 5 nhóm miền
giá trị là <276M, <800M, <2B, <4.7B <1073B.
Chia biến tổng hạn mức vay thành 5 nhóm
có miền giá trị sau: <366M, <2.67B, <5.8B,
28.5B.
Có tất cả 21 nhóm biến, tính PD bằng phương
pháp hồi quy Logistic cho các nhóm này, các giá
trị PD gần nhau được gộp lại, kết quả còn lại 11
nhóm.
Xử lý với nhóm khách hàng có thông tin
thu nhập: Tính giá trị thu nhập trung bình chia
nhóm khách hàng vào 11 nhóm có tương đồng
thu nhập trung bình với các khoảng tổng giá trị
khoản vay và tổng hạn mức, sau đó gộp toàn bộ
dữ liệu của khách hàng theo 11 nhóm đã biết.
Kết quả có 11 nhóm được chia như sau:
Nhóm Tổng giá trị vay Tổng hạn mức vay
N1 < 276M < 366M
N2 < 276M < 2.67B
N3 < 276M < 5.8B
N4 < 276M < 28.5B
N5 28.5B
N6 < 800M < 2.67B
N7 2.67B
N8 366M
N9 < 4.7B < 2.67B
N10 2.67B
N11 > 4.7B > 2.67B
Kết quả cho mô hình Cox: Dữ liệu tín dụng
theo dõi trong 2 năm: 01/01/2015- 31/12/2016.
Các biến gồm có: Tuổi (tuổi khách hàng),
giới tính, giá trị vay, T
1
(khoảng thời gian từ lúc
mở hồ sơ vay đến khi trễ hạn lần 1), Y
1
(nếu xảy
ra trễ lần 1 thì Y
1
= 1, nếu không thì Y
1
= 0), T
2
là thời gian xảy ra sự kiện trễ hạn lần 2, Y
2
nhận
giá trị 0 hoặc 1 như với Y
1
, T ( khoảng thời gian
từ lúc mở hồ sơ vay đến khi vỡ nợ), Y (Y = 1 nếu
có vỡ nợ, Y = 0 nếu không có vỡ nợ).
Bảng 1: Kết quả AUC và PD cho 11 nhóm
AUC Accuracy Sensitivity Specificity Cutoff PD
N1 0.98 0.92 0.94 0.92 0.023 0.03
N2 0.98 0.96 0.95 0.96 0.013 0.0307
N3 0.99 0.96 0.96 0.96 0.056 0.0771
N4 0.92 0.88 0.88 0.88 0.002 0.052
N5 NUL NUL NUL NUL NUL NUL
N6 0.99 0.95 0.96 0.95 0.005 0.0058
N7 0.94 0.96 0.94 0.96 0.007 0.0148
N8 0.97 0.97 0.97 0.97 0.011 0.0103
N9 NUL NUL NUL NUL NUL NUL
N10 0.99 0.97 1 0.97 0.017 0.0123
N11 0.96 0.98 0.9 0.98 0.078 0.0215
Kết quả chạy riêng cho mô hình nhóm N4
Tập dữ liệu training gồm 1658 khách hàng
Kết luận mô hình:
Kết quả cho mô hình Cox: Dữ liệu tín dụng theo dõi trong 2 năm: 01/01/2015- 31/12/2016.
Các biến gồm có: Tuổi (tuổi khách hàng), giới tính, giá trị vay, T1 (khoảng thời gian từ lúc mở hồ sơ
vay đến khi trễ hạn lần 1), Y1 (nếu xảy ra trễ lần 1 thì Y1 = 1, nếu không thì Y1 = 0), T2 là thời gian xảy ra
sự kiện trễ hạn lần 2, Y2 nhận giá trị 0 hoặc 1 như với Y1, T ( khoảng thời gian từ lúc mở hồ sơ vay đến
khi vỡ nợ), Y (Y = 1 nếu có vỡ nợ, Y = 0 nếu không có vỡ nợ).
Thống kê dữ liệu gồm 1099552 hồ sơ, số hồ sơ vỡ nợ 6917, số hồ sơ trễ hạn lần 1 là 407248, số hồ sơ
trễ hạn lần 2 là 189335 hồ sơ.
�(�) = −7.6058 + 1.5925 ×
ℎ�������� − 2.0506 × ���������� −
2.0953 × ������������������ + 6.3851 ×
���������������� − 5.4980 × ��������������ℎ −
2.7063 × �����������
Bảng 1: Kết quả AUC và PD cho 11 nhóm
AUC Accuracy Sensitivity Specificity Cutoff PD
N1 0.98 0.92 0.94 0.92 0.023 0.03
N2 0.98 0.96 0.95 0.96 0.013 0.0307
N3 0.99 0.96 0.96 0.96 0.056 0.0771
N4 0.92 0.88 0.88 0.88 0.002 0.052
N5 NUL NUL NUL NUL NUL NUL
N6 0.99 0.95 0.96 0.95 0.005 0.0058
N7 0.94 0.96 0.94 0.96 0.007 0.0148
N8 0.97 0.97 0.97 0.97 0.011 0.0103
N9 NUL NUL NUL NUL NUL NUL
N10 0.99 0.97 1 0.97 0.017 0.0123
N11 0.96 0.98 0.9 0.98 0.078 0.0215
Kết quả chạy riêng cho mô hình nhóm N4
Tập dữ liệu training gồm 1658 khách hàng
Kết luận mô hình:
Kết quả cho mô hình Cox: Dữ liệu tín dụng theo dõi trong 2 năm: 01/01/2015- 31/12/2016.
Các biến gồm có: Tuổi (tuổi khách hàng), giới tính, giá trị vay, T1 (khoảng thời gian từ lúc mở hồ sơ
vay đến khi trễ hạn lần 1), Y1 (nếu xảy ra trễ lần 1 thì Y1 = 1, nếu không thì Y1 = 0), T2 là thời gian xảy ra
sự kiện trễ hạn lần 2, Y2 nhận giá trị 0 hoặc 1 như với Y1, T ( khoảng thời gian từ lúc mở hồ sơ vay đến
khi vỡ nợ), Y (Y = 1 nếu có vỡ nợ, Y = 0 nếu không có vỡ nợ).
Thống kê dữ liệu gồm 1099552 hồ sơ, số hồ sơ vỡ nợ 6917, số hồ sơ trễ hạn lần 1 là 407248, số hồ sơ
trễ hạn lần 2 là 189335 hồ sơ.
�(�) = −7.6058 + 1.5925 ×
ℎ�������� − 2.0506 × ���������� −
2.0953 × ������������������ + 6.3851 ×
���������������� − 5.4980 × ��������������ℎ −
2.7063 × �����������
Hình 1. Đường sống sót cho 3 nhóm tuổi (0,18], (18,55] và (55,99]
Ta chia làm biến giá trị vay thành 6 n óm: 0 - 130M, 130M - 200M, 200M - 1B,1B - 2.8B, 2.8B-6.4B,
6.4-100B.
Hình 2. Đường sống sót 6 nhóm vay theo ngày
Với thống kê dữ liệu đã làm sạch, chia nhóm theo hai biến tuổi và giá trị vay, có tất cả 18 nhóm chia. Gộp các
nhóm có chung đường sống sót ta thu được 8 nhóm với 8 đường sống sót phân biệt như sau:
G1 Tuổi 0 - 18
G2 Tuổi 55 - 99
G3 Tuổi 18 - 55, vay 0 - 130 M
G4 Tuổi 18 - 55, vay 130 M - 200 M
G5 Tuổi 18 - 55, vay 200 M - 1B
G6 Tuổi 18 - 55, vay 1B - 2.8B
G7 Vay 2.8B - 6.4B
G8 Vay 6.4B - 100B
Hình 3. Đường sống sót cho nhóm G1, G2
26 Taïp chí nghieân cöùu Taøi chính keá toaùn
Thống kê dữ liệu gồm
1.099.552 hồ sơ, số hồ sơ vỡ
nợ 6917, số hồ sơ trễ hạn lần
1 là 407.248, số hồ sơ trễ hạn
lần 2 là 189.335 hồ sơ.
Ta chia làm biến giá trị
vay thành 6 nhóm: 0 - 130M,
130M - 200M, 200M - 1B,
1B - 2.8B, 2.8B - 6.4B, 6.4
- 100B.
Với thống kê dữ liệu đã
làm sạch, chia nhóm theo hai
biến tuổi và giá trị vay, có tất
cả 18 nhóm chia. Gộp các
nhóm có chung đường sống
sót ta thu được 8 nhóm với
8 đường sống sót phân biệt
như sau:
G1 Tuổi 0 - 18
G2 Tuổi 55 - 99
G3 Tuổi 18 - 55,
vay 0 - 130 M
G4 Tuổi 18 - 55,
vay 130 M - 200 M
G5 Tuổi 18 - 55,
vay 200 M - 1B
G6 Tuổi 18 - 55,
vay 1B - 2.8B
G7 Vay 2.8B - 6.4B
G8 Vay 6.4B - 100B
Đường sống sót 8 nhóm
được thể hiện ở hình 3, 4, 5.
Kết quả kiểm định cho thấy
chỉ có nhóm G4 và G7 là có
ý nghĩa, phù hợp với mô hình
Cox. Mô hình hồi quy Logistic
và mô hình Cox đều tính được
xác suất vỡ nợ và phân loại các
khách hàng thành các nhóm
có cùng mức nguy cơ rủi ro.
Hình 7 cho thấy với nhóm G4
(tuổi 18-55, vay 130M-200M),
khoản vay tối thiểu có xác suất
vỡ nợ cao hơn khoản vay tối
đa. Trong nhóm G7 (vay 2.8B
- 6.4B), khoản vay tối đa có
xác suất vỡ nợ cao hơn khoản
vay tối thiểu. Kết quả được coi
là phù hợp vì trong nhóm G7
khoản vay lớn thì khả năng vỡ
nợ là cao hơn còn trong nhóm
G4 khoản vay nhỏ thuộc về các đối tượng
nhỏ lẻ có xác suất vỡ nợ cao hơn khoản
vay vừa phải.
Cây quyết định phân nhóm khách hàng
theo các chỉ tiêu phân nhóm.
Dữ liệu được sử dụng là dữ liệu Logistic
của 6 nhóm vay (hạn mức vay < 2.67B và
giá trị vay từ 276M - 800M) với 76.365
hồ sơ chia làm 2 tập: train set và test set.
Các biến quan sát bao gồm: Tổng thời gian
trễ hạn (ngày), tổng số tiền đã tiêu (VNĐ),
NGHIEÂN CÖÙU TRAO ÑOÅI Soá 09 (194) - 2019
Hình 1. Đường sống sót cho 3 nhóm tuổi (0,18], (18,55] và (55,99]
Ta chia làm biến giá trị vay thành 6 nhóm: 0 - 130M, 130M - 200M, 200M - 1B,1B - 2.8B, 2.8B-6.4B,
6.4-100B.
Hình 2. Đường sống sót 6 nhóm vay theo ngày
Với thống kê dữ liệu đã làm sạch, chia nhóm theo hai biến tuổi và giá trị vay, có tất cả 18 nhóm chia. Gộp các
nhóm có chung đường sống sót ta thu được 8 nhóm với 8 đường sống sót phân biệt như sau:
G1 Tuổi 0 - 18
G2 Tuổi 55 - 99
G3 Tuổi 18 - 55, vay 0 - 130 M
G4 Tuổi 18 - 55, vay 130 M - 200 M
G5 Tuổi 18 - 55, vay 200 M - 1B
G6 Tuổi 18 - 55, vay 1B - 2.8B
G7 Vay 2.8B - 6.4B
G8 Vay 6.4B - 100B
Hình 3. Đường sống sót cho nhóm G1, G2
Hình 1. Đường sống sót cho 3 nhóm tuổi (0,18], (18,55] và (55,99]
Ta chia làm biến giá trị vay thành 6 nhóm: 0 - 130M, 130M - 200M, 200M - 1B,1B - 2.8B, 2.8B-6.4B,
6.4-100B.
Hình 2. Đường sống sót 6 nhóm vay theo ngày
Với thống kê dữ liệu đã làm sạch, chia nhóm theo hai biến tuổi và giá trị vay, có tất cả 18 nhóm chia. Gộp các
nhóm có chung đường sống sót ta thu được 8 nhóm với 8 đường sống sót phân biệt như sau:
G1 Tuổi 0 - 18
G2 Tuổi 55 - 99
G3 Tuổi 18 - 55, vay 0 - 130 M
G4 Tuổi 18 - 55, vay 130 M - 200 M
G5 Tuổi 18 - 55, vay 200 M - 1B
G6 Tuổi 18 - 55, vay 1B - 2.8B
G7 Vay 2.8B - 6.4B
G8 Vay 6.4B - 100B
Hình 3. Đường sống sót cho nhóm G1, G2
Hình 4. Đường sống sót của 4 nhóm G3, G4, G5, G6
Hình 5. Đường sống sót của 2 nhóm G7, G8
Bảng 2: Kết quả nhóm G4, G7 với sự kiện Y trong 24, 12 và 9 tháng
24m 12m 9m
G4
Tuoi.pca
GTVpca -0.11 -0.13 -0.15
GioiTinh.pca
Kiếm định PH 0.0391 0.0478 0.1045
C index 0.58 0.61 0.63
G7
Tuoi.pca -0.41 -0.42 -0.38
GTVpca
GioiTinh.pca 0.26 0.23 0.24
Kiếm định PH 0.03188 0.02014 0.3364
C index 0.59 0.63 0.65
ì . , , ,
ì . ,
, i i ,
i.
. . .
i i i .
i ị . . .
i . . .
i. . . .
i i i . . . .
i ị . . .
i . . .
Hình 6. Đồ thị xác suất vỡ nợ
của hai hồ sơ vay
có giá trị vay tối đa và tối thiểu
trong 2 nhóm G4, G7,
thời hạn vay 24 tháng
Hình 7. Đồ thị xác suất vỡ nợ
và đường rủi ro cơ sở của hai hồ sơ vay
có giá trị vay tối đa và tối thiểu
trong 2 nhóm G3, G4, thời hạn vay 12 tháng
Đường sống sót 8 nhóm được thể hiện ở hình 3, 4, 5. Kết quả kiểm định cho thấy chỉ có nhóm G4
và G7 là có ý nghĩa, phù hợp với mô hình Cox. Mô hình hồi quy Logistic và mô hình Cox đều tính được
xác suất vỡ nợ và phân loại các khách hàng thành các nhóm có cùng mức nguy cơ rủi ro. Hình 7 cho thấy
với nhóm G4 (tuổi 18-55, vay 130M-200M), khoản vay tối thiểu có xác suất vỡ nợ cao hơn khoản vay tối
đa. Trong nhóm G7(vay 2.8B- 6.4B), khoản vay tối đa có xác suất vỡ nợ cao hơn khoản vay tối thiểu. Kết
Hình 4. Đường sống sót của 4 nhóm G3, G4, G5, G6
Hình 5. Đường sống sót của 2 nhóm G7, G8
Bảng 2: Kết quả nhóm G4, G7 với sự kiện Y trong 24, 12 và 9 tháng
24m 12m 9m
G4
Tuoi.pca
GTVpca -0.11 -0.13 -0.15
GioiTinh.pca
Kiếm định PH 0.0391 0.0478 0.1045
C index 0.58 0.61 .63
G7
Tuoi.pca -0.41 -0.42 38
GTVpca
GioiTinh.pca 0.26 0.23 4
Kiếm định PH 0.03188 0.02014 0.3364
C index 0.59 0.63 0.65
27Taïp chí nghieân cöùu Taøi chính keá toaùn
NGHIEÂN CÖÙU TRAO ÑOÅISoá 09 (194) - 2019
hạn mức vay (VNĐ), tổng giá trị ứng trước
(VNĐ), số dư lần cuối (VNĐ), giá trị khoản vay
(VNĐ), số dư trung bình tháng (VNĐ), giới tính
(Nam, nữ).
Nguy cơ vỡ nợ thấp với nhóm khách hàng
có tổng thời gian trễ hạn dưới 3 tháng và nguy
cơ vỡ nợ cao với nhóm khách hàng có tổng
thời gian trễ hạn cao và hạn mức vay nhỏ hơn
600 triệu và tổng giá trị ứng trước cao hơn
300 triệu.
VII. Kết luận
Hai mô hình hồi quy Logistic và mô hình
Cox ước lượng được xác suất vỡ nợ của từng
khách hàng và của từng nhóm khách hàng, xác
suất vỡ nợ của hồ sơ sẽ thay đổi theo thời gian
kể từ thời điểm bắt đầu vay. Mô hình Cox với
giả thuyết mỗi nhóm có một nguy cơ riêng là
phù hợp để tính xác suất và thời gian trả nợ trễ
hạn lần 1. Trong lần trễ hạn đầu tiên, hồ sơ có
giá trị vay lớn khả năng trễ hạn lần 1 lại thấp hơn
hồ sơ có giá trị vay nhỏ.
Hình 9 cho thấy cây quyết định phân nhóm
khách hàng thành 12 nhóm. Trong đó chỉ tiêu
phân nhóm giúp phân biệt khách hàng có nguy
cơ vỡ nợ thấp và cao là TongThoiGianTreHan.
Thấy được mối quan hệ chặt chẽ giữa các chỉ
tiêu, phân nhóm bằng cây quyết định sử dụng
suy diễn cho kết quả tin cậy. Mười hai nhóm
khách hàng có đặc điểm phân
biệt rõ ràng và có nguy cơ vỡ nợ
khác biệt nhau.
Tài liệu tham khảo:
Paul Murrell, “R Graphics”, NXB
Chapman & Hall/CRC. (2005)
Yanagimoto, Kamakura, “The
maximum full and partial like-lihood
estimators in the proportional hazard
model”, Annals of the Institute of
Statistical Mathematics, 36, tr.363-373.
COX, D. R, “Regression models and
life tables (with discussion)”, Journal of
Royal Statistical Society:B, 34, tr.187-
220.
COX, D. R, Partial likelihood,
Biometrika, 62, tr.269-276.
Kaplan, E. L. and Meier , P.,
Nonparametric estimation from
incomplete observations, Journal of
American Statistical Association, 53, tr.457-481 (1958).
Ross Gayler, “Credit Scoring using R. RPubs”.
G. Rodriguez, Revised, “Logit Models for Binary Data”.
Badr Missaoui, “Statistics in Retail Finance”, Room
545, Huxley Building.
Edward S. Venter, “Probability of Default Calibration
for Low Default Portfolios: Revisiting the Bayesian
Approach”. Master thesis of Commerce in Financial Risk
Management, Faculty of Economics and Business Sciences,
Stellenbosch University, South Africa (2016).
Hình 6. Đồ thị xác suất vỡ nợ
của hai hồ sơ vay
có giá trị vay tối đa và tối thiểu
trong 2 nhóm G4, G7,
thời hạn vay 24 tháng
Hình 7. Đồ thị xác suất vỡ nợ
và đường rủi ro cơ sở của hai hồ sơ vay
có giá trị vay tối đa và tối thiểu
trong 2 nhóm G3, G4, thời hạn vay 12 tháng
Đường sống sót 8 nhóm được thể hiện ở hình 3, 4, 5. Kết quả kiểm định cho thấy chỉ có nhóm G4
và G7 là có ý nghĩa, phù hợp với mô hình Cox. Mô hình hồi quy Logistic và mô hình Cox đều tính được
xác suất vỡ nợ và phân loại các khách hàng thành các nhóm có cùng mức nguy cơ rủi ro. Hình 7 cho thấy
với nhóm G4 (tuổi 18-55, vay 130M-200M), khoản vay tối thiểu có xác suất vỡ nợ cao hơn khoản vay tối
đa. Trong nhóm G7(vay 2.8B- 6.4B), khoản vay tối đa có xác suất vỡ nợ cao hơn khoản vay tối thiểu. Kết
Kết quả được coi là phù hợp vì trong nhóm G7 khoản vay lớn thì khả năng vỡ nợ là cao hơn còn trong
nhóm G4 khoản vay nhỏ thuộc về các đối tượng nhỏ lẻ có xác suất vỡ nợ cao hơn khoản vay vừa phải.
Cây quyết định phân nhóm khách hàng theo các chỉ tiêu phân nhóm.
Dữ liệu được sử dụng là dữ liệu Logistic của 6 nhóm vay (hạn mức vay < 2.67B và giá trị vay từ 276M -
800M) với 76365 hồ sơ chia làm 2 tập: train set và test set. Các biến quan sát bao gồm: Tổng thời gian trễ
hạn (ngày), tổng số tiền đã tiêu (VNĐ), hạn mức vay (VNĐ), tổng giá trị ứng trước (VNĐ), số dư lần cuối
(VNĐ), giá trị khoản vay (VNĐ), số dư trung bình tháng (VNĐ), giới tính (Nam, Nữ).
Hình 8. Kết quả Conditional inference Trees
Nguy cơ vỡ nợ thấp với nhóm khách hàng có tổng thời gian trễ hạn dưới 3 thá g và nguy cơ vỡ ợ
cao với nhóm khách hàng có tổng thời gian trễ hạn cao và hạ mức vay nhỏ hơn 600 triệu và tổng giá trị
ứng trước cao hơn 300 triệu.
VII. Kết luận
Hai mô hình hồi quy Logistic và mô hình Cox ước lượng được xác suất vỡ nợ của từng khách hàng và
của từng nhóm khách hàng, xác suất vỡ nợ của hồ sơ sẽ thay đổi theo thời gian kể từ thời điểm bắt đầu
vay. Mô hình Cox với giả thuyết mỗi nhóm có một nguy cơ riêng là phù hợp để tính xác suất và thời gian
trả nợ trễ hạn lần 1. Trong lầ tr đầu tiên, hồ sơ có giá trị vay lớn khả năng trễ hạn lần 1 lại thấp hơn
hồ sơ có giá trị vay nhỏ.
Hình 9 cho thấy cây quyế định phân nhóm khách hàng thành 12 nhóm. Trong đó chỉ tiêu phân nhóm giúp
phân biệt khách hàng có nguy cơ vỡ nợ thấp và cao là TongThoiGianTreHan. Thấy được mối quan hệ
chặt chẽ giữa các chỉ tiêu, phân nhóm bằng cây quyết định sử dụng suy diễn cho kết quả tin cậy. Mười hai
nhóm khách hàng có đặc điểm phân biệt rõ ràng và có nguy cơ vỡ nợ khác biệt nhau.
Tài liệu tham khảo:
[1] Paul Murrell, “R Graphics”, NXB Chapman & Hall/CRC. (2005)
[2] Yanagimoto, Kamakura , “The maximum full and partial like-lihood estimators in the proportional
hazard mode”l, Annals of the Institute of Statistical Mathematics, 36, tr.363-373.
[3] COX, D. R, “Regression models and life tables (with discus¬sion)”, Journal of Royal Statistical
Society:B, 34, tr.187-220.
[4] COX, D. R, Partial likelihood, Biometrika, 62, tr.269-276.
[5] Kaplan, E. L. and Meier , P., Nonparametric estimation from incomplete observations, Journal of
American Statistical Association, 53, tr.457-481 (1958).
[6] Ross Gayler, “Credit Scoring using R. RPubs”.
[7] G. Rodriguez, Revised, “Logit Models for Binary Data”.
[8] Badr Missaoui, “Statistics in Retail Finance”, Room 545, Huxley Building.
File đính kèm:
mo_hinh_hoi_quy_logistics_va_mo_hinh_cox_trong_uoc_luong_xac.pdf

