Mô hình hồi quy logistics và mô hình cox trong ước lượng xác suất vỡ nợ tín dụng, phân nhóm khách hàng theo nguy cơ vỡ nợ
Trong quá trình hoạt động, rủi ro xuất phát từ các khoản vay đang là một trong những mối quan tâm
hàng đầu của ngân hàng. Dựa trên các đặc điểm của hồ sơ vay nợ, ngân hàng có thể đưa ra ước lượng
cho xác suất vỡ nợ (PD) sau đó phân chia khách hàng vào các nhóm có cùng nguy cơ từ đó đưa ra quyết
định cho vay nhằm hạn chế rủi ro và tối đa lợi nhuận.
Bạn đang xem tài liệu "Mô hình hồi quy logistics và mô hình cox trong ước lượng xác suất vỡ nợ tín dụng, phân nhóm khách hàng theo nguy cơ vỡ nợ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Mô hình hồi quy logistics và mô hình cox trong ước lượng xác suất vỡ nợ tín dụng, phân nhóm khách hàng theo nguy cơ vỡ nợ

22 Taïp chí nghieân cöùu Taøi chính keá toaùn I. Giới thiệu Ngày nay các ngân hàng thương mại đóng vai trò rất quan trọng trong lĩnh vực kinh tế của nước ta dưới hình thức chuyển nhượng quyền sử dụng vốn của mình cho khách hàng cá nhân hoặc hộ gia đình, sử dụng trong một thời hạn nhất định phải hoàn trả cả gốc và lãi với mục đích phục vụ đời sống hoặc phục vụ sản xuất kinh doanh. Cùng với đó, hệ thống ngân hàng thương mại Việt Nam cũng đã từng bước đổi mới và được coi là một trong các tổ chức tài chính quan trọng nhất của nền kinh tế với hoạt động chính là huy động vốn để sử dụng nhằm thu lợi nhuận, trong đó hoạt động tín dụng là hoạt động sinh lời lớn nhất, tuy nhiên, rủi ro là điều không thể tránh khỏi. Vì vậy, việc nhận dạng và phân nhóm khách hàng theo rủi ro tín dụng là việc làm cấp bách. Đáp ứng đòi hỏi từ thực tiễn đó, cần nghiên cứu mô hình cho phép ước lượng xác suất không trả được nợ và phương pháp phân nhóm khách hàng theo nguy cơ không trả được nợ tín dụng của khách hàng cá nhân. Xét trong mối quan hệ tín dụng ngân hàng, “khả năng trả nợ của khách hàng” là việc đánh giá khách hàng có thực hiện đầy đủ và đúng hạn nghĩa vụ nợ cho bên cấp tín dụng trong toàn bộ thời gian quan hệ tín dụng hoặc trong một khoảng thời gian xác định hay không. Phương pháp xác định khả năng trả nợ của khách hàng thường được dựa trên một tiêu chuẩn nhất định do ngân hàng lựa chọn như dựa trên đặc điểm của khách hàng, năng lực tài chính, thiện chí trả nợ của khách hàng khi chưa phát sinh nghĩa vụ nợ và dựa trên đặc điểm của khoản nợ như lịch sử thanh toán nợ, tình trạng trả nợ thực tế của khách hàng. Bài toán tập trung vào dịch vụ cho MÔ HÌNH HỒI QUY LOGISTICS VÀ MÔ HÌNH COX TRONG ƯỚC LƯỢNG XÁC SUẤT VỠ NỢ TÍN DỤNG, PHÂN NHÓM KHÁCH HÀNG THEO NGUY CƠ VỠ NỢ Tô Thị Vân Anh* Ngày nhận bài: 5/8/2019 Ngày chuyển phản biện: 7/8/2019 Ngày nhận phản biện: 15/8/2019 Ngày chấp nhận đăng: 22/8/2019 Trong quá trình hoạt động, rủi ro xuất phát từ các khoản vay đang là một trong những mối quan tâm hàng đầu của ngân hàng. Dựa trên các đặc điểm của hồ sơ vay nợ, ngân hàng có thể đưa ra ước lượng cho xác suất vỡ nợ (PD) sau đó phân chia khách hàng vào các nhóm có cùng nguy cơ từ đó đưa ra quyết định cho vay nhằm hạn chế rủi ro và tối đa lợi nhuận. • Từ khóa: mô hình hồi quy, xác xuất vỡ nợ tín dụng, lợi nhuận, ngân hàng thương mại. In the current banking context, risks from loans are one of the bank’s top concerns. Probability of default has much significance as it is one of the core parts for improved allocation of capital, pricing, client judgment, regulatory compliance and, finally, monitoring of high-risk customers. Due to these significant reasons, based on the information of the loan profile, the bank can give an estimate of the probability of default (PD) based on two models is Logistic regression model and Cox regression model. The objective of these two regression methods is to estimate credit risk and extract important variables in predicting credit risk, then divide the customer into groups at the same risk from which to make a loan decision risk and maximum profitability. • Keywords: regression model, probability of credit default, profit, commercial bank. * Đại học Khoa học Tự nhiên, ĐHQG Hà Nội NGHIEÂN CÖÙU TRAO ÑOÅI Soá 09 (194) - 2019 23Taïp chí nghieân cöùu Taøi chính keá toaùn vay tín dụng. Mỗi một khách hàng khi có nhu cầu giao dịch sẽ được yêu cầu cung cấp thông tin khách hàng, các thông tin đó có thể là dữ liệu cá nhân như giới tính, tuổi tác, nghề nghiệp,... thông tin lịch sử vay tín dụng trong quá khứ như thời hạn vay. Dữ liệu hành vi như lịch sử sử dụng khoản vay trên các sản phẩm. Thông tin này biểu diễn dưới dạng vectơ X = (X 1 ,..., X m ). 1) Ước lượng PD hiện tại dựa trên hai mô hình là mô hình hồi quy Logistic và mô hình hồi quy Cox. Mục tiêu của hai phương pháp hồi quy này là ước tính rủi ro tín dụng và trích xuất các biến quan trọng trong dự đoán rủi ro tín dụng. 2) Phân nhóm khách hàng theo nguy cơ không trả được nợ, các khách hàng trong cùng một nhóm sẽ có nguy cơ rủi ro như nhau. 3) Phân nhóm khách hàng theo các chỉ tiêu phân nhóm, biểu diễn dưới dạng cây quyết định. II. Mô hình logistic trong ước tính xác suất vỡ nợ Mô hình hồi quy logistics xem xét mối liên hệ giữa biến phụ thuộc (Y) và tất cả các biến còn lại là biến độc lập (X), thể hiện các nhân tố thông tin của khách hàng. Biến Y là biến nhị phân chỉ nhận hai giá trị 0 hoặc 1. Cụ thể: Y= � 𝑁𝑁ế𝑢𝑢 𝑠𝑠ự 𝑘𝑘𝑘𝑘ệ𝑛𝑛 𝑣𝑣ỡ 𝑛𝑛ợ 𝑘𝑘ℎô𝑛𝑛𝑛𝑛 𝑥𝑥ả𝑦𝑦 𝑟𝑟𝑟𝑟𝑁𝑁ế𝑢𝑢 𝑠𝑠ự 𝑘𝑘𝑘𝑘ệ𝑛𝑛 𝑣𝑣ỡ 𝑛𝑛ợ 𝑥𝑥ả𝑦𝑦 𝑟𝑟𝑟𝑟01 (1) Giả sử p i là xác suất trả được nợ của khách hàng thứ i, ta có mô hình ước lượng cho như sau: p i (x) = P (Y = 0|X = x) = 𝑒𝑒𝛽𝛽0+𝛽𝛽𝑇𝑇𝑥𝑥1 + 𝑒𝑒𝛽𝛽0+𝛽𝛽𝑇𝑇𝑥𝑥 = 11 + 𝑒𝑒−𝑠𝑠(𝑥𝑥) (2) Hàm s(x) = β 0 + βT x s(x) được gọi là điểm log-odds 𝑠𝑠(𝑥𝑥) = 𝑙𝑙𝑙𝑙𝑛𝑛( 𝜋𝜋𝑘𝑘(𝑥𝑥)1 − 𝜋𝜋𝑘𝑘(𝑥𝑥)) Nếu một khách hàng có m thông tin được mô tả bằng biến X = (X 1 , X 2 ,..., X m ) và giá trị cụ thể là x = (x 1 ,...,x m ) có βj là hệ số của thông tin xj thì s(x) là điểm tín dụng của khách hàng x. Tham số được ước lượng trong mô hình hồi quy logistic là β 0 và β = (β 1 , β 2 ,..., β m ), ký hiệu tương ứng là 𝛽𝛽0⏜ và 𝛽𝛽⏜ . Tính toán ước lượng dựa trên phương pháp MLE. III. Quyết định điểm cắt phân lớp khách hàng Khi một người nộp đơn vay tín dụng, họ sẽ cung cấp đầy đủ thông tin để người cho vay xây dựng hồ sơ. Sau đó với mô hình ước lượng, điểm số s(x) = β 0 + βT x s(x) sẽ được gán cho mỗi cá nhân. Điểm số cao thì ít rủi ro hơn nên những hồ sơ có điểm số cao sẽ được chấp nhận. Do đó, điểm cắt được đưa ra. Nếu s(x) ≤ c thì loại bỏ hồ sơ tín dụng. Nếu s(x) ≥ c thì chấp nhận hồ sơ tín dụng. Xác suất cắt cho bởi 1 − 𝑙𝑙𝑙𝑙𝑛𝑛𝑘𝑘𝑙𝑙−1( 𝑐𝑐) = 1 − 11 + 𝑒𝑒−𝑐𝑐 Quyết định điểm cắt sẽ dựa trên một số yếu tố liên quan đến mục tiêu của người cho vay như tối đa hóa lợi nhuận dự kiến. Nếu quyết định cho vay và người vay trả được nợ thì sẽ thu được một khoản lợi nhuận là g và nếu người vay không trả được thì người cho vay sẽ bị thua lỗ một khoản l. Khi đó 1 - F 0 (c) = P(S ≤ c|Y = 0) được gọi là phân lớp đúng của trường hợp trả được nợ. 1 - F 1 (c) = P(S ≤ c|Y = 1) được gọi là phân lớp sai của trường hợp không trả được nợ, với 𝛾𝛾 = 𝑙𝑙 𝑛𝑛 và đặt chi phí là: 𝑒𝑒𝛾𝛾(𝑐𝑐) = 𝐹𝐹0(𝑐𝑐)(1 − 𝑝𝑝1) + 𝛾𝛾(1 − 𝐹𝐹1(𝑐𝑐))𝑝𝑝1 (3) Điểm cắt được tìm là điểm cắt tối ưu theo chi phí 𝑐𝑐 = 𝑙𝑙𝑙𝑙𝑛𝑛[(𝛾𝛾/(1 + 𝛾𝛾))/(1 − 𝛾𝛾/(1 + 𝛾𝛾)))] = 𝑙𝑙𝑙𝑙𝑛𝑛 𝛾𝛾 (4) IV. Mô hình Cox trong ước tính xác suất vỡ nợ Một mô hình khác được dùng là mô hình phân tích sống sót để tính điểm tín dụng, biến quan tâm là thời gian xảy ra sự kiện. Mô hình này ước lượng được xác suất sống sót trên toàn bộ tập dữ liệu. Ưu điểm của mô hình phân tích sống sót là có thể kết hợp với dữ liệu kiểm duyệt. A. Hàm sống sót Hàm sống sót được định nghĩa bởi s(x) là xác suất mà một cá thể sống sót vượt quá thời gian t. NGHIEÂN CÖÙU TRAO ÑOÅISoá 09 (194) - 2019 24 Taïp chí nghieân cöùu Taøi chính keá toaùn 𝑆𝑆(𝑙𝑙) = 𝑃𝑃(𝑇𝑇 > 𝑙𝑙) = 1 − 𝐹𝐹(𝑙𝑙) = � 𝑓𝑓(𝑥𝑥)𝑑𝑑𝑥𝑥∞ 𝑙𝑙 (5) B. Hàm rủi ro (Hazard function) Đo khả năng thất bại tại thời điểm t biết rằng đối tượng đã sống sót qua một số thời điểm t: 𝑙𝑙. ℎ( 𝑙𝑙) = 𝑙𝑙𝑘𝑘𝑙𝑙 △𝑙𝑙→0+ 𝑃𝑃(𝑙𝑙≤𝑇𝑇<𝑙𝑙+△𝑙𝑙|𝑇𝑇≥𝑙𝑙)△𝑙𝑙 = f(t)/S(t) (6) Dt là khoảng thời gian rất nhỏ và là hàm mật độ xác suất của t. Mối quan hệ giữa hàm sống sót và hàm rủi ro cho bởi: ℎ(𝑙𝑙) = − �𝑑𝑑𝑆𝑆(𝑙𝑙)/𝑑𝑑𝑙𝑙 𝑆𝑆(𝑙𝑙) � 𝑆𝑆(𝑙𝑙) ⇒ 𝑆𝑆(𝑙𝑙) = 𝑒𝑒𝑥𝑥𝑝𝑝 �−� ℎ(𝑢𝑢)𝑑𝑑𝑢𝑢𝑙𝑙0 � (7) Với dữ liệu tín dụng trong mô hình Cox, xác suất vỡ nợ (PD) của khách hàng thứ i tại thời điểm t cho bởi: 𝜋𝜋𝑘𝑘(𝑋𝑋𝑘𝑘 , 𝑙𝑙) = 1 − 𝑆𝑆(𝑋𝑋𝑘𝑘 , 𝑙𝑙) = 1 − 𝑒𝑒𝑥𝑥𝑝𝑝 �−� ℎ(𝑋𝑋𝑘𝑘 ,𝑢𝑢)𝑑𝑑𝑢𝑢𝑙𝑙0 � (8) V. Cây quyết định Cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Dữ liệu được cho dạng (x,y) = (x 1 , x 2 , x 3 ..., x k ,y). Biến phụ thuộc (dependant variable) là biến mà chúng ta cần tìm hiểu, biến phân loại là x 1 , x 2 ... là các biến sẽ giúp ta thực hiện công việc đó. Giả sử S là tập dữ liệu hiện tại gồm s mẫu dữ liệu, tập nhãn lớp có m giá trị {C 1 ,..., C m }, S i là số lượng mẫu của S i trong lớp C i . Để phân loại một mẫu ta sử dụng khái niệm entropy. 𝐸𝐸𝑛𝑛𝑙𝑙𝑟𝑟𝑙𝑙𝑝𝑝𝑦𝑦(𝑆𝑆) = −�𝑝𝑝𝑘𝑘 𝑙𝑙𝑙𝑙𝑛𝑛2( 𝑝𝑝𝑘𝑘)𝑙𝑙 𝑘𝑘=1 với 𝑝𝑝𝑘𝑘 = 𝑠𝑠𝑘𝑘𝑠𝑠 là xác suất mẫu thuộc lớp C i . Thuộc tính V gồm n giá trị {v 1 ,..., v n } được sử dụng để chia S thành nhiều tập con S 1 ,...,S n .S i là các mẫu trong S có giá trị thuộc tính V là v i . Information Gain (IG) đánh giá khả năng của một thuộc tính khi được dùng để phân lớp các mẫu dựa vào số entropy. IG cho biết mức độ giảm của entropy khi phân nhánh mẫu. 𝐺𝐺𝑟𝑟𝑘𝑘𝑛𝑛(𝑆𝑆,𝑉𝑉) = 𝐸𝐸𝑛𝑛𝑙𝑙𝑟𝑟𝑙𝑙𝑝𝑝𝑦𝑦(𝑆𝑆) −� |𝑆𝑆𝑘𝑘||𝑆𝑆|𝑛𝑛 𝑘𝑘=1 𝐸𝐸𝑛𝑛𝑙𝑙𝑟𝑟𝑙𝑙𝑝𝑝𝑦𝑦(𝑆𝑆) (9) Thuộc tính làm Gain (S,V) lớn nhất sẽ được chọn để phân mảnh. Khi có một số lượng lớn các giá trị, ta sử dụng Gain Ratio tính thông qua thông tin tiềm năng (potential information) của mỗi phân hoạch 𝑃𝑃( 𝑆𝑆,𝑉𝑉) = −� |𝑆𝑆𝑘𝑘| 𝑆𝑆 𝑙𝑙 𝑘𝑘=1 𝑙𝑙𝑙𝑙𝑛𝑛2( |𝑆𝑆𝑘𝑘|𝑆𝑆 ) (10) Thuộc tính được chọn nếu tỉ số 𝐺𝐺𝑟𝑟𝑘𝑘𝑛𝑛𝑟𝑟𝑟𝑟𝑙𝑙𝑘𝑘𝑙𝑙 = 𝐺𝐺𝑟𝑟𝑘𝑘𝑛𝑛(𝑆𝑆,𝑉𝑉) 𝑃𝑃( 𝑆𝑆,𝑉𝑉) đạt giá trị lớn nhất. Khách hàng sẽ được phân nhóm theo các quy luật phân nhóm được biểu diễn dưới dạng cây quyết định (cây quyết định) với các nút mô tả chỉ tiêu và các nhánh mô tả kết quả của chỉ tiêu. Kết quả cuối cùng của việc phân nhánh cây là việc tạo ra các nhóm có nguy cơ vỡ nợ khác nhau có ý nghĩa. VI. Kết quả thực nghiệm Dữ liệu đầu vào bài toán là dữ liệu tín dụng trong hai năm 2015 - 2016. Bộ dữ liệu chuẩn của mô hình Logistic gồm 21 biến, bao gồm: Giới tính, nghề nghiệp, thu nhập, tổng hạn mức vay, tổng giá trị vay, chiều dài thời gian vay, số lần vay, số lần trễ hạn, tổng giá trị do trễ hạn, tổng giá trị đã vay, tổng giá trị ứng trước, thời gian trả nợ trung bình, số tiền trả nợ trung bình, số tiền đã tiêu, tổng số giao dịch, tổng thời gian trễ hạn, trung bình tháng, số dư lần cuối, tỷ lệ số dư cuối/ số dư đầu, trạng thái vỡ nợ (Y=1 nếu vỡ nợ, Y=0 nếu không vỡ nợ). Biến thu nhập được chia làm hai nhóm: Khách hàng có thông tin và không có thông tin NGHIEÂN CÖÙU TRAO ÑOÅI Soá 09 (194) - 2019 25Taïp chí nghieân cöùu Taøi chính keá toaùn NGHIEÂN CÖÙU TRAO ÑOÅISoá 09 (194) - 2019 về thu nhập, kết quả như sau: Trong số 385.013 khách hàng có 374.574 khách hàng không có thông tin thu nhập với số vỡ nợ là 9.050 (chiếm tỷ lệ 0.024), 10.439 khách hàng có thông tin thu nhập với số vỡ nợ là 87 (chiếm tỷ lệ 0.008). Phân tích trước tiên dựa trên nhóm khách hàng không có thông tin thu nhập, sau đó sẽ so sánh với nhóm khách hàng có thông tin thu nhập. Cách phân chia thực tế do thu nhập ảnh hưởng trực tiếp tới việc xác định tổng hạn mức vay và giá trị vay. Dựa trên các thông tin khách hàng có 2 biến liên quan tới điều kiện vay là: tổng hạn mức vay và tổng giá trị vay. Chia biến tổng giá trị vay thành 5 nhóm miền giá trị là <276M, <800M, <2B, <4.7B <1073B. Chia biến tổng hạn mức vay thành 5 nhóm có miền giá trị sau: <366M, <2.67B, <5.8B, 28.5B. Có tất cả 21 nhóm biến, tính PD bằng phương pháp hồi quy Logistic cho các nhóm này, các giá trị PD gần nhau được gộp lại, kết quả còn lại 11 nhóm. Xử lý với nhóm khách hàng có thông tin thu nhập: Tính giá trị thu nhập trung bình chia nhóm khách hàng vào 11 nhóm có tương đồng thu nhập trung bình với các khoảng tổng giá trị khoản vay và tổng hạn mức, sau đó gộp toàn bộ dữ liệu của khách hàng theo 11 nhóm đã biết. Kết quả có 11 nhóm được chia như sau: Nhóm Tổng giá trị vay Tổng hạn mức vay N1 < 276M < 366M N2 < 276M < 2.67B N3 < 276M < 5.8B N4 < 276M < 28.5B N5 28.5B N6 < 800M < 2.67B N7 2.67B N8 366M N9 < 4.7B < 2.67B N10 2.67B N11 > 4.7B > 2.67B Kết quả cho mô hình Cox: Dữ liệu tín dụng theo dõi trong 2 năm: 01/01/2015- 31/12/2016. Các biến gồm có: Tuổi (tuổi khách hàng), giới tính, giá trị vay, T 1 (khoảng thời gian từ lúc mở hồ sơ vay đến khi trễ hạn lần 1), Y 1 (nếu xảy ra trễ lần 1 thì Y 1 = 1, nếu không thì Y 1 = 0), T 2 là thời gian xảy ra sự kiện trễ hạn lần 2, Y 2 nhận giá trị 0 hoặc 1 như với Y 1 , T ( khoảng thời gian từ lúc mở hồ sơ vay đến khi vỡ nợ), Y (Y = 1 nếu có vỡ nợ, Y = 0 nếu không có vỡ nợ). Bảng 1: Kết quả AUC và PD cho 11 nhóm AUC Accuracy Sensitivity Specificity Cutoff PD N1 0.98 0.92 0.94 0.92 0.023 0.03 N2 0.98 0.96 0.95 0.96 0.013 0.0307 N3 0.99 0.96 0.96 0.96 0.056 0.0771 N4 0.92 0.88 0.88 0.88 0.002 0.052 N5 NUL NUL NUL NUL NUL NUL N6 0.99 0.95 0.96 0.95 0.005 0.0058 N7 0.94 0.96 0.94 0.96 0.007 0.0148 N8 0.97 0.97 0.97 0.97 0.011 0.0103 N9 NUL NUL NUL NUL NUL NUL N10 0.99 0.97 1 0.97 0.017 0.0123 N11 0.96 0.98 0.9 0.98 0.078 0.0215 Kết quả chạy riêng cho mô hình nhóm N4 Tập dữ liệu training gồm 1658 khách hàng Kết luận mô hình: Kết quả cho mô hình Cox: Dữ liệu tín dụng theo dõi trong 2 năm: 01/01/2015- 31/12/2016. Các biến gồm có: Tuổi (tuổi khách hàng), giới tính, giá trị vay, T1 (khoảng thời gian từ lúc mở hồ sơ vay đến khi trễ hạn lần 1), Y1 (nếu xảy ra trễ lần 1 thì Y1 = 1, nếu không thì Y1 = 0), T2 là thời gian xảy ra sự kiện trễ hạn lần 2, Y2 nhận giá trị 0 hoặc 1 như với Y1, T ( khoảng thời gian từ lúc mở hồ sơ vay đến khi vỡ nợ), Y (Y = 1 nếu có vỡ nợ, Y = 0 nếu không có vỡ nợ). Thống kê dữ liệu gồm 1099552 hồ sơ, số hồ sơ vỡ nợ 6917, số hồ sơ trễ hạn lần 1 là 407248, số hồ sơ trễ hạn lần 2 là 189335 hồ sơ. �(�) = −7.6058 + 1.5925 × ℎ�������� − 2.0506 × ���������� − 2.0953 × ������������������ + 6.3851 × ���������������� − 5.4980 × ��������������ℎ − 2.7063 × ����������� Bảng 1: Kết quả AUC và PD cho 11 nhóm AUC Accuracy Sensitivity Specificity Cutoff PD N1 0.98 0.92 0.94 0.92 0.023 0.03 N2 0.98 0.96 0.95 0.96 0.013 0.0307 N3 0.99 0.96 0.96 0.96 0.056 0.0771 N4 0.92 0.88 0.88 0.88 0.002 0.052 N5 NUL NUL NUL NUL NUL NUL N6 0.99 0.95 0.96 0.95 0.005 0.0058 N7 0.94 0.96 0.94 0.96 0.007 0.0148 N8 0.97 0.97 0.97 0.97 0.011 0.0103 N9 NUL NUL NUL NUL NUL NUL N10 0.99 0.97 1 0.97 0.017 0.0123 N11 0.96 0.98 0.9 0.98 0.078 0.0215 Kết quả chạy riêng cho mô hình nhóm N4 Tập dữ liệu training gồm 1658 khách hàng Kết luận mô hình: Kết quả cho mô hình Cox: Dữ liệu tín dụng theo dõi trong 2 năm: 01/01/2015- 31/12/2016. Các biến gồm có: Tuổi (tuổi khách hàng), giới tính, giá trị vay, T1 (khoảng thời gian từ lúc mở hồ sơ vay đến khi trễ hạn lần 1), Y1 (nếu xảy ra trễ lần 1 thì Y1 = 1, nếu không thì Y1 = 0), T2 là thời gian xảy ra sự kiện trễ hạn lần 2, Y2 nhận giá trị 0 hoặc 1 như với Y1, T ( khoảng thời gian từ lúc mở hồ sơ vay đến khi vỡ nợ), Y (Y = 1 nếu có vỡ nợ, Y = 0 nếu không có vỡ nợ). Thống kê dữ liệu gồm 1099552 hồ sơ, số hồ sơ vỡ nợ 6917, số hồ sơ trễ hạn lần 1 là 407248, số hồ sơ trễ hạn lần 2 là 189335 hồ sơ. �(�) = −7.6058 + 1.5925 × ℎ�������� − 2.0506 × ���������� − 2.0953 × ������������������ + 6.3851 × ���������������� − 5.4980 × ��������������ℎ − 2.7063 × ����������� Hình 1. Đường sống sót cho 3 nhóm tuổi (0,18], (18,55] và (55,99] Ta chia làm biến giá trị vay thành 6 n óm: 0 - 130M, 130M - 200M, 200M - 1B,1B - 2.8B, 2.8B-6.4B, 6.4-100B. Hình 2. Đường sống sót 6 nhóm vay theo ngày Với thống kê dữ liệu đã làm sạch, chia nhóm theo hai biến tuổi và giá trị vay, có tất cả 18 nhóm chia. Gộp các nhóm có chung đường sống sót ta thu được 8 nhóm với 8 đường sống sót phân biệt như sau: G1 Tuổi 0 - 18 G2 Tuổi 55 - 99 G3 Tuổi 18 - 55, vay 0 - 130 M G4 Tuổi 18 - 55, vay 130 M - 200 M G5 Tuổi 18 - 55, vay 200 M - 1B G6 Tuổi 18 - 55, vay 1B - 2.8B G7 Vay 2.8B - 6.4B G8 Vay 6.4B - 100B Hình 3. Đường sống sót cho nhóm G1, G2 26 Taïp chí nghieân cöùu Taøi chính keá toaùn Thống kê dữ liệu gồm 1.099.552 hồ sơ, số hồ sơ vỡ nợ 6917, số hồ sơ trễ hạn lần 1 là 407.248, số hồ sơ trễ hạn lần 2 là 189.335 hồ sơ. Ta chia làm biến giá trị vay thành 6 nhóm: 0 - 130M, 130M - 200M, 200M - 1B, 1B - 2.8B, 2.8B - 6.4B, 6.4 - 100B. Với thống kê dữ liệu đã làm sạch, chia nhóm theo hai biến tuổi và giá trị vay, có tất cả 18 nhóm chia. Gộp các nhóm có chung đường sống sót ta thu được 8 nhóm với 8 đường sống sót phân biệt như sau: G1 Tuổi 0 - 18 G2 Tuổi 55 - 99 G3 Tuổi 18 - 55, vay 0 - 130 M G4 Tuổi 18 - 55, vay 130 M - 200 M G5 Tuổi 18 - 55, vay 200 M - 1B G6 Tuổi 18 - 55, vay 1B - 2.8B G7 Vay 2.8B - 6.4B G8 Vay 6.4B - 100B Đường sống sót 8 nhóm được thể hiện ở hình 3, 4, 5. Kết quả kiểm định cho thấy chỉ có nhóm G4 và G7 là có ý nghĩa, phù hợp với mô hình Cox. Mô hình hồi quy Logistic và mô hình Cox đều tính được xác suất vỡ nợ và phân loại các khách hàng thành các nhóm có cùng mức nguy cơ rủi ro. Hình 7 cho thấy với nhóm G4 (tuổi 18-55, vay 130M-200M), khoản vay tối thiểu có xác suất vỡ nợ cao hơn khoản vay tối đa. Trong nhóm G7 (vay 2.8B - 6.4B), khoản vay tối đa có xác suất vỡ nợ cao hơn khoản vay tối thiểu. Kết quả được coi là phù hợp vì trong nhóm G7 khoản vay lớn thì khả năng vỡ nợ là cao hơn còn trong nhóm G4 khoản vay nhỏ thuộc về các đối tượng nhỏ lẻ có xác suất vỡ nợ cao hơn khoản vay vừa phải. Cây quyết định phân nhóm khách hàng theo các chỉ tiêu phân nhóm. Dữ liệu được sử dụng là dữ liệu Logistic của 6 nhóm vay (hạn mức vay < 2.67B và giá trị vay từ 276M - 800M) với 76.365 hồ sơ chia làm 2 tập: train set và test set. Các biến quan sát bao gồm: Tổng thời gian trễ hạn (ngày), tổng số tiền đã tiêu (VNĐ), NGHIEÂN CÖÙU TRAO ÑOÅI Soá 09 (194) - 2019 Hình 1. Đường sống sót cho 3 nhóm tuổi (0,18], (18,55] và (55,99] Ta chia làm biến giá trị vay thành 6 nhóm: 0 - 130M, 130M - 200M, 200M - 1B,1B - 2.8B, 2.8B-6.4B, 6.4-100B. Hình 2. Đường sống sót 6 nhóm vay theo ngày Với thống kê dữ liệu đã làm sạch, chia nhóm theo hai biến tuổi và giá trị vay, có tất cả 18 nhóm chia. Gộp các nhóm có chung đường sống sót ta thu được 8 nhóm với 8 đường sống sót phân biệt như sau: G1 Tuổi 0 - 18 G2 Tuổi 55 - 99 G3 Tuổi 18 - 55, vay 0 - 130 M G4 Tuổi 18 - 55, vay 130 M - 200 M G5 Tuổi 18 - 55, vay 200 M - 1B G6 Tuổi 18 - 55, vay 1B - 2.8B G7 Vay 2.8B - 6.4B G8 Vay 6.4B - 100B Hình 3. Đường sống sót cho nhóm G1, G2 Hình 1. Đường sống sót cho 3 nhóm tuổi (0,18], (18,55] và (55,99] Ta chia làm biến giá trị vay thành 6 nhóm: 0 - 130M, 130M - 200M, 200M - 1B,1B - 2.8B, 2.8B-6.4B, 6.4-100B. Hình 2. Đường sống sót 6 nhóm vay theo ngày Với thống kê dữ liệu đã làm sạch, chia nhóm theo hai biến tuổi và giá trị vay, có tất cả 18 nhóm chia. Gộp các nhóm có chung đường sống sót ta thu được 8 nhóm với 8 đường sống sót phân biệt như sau: G1 Tuổi 0 - 18 G2 Tuổi 55 - 99 G3 Tuổi 18 - 55, vay 0 - 130 M G4 Tuổi 18 - 55, vay 130 M - 200 M G5 Tuổi 18 - 55, vay 200 M - 1B G6 Tuổi 18 - 55, vay 1B - 2.8B G7 Vay 2.8B - 6.4B G8 Vay 6.4B - 100B Hình 3. Đường sống sót cho nhóm G1, G2 Hình 4. Đường sống sót của 4 nhóm G3, G4, G5, G6 Hình 5. Đường sống sót của 2 nhóm G7, G8 Bảng 2: Kết quả nhóm G4, G7 với sự kiện Y trong 24, 12 và 9 tháng 24m 12m 9m G4 Tuoi.pca GTVpca -0.11 -0.13 -0.15 GioiTinh.pca Kiếm định PH 0.0391 0.0478 0.1045 C index 0.58 0.61 0.63 G7 Tuoi.pca -0.41 -0.42 -0.38 GTVpca GioiTinh.pca 0.26 0.23 0.24 Kiếm định PH 0.03188 0.02014 0.3364 C index 0.59 0.63 0.65 ì . , , , ì . , , i i , i. . . . i i i . i ị . . . i . . . i. . . . i i i . . . . i ị . . . i . . . Hình 6. Đồ thị xác suất vỡ nợ của hai hồ sơ vay có giá trị vay tối đa và tối thiểu trong 2 nhóm G4, G7, thời hạn vay 24 tháng Hình 7. Đồ thị xác suất vỡ nợ và đường rủi ro cơ sở của hai hồ sơ vay có giá trị vay tối đa và tối thiểu trong 2 nhóm G3, G4, thời hạn vay 12 tháng Đường sống sót 8 nhóm được thể hiện ở hình 3, 4, 5. Kết quả kiểm định cho thấy chỉ có nhóm G4 và G7 là có ý nghĩa, phù hợp với mô hình Cox. Mô hình hồi quy Logistic và mô hình Cox đều tính được xác suất vỡ nợ và phân loại các khách hàng thành các nhóm có cùng mức nguy cơ rủi ro. Hình 7 cho thấy với nhóm G4 (tuổi 18-55, vay 130M-200M), khoản vay tối thiểu có xác suất vỡ nợ cao hơn khoản vay tối đa. Trong nhóm G7(vay 2.8B- 6.4B), khoản vay tối đa có xác suất vỡ nợ cao hơn khoản vay tối thiểu. Kết Hình 4. Đường sống sót của 4 nhóm G3, G4, G5, G6 Hình 5. Đường sống sót của 2 nhóm G7, G8 Bảng 2: Kết quả nhóm G4, G7 với sự kiện Y trong 24, 12 và 9 tháng 24m 12m 9m G4 Tuoi.pca GTVpca -0.11 -0.13 -0.15 GioiTinh.pca Kiếm định PH 0.0391 0.0478 0.1045 C index 0.58 0.61 .63 G7 Tuoi.pca -0.41 -0.42 38 GTVpca GioiTinh.pca 0.26 0.23 4 Kiếm định PH 0.03188 0.02014 0.3364 C index 0.59 0.63 0.65 27Taïp chí nghieân cöùu Taøi chính keá toaùn NGHIEÂN CÖÙU TRAO ÑOÅISoá 09 (194) - 2019 hạn mức vay (VNĐ), tổng giá trị ứng trước (VNĐ), số dư lần cuối (VNĐ), giá trị khoản vay (VNĐ), số dư trung bình tháng (VNĐ), giới tính (Nam, nữ). Nguy cơ vỡ nợ thấp với nhóm khách hàng có tổng thời gian trễ hạn dưới 3 tháng và nguy cơ vỡ nợ cao với nhóm khách hàng có tổng thời gian trễ hạn cao và hạn mức vay nhỏ hơn 600 triệu và tổng giá trị ứng trước cao hơn 300 triệu. VII. Kết luận Hai mô hình hồi quy Logistic và mô hình Cox ước lượng được xác suất vỡ nợ của từng khách hàng và của từng nhóm khách hàng, xác suất vỡ nợ của hồ sơ sẽ thay đổi theo thời gian kể từ thời điểm bắt đầu vay. Mô hình Cox với giả thuyết mỗi nhóm có một nguy cơ riêng là phù hợp để tính xác suất và thời gian trả nợ trễ hạn lần 1. Trong lần trễ hạn đầu tiên, hồ sơ có giá trị vay lớn khả năng trễ hạn lần 1 lại thấp hơn hồ sơ có giá trị vay nhỏ. Hình 9 cho thấy cây quyết định phân nhóm khách hàng thành 12 nhóm. Trong đó chỉ tiêu phân nhóm giúp phân biệt khách hàng có nguy cơ vỡ nợ thấp và cao là TongThoiGianTreHan. Thấy được mối quan hệ chặt chẽ giữa các chỉ tiêu, phân nhóm bằng cây quyết định sử dụng suy diễn cho kết quả tin cậy. Mười hai nhóm khách hàng có đặc điểm phân biệt rõ ràng và có nguy cơ vỡ nợ khác biệt nhau. Tài liệu tham khảo: Paul Murrell, “R Graphics”, NXB Chapman & Hall/CRC. (2005) Yanagimoto, Kamakura, “The maximum full and partial like-lihood estimators in the proportional hazard model”, Annals of the Institute of Statistical Mathematics, 36, tr.363-373. COX, D. R, “Regression models and life tables (with discussion)”, Journal of Royal Statistical Society:B, 34, tr.187- 220. COX, D. R, Partial likelihood, Biometrika, 62, tr.269-276. Kaplan, E. L. and Meier , P., Nonparametric estimation from incomplete observations, Journal of American Statistical Association, 53, tr.457-481 (1958). Ross Gayler, “Credit Scoring using R. RPubs”. G. Rodriguez, Revised, “Logit Models for Binary Data”. Badr Missaoui, “Statistics in Retail Finance”, Room 545, Huxley Building. Edward S. Venter, “Probability of Default Calibration for Low Default Portfolios: Revisiting the Bayesian Approach”. Master thesis of Commerce in Financial Risk Management, Faculty of Economics and Business Sciences, Stellenbosch University, South Africa (2016). Hình 6. Đồ thị xác suất vỡ nợ của hai hồ sơ vay có giá trị vay tối đa và tối thiểu trong 2 nhóm G4, G7, thời hạn vay 24 tháng Hình 7. Đồ thị xác suất vỡ nợ và đường rủi ro cơ sở của hai hồ sơ vay có giá trị vay tối đa và tối thiểu trong 2 nhóm G3, G4, thời hạn vay 12 tháng Đường sống sót 8 nhóm được thể hiện ở hình 3, 4, 5. Kết quả kiểm định cho thấy chỉ có nhóm G4 và G7 là có ý nghĩa, phù hợp với mô hình Cox. Mô hình hồi quy Logistic và mô hình Cox đều tính được xác suất vỡ nợ và phân loại các khách hàng thành các nhóm có cùng mức nguy cơ rủi ro. Hình 7 cho thấy với nhóm G4 (tuổi 18-55, vay 130M-200M), khoản vay tối thiểu có xác suất vỡ nợ cao hơn khoản vay tối đa. Trong nhóm G7(vay 2.8B- 6.4B), khoản vay tối đa có xác suất vỡ nợ cao hơn khoản vay tối thiểu. Kết Kết quả được coi là phù hợp vì trong nhóm G7 khoản vay lớn thì khả năng vỡ nợ là cao hơn còn trong nhóm G4 khoản vay nhỏ thuộc về các đối tượng nhỏ lẻ có xác suất vỡ nợ cao hơn khoản vay vừa phải. Cây quyết định phân nhóm khách hàng theo các chỉ tiêu phân nhóm. Dữ liệu được sử dụng là dữ liệu Logistic của 6 nhóm vay (hạn mức vay < 2.67B và giá trị vay từ 276M - 800M) với 76365 hồ sơ chia làm 2 tập: train set và test set. Các biến quan sát bao gồm: Tổng thời gian trễ hạn (ngày), tổng số tiền đã tiêu (VNĐ), hạn mức vay (VNĐ), tổng giá trị ứng trước (VNĐ), số dư lần cuối (VNĐ), giá trị khoản vay (VNĐ), số dư trung bình tháng (VNĐ), giới tính (Nam, Nữ). Hình 8. Kết quả Conditional inference Trees Nguy cơ vỡ nợ thấp với nhóm khách hàng có tổng thời gian trễ hạn dưới 3 thá g và nguy cơ vỡ ợ cao với nhóm khách hàng có tổng thời gian trễ hạn cao và hạ mức vay nhỏ hơn 600 triệu và tổng giá trị ứng trước cao hơn 300 triệu. VII. Kết luận Hai mô hình hồi quy Logistic và mô hình Cox ước lượng được xác suất vỡ nợ của từng khách hàng và của từng nhóm khách hàng, xác suất vỡ nợ của hồ sơ sẽ thay đổi theo thời gian kể từ thời điểm bắt đầu vay. Mô hình Cox với giả thuyết mỗi nhóm có một nguy cơ riêng là phù hợp để tính xác suất và thời gian trả nợ trễ hạn lần 1. Trong lầ tr đầu tiên, hồ sơ có giá trị vay lớn khả năng trễ hạn lần 1 lại thấp hơn hồ sơ có giá trị vay nhỏ. Hình 9 cho thấy cây quyế định phân nhóm khách hàng thành 12 nhóm. Trong đó chỉ tiêu phân nhóm giúp phân biệt khách hàng có nguy cơ vỡ nợ thấp và cao là TongThoiGianTreHan. Thấy được mối quan hệ chặt chẽ giữa các chỉ tiêu, phân nhóm bằng cây quyết định sử dụng suy diễn cho kết quả tin cậy. Mười hai nhóm khách hàng có đặc điểm phân biệt rõ ràng và có nguy cơ vỡ nợ khác biệt nhau. Tài liệu tham khảo: [1] Paul Murrell, “R Graphics”, NXB Chapman & Hall/CRC. (2005) [2] Yanagimoto, Kamakura , “The maximum full and partial like-lihood estimators in the proportional hazard mode”l, Annals of the Institute of Statistical Mathematics, 36, tr.363-373. [3] COX, D. R, “Regression models and life tables (with discus¬sion)”, Journal of Royal Statistical Society:B, 34, tr.187-220. [4] COX, D. R, Partial likelihood, Biometrika, 62, tr.269-276. [5] Kaplan, E. L. and Meier , P., Nonparametric estimation from incomplete observations, Journal of American Statistical Association, 53, tr.457-481 (1958). [6] Ross Gayler, “Credit Scoring using R. RPubs”. [7] G. Rodriguez, Revised, “Logit Models for Binary Data”. [8] Badr Missaoui, “Statistics in Retail Finance”, Room 545, Huxley Building.
File đính kèm:
mo_hinh_hoi_quy_logistics_va_mo_hinh_cox_trong_uoc_luong_xac.pdf