Mô hình chấm điểm tín dụng dựa trên sự kết hợp giữa mô hình Cây quyết định, Logit, K láng giềng gần nhất và Mạng thần kinh nhân tạo

Tìm kiếm một mô hình chấm điểm tín dụng hiệu quả đang là một vấn

đề quan trọng khi tình trạng nợ xấu đã và đang ảnh hưởng nghiêm

trọng tới hoạt động của các tổ chức tín dụng (TCTD) tại Việt Nam.

Vài thập kỉ qua đã có nhiều nghiên cứu trong lĩnh vực thống kê tại

các nước phát triển được tiến hành nhằm nâng cao tính chính xác

của các mô hình chấm điểm tín dụng. Tuy nhiên, tại Việt Nam chưa

có nhiều nghiên cứu về lĩnh vực này. Các nghiên cứu chủ yếu sử dụng

các mô hình truyền thống như Logit (LR), phân tích phân biệt (DA).

Một vài nghiên cứu có đề cập tới các mô hình học máy như cây quyết

định (DT), K láng giềng gần nhất (KNN), mạng thần kinh nhân tạo

(ANN). Bài nghiên cứu hướng đến việc xây dựng, đánh giá hiệu quả

của các mô hình kết hợp DT_LR, DT_KNN, DT_ANN, đây là một xu

hướng trong các nghiên cứu ứng dụng nhằm tăng cường độ chính

xác cho các mô hình chấm điểm tín dụng.

pdf 10 trang phuongnguyen 9160
Bạn đang xem tài liệu "Mô hình chấm điểm tín dụng dựa trên sự kết hợp giữa mô hình Cây quyết định, Logit, K láng giềng gần nhất và Mạng thần kinh nhân tạo", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Mô hình chấm điểm tín dụng dựa trên sự kết hợp giữa mô hình Cây quyết định, Logit, K láng giềng gần nhất và Mạng thần kinh nhân tạo

Mô hình chấm điểm tín dụng dựa trên sự kết hợp giữa mô hình Cây quyết định, Logit, K láng giềng gần nhất và Mạng thần kinh nhân tạo
46
© Học viện Ngân hàng
ISSN 1859 - 011X 
Tạp chí Khoa học & Đào tạo Ngân hàng
Số 193- Tháng 6. 2018
Mô hình chấm điểm tín dụng dựa trên sự kết hợp 
giữa mô hình Cây quyết định, Logit, K láng giềng 
gần nhất và Mạng thần kinh nhân tạo
 QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP 
Nguyễn Tiến Hưng
Lê Thị Huyền Trang
Ngày nhận: 03/06/2018 Ngày nhận bản sửa: 06/06/2018 Ngày duyệt đăng: 18/06/2018
Tìm kiếm một mô hình chấm điểm tín dụng hiệu quả đang là một vấn 
đề quan trọng khi tình trạng nợ xấu đã và đang ảnh hưởng nghiêm 
trọng tới hoạt động của các tổ chức tín dụng (TCTD) tại Việt Nam. 
Vài thập kỉ qua đã có nhiều nghiên cứu trong lĩnh vực thống kê tại 
các nước phát triển được tiến hành nhằm nâng cao tính chính xác 
của các mô hình chấm điểm tín dụng. Tuy nhiên, tại Việt Nam chưa 
có nhiều nghiên cứu về lĩnh vực này. Các nghiên cứu chủ yếu sử dụng 
các mô hình truyền thống như Logit (LR), phân tích phân biệt (DA). 
Một vài nghiên cứu có đề cập tới các mô hình học máy như cây quyết 
định (DT), K láng giềng gần nhất (KNN), mạng thần kinh nhân tạo 
(ANN). Bài nghiên cứu hướng đến việc xây dựng, đánh giá hiệu quả 
của các mô hình kết hợp DT_LR, DT_KNN, DT_ANN, đây là một xu 
hướng trong các nghiên cứu ứng dụng nhằm tăng cường độ chính 
xác cho các mô hình chấm điểm tín dụng. 
Từ khóa: Chấm điểm tín dụng, Cây quyết định, K láng giềng gần 
nhất, Mạng thần kinh nhân tạo
1. Giới thiệu 
hấm điểm tín dụng được hiểu 
một cách rộng rãi là việc đánh 
giá rủi ro tiềm tàng của các đối 
tượng đi vay theo một thang 
điểm nhất định. Mô hình chấm 
điểm tín dụng là một công cụ giúp cho nhà 
quản trị biết được khi nào họ nên cho vay, với 
số lượng tiền là bao nhiêu và họ cần phải xây 
dựng những chiến lược gì để gia tăng được lợi 
nhuận trong khi vẫn quản lý hiệu quả các rủi ro 
đi kèm. Việc xây dựng được một công cụ chấm 
điểm hiệu quả đem lại rất nhiều lợi ích cho các 
TCTD:
 ○ Cải thiện dòng vốn 
 ○ Bảo đảm tài sản thế chấp là phù hợp
 ○ Giảm các khoản lỗ tín dụng
 QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
47Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018
 ○ Giảm chi phí phân tích tín dụng
 ○ Giảm thời gian đưa ra quyết định cấp tín 
dụng
 ○ Đa dạng hoá các sản phẩm tín dụng theo các 
phân cấp rủi ro khác nhau
 ○ Hiểu được hành vi của khách hàng.
Chấm điểm tín dụng đo lường định lượng rủi ro 
tiềm tàng của khách hàng bằng cách phân tích 
dữ liệu cá nhân để tìm ra khả năng vỡ nợ của họ 
với khoản vay trong tương lai. Hoạt động này 
cũng có thể được hiểu như là một kỹ thuật khai 
phá dữ liệu, tìm kiếm các quy luật của các dữ 
liệu lịch sử và áp dụng đưa ra quyết định cấp 
tín dụng cho các khách hàng trong tương lai. 
Các kĩ thuật khai phá dữ liệu sử dụng trong lĩnh 
vực chấm điểm tín dụng được phát minh từ thập 
niên 50 thế kỉ trước (Lando, 2004). Đến nay, đã 
có rất nhiều các kĩ thuật được phát triển và ứng 
dụng, trong đó phổ biến nhất phải kể đến các 
kĩ thuật như: Phân tích phân biệt (DA), logit, 
K láng giềng gần nhất, mạng thần kinh nhân 
tạo (ANN) (Thomas và cộng sự, 2009; Abdou, 
2011). Sự bùng nổ của công nghệ thông tin 4.0 
cùng với sự phát triển của trí tuệ thông minh, 
thì việc tập trung vào khai phá dữ liệu sử dụng 
các kỹ thuật trí tuệ nhân tạo đang là xu hướng 
trong lĩnh vực chấm điểm tín dụng.
Bên cạnh sự phát triển của các kĩ thuật phân 
loại đơn lẻ, đã có nhiều nghiên cứu tiến hành 
đánh giá hiệu quả của việc kết hợp các thuật 
toán đơn lẻ nhằm tối đa hoá khả năng dự báo 
trong các mô hình chấm điểm tín dụng. Một số 
nghiên cứu của Kim và cộng sự (2001), Ahn và 
cộng sự (2009), Luo và cộng sự (2009) đề cập 
đến việc sử dụng các kĩ thuật phân loại dữ liệu 
như Seft-Organzing Map (SOM), thuật toán 
di truyền (GA), thuật toán phân 
nhóm (K-MC), sau đó sử dụng 
dữ liệu mới này cho các mô hình 
chấm điểm như phân tích phân biệt 
(DA), Logit (LR), K-NN, ANN. 
Một số nghiên cứu khác của Lee 
và cộng sự (2005), Li và cộng sự 
(2010) kết hợp các kĩ thuật phân 
loại, trong đó kết quả dự báo của 
kĩ thuật này sẽ được sử dụng như 
là một nhân tố đầu vào cho kĩ thuật 
khác. Đã có rất nhiều cách kết 
hợp hiệu quả đã được tìm ra, tuy nhiên càng 
kết hợp nhiều kỹ thuật thì việc giải thích sự tác 
động giữa các dữ liệu đầu vào đến kết quả điểm 
được chấm càng khó khăn. Bài nghiên cứu sẽ 
xây dựng, đánh giá hiệu quả của mô hình kết 
hợp các mô hình DT_LR, DT_KNN, DT_ANN, 
nhằm tăng cường độ chính xác cho các mô hình 
chấm điểm tín dụng.
2. Các mô hình xếp hạng tín dụng 
2.1. Mô hình Logit
Mô hình Logit là mô hình hồi quy với biến phụ 
thuộc (Y) là biến nhị phân, chỉ nhận hai giá trị 
là 0 và 1; các biến độc lập có thể là biến nhị 
phân, biến rời rạc hoặc biến liên tục. Trong mô 
hình xếp hạng tín dụng, biến phụ thuộc Y nhận 
giá trị 0 khi khách hàng không trả được nợ và 
1 khi khách hàng trả được nợ (Lee và cộng sự, 
2000). Các biến độc lập đại diện cho các thông 
tin định tính và định lượng của khách hàng như 
thu nhập, độ tuổi, giới tính, trình độ học vấn...
Sau khi hồi quy mô hình Logit, thu được Ŷ = α 
+ β
1
X
1
 + β
2
X
2
 + ... + β
k
X
k
 là giá trị ước lượng 
của Y. Khi đó, xác suất trả nợ của khách hàng 
được tính bằng công thức sau:
P = 1/ (1 + e−Y)
Giá trị P nhận được trong khoảng (0,1) được 
so sánh với các ngưỡng mà ngân hàng đặt ra 
để xếp hạng khách hàng. Tuy nhiên, trong bài 
nghiên cứu này, để dễ dàng hơn trong việc so 
sánh hiệu quả của các mô hình, giá trị ngưỡng 
để phân loại khách hàng được chọn là 0,5. Điều 
này có nghĩa rằng nếu giá trị P < 0,5, khách 
hàng sẽ được dự báo vỡ nợ, và ngược lại nếu P 
Hình 1. Cây quyết định (Decision tree)
Nguồn: Abdou. (2011)
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP 
48 Tạp chí Khoa học & Đào tạo Ngân hàngSố 193- Tháng 6. 2018
≥ 0,5, khách hàng sẽ được dự báo trả được nợ.
2.2. Cây quyết định (Decision Tree- DT)
Cây quyết định (DT) là một kiểu mô hình phân 
lớp các quan sát dựa vào dãy các luật. Mô hình 
này bao gồm một nút gốc (Root node), các nút 
bên trong (Internal node) và nút lá (Leaf node). 
Mỗi một nút trong DT tương ứng với một biến; 
đường nối giữa nó với nút con của nó thể hiện 
một giá trị cụ thể cho biến đó (đây chính là điều 
kiện hay luật để phân nhánh cho mỗi node). 
Mỗi nút lá đại diện cho giá trị dự đoán của biến 
mục tiêu; các giá trị cho trước của các biến 
được biểu diễn bởi đường đi từ nút gốc tới nút 
lá đó (Hình 1).
Cây quyết định được xây dựng bằng cách phân 
tách thuộc tính các giá trị tại mỗi nút dựa trên 
một thuộc tính đầu vào. Quá trình phân lớp sử 
dụng các thuộc tính phân tách được thực hiện 
liên tục cho tới khi gặp các nút lá (giá trị mục 
tiêu). Tập hợp các luật đường đi từ nút gốc tới 
nút lá sẽ xác định cho chúng ta các luật quyết 
định mà hàm mục tiêu trả về giá trị là mức độ 
rủi ro tương ứng với khách hàng. 
DT là một phương pháp phân lớp rất hiệu quả 
và dễ hiểu. Tuy nhiên, hiệu quả phân lớp của 
cây quyết định phụ thuộc rất lớn vào dữ liệu 
huấn luyện (training data). Do vậy, việc sử 
dụng một bộ dữ liệu lớn về lịch sử vay nợ của 
khách hàng là rất cần thiết để xây dựng mô hình 
DT đáng tin cậy.
2.3. K Láng giềng gần nhất (K-Nearest 
Neighbor- KNN) 
KNN là phương pháp học máy để phân lớp các 
đối tượng dựa vào khoảng cách gần nhất giữa 
đối tượng cần xếp lớp và tất cả các đối tượng 
trong dữ liệu huấn luyện. Lớp của một điểm dữ 
liệu mới (hay phân loại khách hàng) được suy 
ra trực tiếp từ K điểm dữ liệu gần nhất trong 
dữ liệu huấn luyện. Lớp này có thể được quyết 
định theo lớp có số lượng điểm (trong K điểm 
gần nhất) nhiều nhất. 
Từ Hình 2 có thể thấy, nếu chọn số điểm gần 
nhất để phân loại là 3 thì xung quanh điểm cần 
phân lớp có 3 điểm trong đó 1 điểm thuộc lớp 1 
và 2 điểm thuộc lớp 2. Với số điểm thuộc lớp 2 
nhiều hơn, điểm cần phân lớp được đưa vào lớp 
số 1. Tương tự như vậy, nếu lựa chọn số điểm 
gần nhất k=5 thì có năm điểm xung quanh điểm 
cần phân lớp, trong đó có 3 điểm thuộc lớp số 1 
và 2 điểm thuộc lớp 2. Nếu theo dữ liệu này thì 
điểm cần phân lớp sẽ thuộc lớp số 1. 
Trên thực tế dữ liệu cần phân loại có nhiều 
thuộc tính trong đó mỗi thuộc tính tương ứng 
với một chiều không gian, do vậy khi tính 
khoảng cách gần nhất cần tính khoảng cách 
vector trong không gian đa chiều với công thức 
khoảng cách Euclidean:
Hình 2. K Láng giềng gần nhất (K-Nearest neighbor- KNN)
Nguồn: Marinakis và cộng sự (2008)
 QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
49Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018
Trong đó: x, y là 2 điểm cần xác định khoảng 
cách; n là số chiều không gian (số thuộc tính 
của biến mục tiêu). 
2.4. Mô hình Mạng Nơ ron nhân tạo (ANN)
Nơ ron nhân tạo
Ý tưởng về mạng nơ ron nhân tạo 
(ANN) được hình thành từ những quan 
sát bộ não con người với chức năng cơ 
bản là tiếp nhận thông tin, xử lý thông 
tin và đưa ra kết quả. Cụ thể, bộ não 
được cấu thành từ các nơ ron liên kết 
với nhau. Mỗi nơ ron tiếp nhận thông 
tin đầu vào, xử lý và xuất thông tin đầu 
ra. Vì các nơ ron có sự liên kết phức tạp 
với nhau nên thông tin đầu ra của nơ 
ron này sẽ là thông tin đầu vào của nơ 
ron khác. Đến khi các thông tin được 
xử lý thỏa mãn theo các yêu cầu thì não 
bộ sẽ ngừng quá trình này lại và đưa ra 
kết quả cuối cùng. 
Sự tương tác phức tạp của hàng tỉ nơ 
ron được mô hình hóa thành các mô 
hình nơ ron nhân tạo (ANN). Về cơ 
bản, ANN cấu tạo bởi các nơ ron nhân 
tạo hay còn được gọi là các “node”. 
Hình 3 mô tả cơ chế hoạt động của một 
node.
Các biến số sẽ được các node tiếp nhận 
theo các trọng số khác nhau thể hiện 
sự quan trọng của các nhân tố đầu vào 
này. Các biến số đầu vào sau khi nhân 
với các trọng số sẽ được lấy tổng để 
trở thành 1 đầu vào duy nhất. Tại các node sẽ 
có các hàm kích hoạt để tính toán các kết quả 
đầu ra. Trong nghiên cứu này, để có sự tương 
đồng với mô hình logit, hàm kích hoạt sigmoid 
sẽ được dùng để xây dựng mô hình ANN. Hàm 
Hình 3. Cơ chế hoạt động nơ ron nhân tạo (node)
Nguồn: Lee và cộng sự (2000)
Hình 4. Mô hình mạng nơ ron đa lớp truyền thẳng 
(MLP)
Nguồn: Lee và cộng sự (2005)
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP 
50 Tạp chí Khoa học & Đào tạo Ngân hàngSố 193- Tháng 6. 2018
sigmoid được mô tả bởi công thức S(x) = 1/ 
(1- ), do đó, với mọi giá trị đầu vào x nhận giá 
trị từ -∞ đến +∞ thì kết quả đầu ra nằm trong 
khoảng (0,1) 
Mạng Nơ ron nhân tạo
Một mạng nơ ron đầy đủ bao gồm 3 lớp với tên 
gọi lớp đầu vào (input layer), lớp ẩn (hidden 
layer) và lớp đầu ra (output layer). Trong đó 
một mạng nơ ron có thể có nhiều hơn một lớp 
ẩn, tuy nhiên, Lee và cộng sự (2005) chỉ ra rằng 
mạng nơ ron một lớp ẩn có thể giải quyết hầu 
hết các bộ số liệu kinh tế phức tạp. Mỗi lớp 
được cấu tạo từ một cho đến nhiều node. Trong 
lịch sử phát triển của mạng nơ ron nhân tạo, 
nhiều kiểu kiến trúc mạng quy định kết nối giữa 
các node được hình thành, tuy nhiên, bài nghiên 
cứu sử dụng mạng nơ ron truyền thẳng đa lớp 
(MLP), một trong những mạng được sử dụng 
phổ biến và đem lại hiệu quả cao nhất.
Cấu trúc của mạng truyền thẳng đa lớp được 
mô tả trong Hình 4. Số lượng node trong một 
lớp và số lượng lớp phụ thuộc vào sự phức tạp 
của cơ sở dữ liệu đầu vào và yêu cầu xử lý. Các 
node của lớp trước sẽ được truyền thẳng và kết 
nối tới tất cả node của lớp sau. Thông tin lan 
truyền trong mạng sẽ được gắn với các trọng số 
khác nhau.
Các trọng số được ước lượng bằng thuật 
toán lan truyền ngược (Back-Propagation 
alogorithm), lần đầu tiên được giới thiệu bởi 
Rumelhart và cộng sự (1986). Thuật toán này 
điều chỉnh liên tục các trọng số của các kết nối 
trong mạng để tối thiểu hóa sự khác biệt giữa 
giá trị đầu ra ước lượng và giá trị đầu ra thực 
tế, quá trình này còn được gọi là quá trình huấn 
luyện mạng. Cụ thể, trong giai đoạn đầu tiên 
khi hình thành mạng MLP, các trọng số được 
khởi tạo ngẫu nhiên. Các giá trị đầu ra của 
mạng được thiết lập thông qua giá trị bộ giữ 
liệu đầu vào. Sự chênh lệch giữa giá trị đầu ra 
ước lượng và đầu ra thực tế, hay còn gọi là sai 
số của mạng được xác định bởi công thức: 
Trong đó f(X
i
) là ước lượng đầu ra thứ i, Yj là 
giá trị đầu ra thực tế và p là số trường hợp trong 
bộ dữ liệu. Sau mỗi lần huấn luyện mạng sai số 
sẽ được lan truyền ngược lại và các trọng số sẽ 
được điều chỉnh để giảm sai số. Quá trình huấn 
luyện sẽ dừng lại khi khi mạng đạt được sai số 
nhỏ nhất, hay nói cách khác, mạng MLP đạt 
được cấu trúc hợp lý nhất để hiểu về bộ dữ liệu. 
3. Đề xuất Mô hình kết hợp 
Phương pháp kết hợp này dùng để cải thiện 
hiệu suất và độ chính xác phân loại. Hệ thống 
phân loại được chia làm nhiều lớp dựa trên sự 
kết hợp của hai hay nhiều các mô hình phân 
loại để đạt được hiệu suất cao hơn. Mục tiêu 
của các mô hình kết hợp là sẽ điều chỉnh các 
tập dữ liệu huấn luyện, xây dựng các tập dữ liệu 
đào tạo mới trong đó có sử dụng được kết quả 
(thế mạnh dự báo) của các mô hình khác. Nhiều 
nghiên cứu chỉ ra rằng dữ liệu huấn luyện có 
thể không cung cấp đủ thông tin để lựa chọn 
một mô hình phân loại tốt nhất. Việc sử dụng 
các mô hình phân loại kết hợp có thể bù trừ 
giảm thiểu những hạn chế của các mô hình đơn 
lẻ.
Một số nghiên cứu trước đây của Peter và cộng 
sự (2015), Radall (2017) đã tiến hành kết hợp 
mô hình DT và mô hình mạng ANN. Sự kết hợp 
này được đánh giá là hiệu quả khi hai mô hình 
được kết hợp có chung khả năng là xử lý khối 
lượng dữ liệu lớn. Mô hình DT với ưu điểm là 
khả năng giải thích biến rõ ràng giúp cải thiện 
khả năng giải thích của mô hình chấm điểm tín 
dụng khi kết hợp với các mô hình “hộp đen” 
như ANN.
Mô hình đề xuất trong bài nghiên cứu là sự 
kết hợp giữa mô hình DT và các mô hình LR, 
KNN, ANN nhằm so sánh hiệu quả giữa mô 
hình kết hợp với các kĩ thuật hiện đại và truyền 
thống. Quy trình kết hợp được mô tả trong Hình 
5, trong đó mô hình DT được thiết lập dựa trên 
bộ dữ liệu nghiên cứu. Kết quả từ mô hình DT 
bao gồm dự báo về phân loại khách hàng và xác 
xuất rủi ro được xem như 2 biến mới để kết hợp 
với bộ dữ liệu đã có làm nhân tố đầu vào cho 
các mô hình được kết hợp cùng.
4. Dữ liệu nghiên cứu
 QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
51Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018
Bài nghiên cứu sử dụng dữ liệu thông tin về 
các khoản vay tiêu dùng và kinh doanh cá nhân 
được trích xuất trực tiếp từ cơ sở dữ liệu tại một 
ngân hàng thương mại Nhà nước trong khoảng 
thời gian từ năm 2009 đến 2014. Sau khi loại 
bỏ các trường hợp thiếu sót và cân nhắc giữa số 
lượng đặc điểm khách hàng và số lượng khách 
hàng, bộ dữ liệu cuối cùng được sử dụng bao 
gồm thông tin về 15.470 khách hàng cá nhân 
với 19 đặc điểm (trong đó 18 đặc điểm được ký 
hiệu thành các biến từ x
1
 đến x
18
, đặc điểm thứ 
19 là tình trạng nợ, tương ứng với cột “Tỷ lệ”- 
Bảng 1).
Các khoản nợ cá nhân được phân loại thành 
12.118 khoản nợ tốt (hoàn trả trong hạn hoặc 
thời gian quá hạn dưới 90 ngày) chiếm tỉ trọng 
78,3% và 3.352 khoản nợ xấu (quá hạn từ 90 
ngày trở lên) chiếm tỉ trọng 21,7%. Có một lưu 
ý rằng, nợ xấu và nợ tốt trong bài nghiên cứu 
này có sự khác biệt với nợ đủ tiêu chuẩn và nợ 
xấu theo quy định phân loại nợ của Ngân hàng 
Nhà nước Việt Nam, và những tỉ lệ này không 
đại diện cho tỉ lệ nợ xấu và nợ đủ tiêu chuẩn 
của toàn bộ hệ thống ngân hàng mà tác giả 
nghiên cứu.
Bảng 1 mô tả về các dữ liệu khách hàng được 
đưa vào xây dựng mô hình chấm điểm tín dụng, 
mỗi đặc tính được phân chia thành các nhóm 
với tỉ trọng từng nhóm. Bảng thống kê cho thấy 
cơ sở dữ liệu có sự đa dạng về thông tin khách 
hàng và phù hợp trong việc xây dựng các mô 
hình xếp hạng tín dụng. 
5. Kết quả nghiên cứu 
5.1. Kết quả của các mô hình đơn lẻ 
Nguồn: Tác giả đề xuất
Hình 5. Cấu trúc của mô hình kết hợp
Bảng 1. Mô tả dữ liệu 
Biến số Phân nhóm và tỉ lệ nợ xấu trong mỗi nhóm 
Đặc điểm khách 
hàng Nhóm
Tỉ lệ 
(%) Nhóm
Tỉ lệ 
(%) Nhóm
Tỉ lệ 
(%) Nhóm
Tỉ lệ 
(%)
Tuổi (X1) 0 đến 30 6,90 30 đến 45 49,60 45 đến 60 40,20 Trên 60 3,30
Giới tính (X2) Nữ 30,30 Nam 67,90 
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP 
52 Tạp chí Khoa học & Đào tạo Ngân hàngSố 193- Tháng 6. 2018
Để đảm bảo độ tin cậy và tính đại diện của các 
kết quả phân loại, các mô hình được thực hiện 
lặp lại 10 lần và kết quả phân loại cuối cùng 
là trung bình kết quả của các lần chạy trước. 
Kết quả của các mô hình đơn lẻ cho thấy mô 
hình ANN có độ chính xác cao nhất khi phân 
loại các khoản nợ xấu với tỷ lệ phân loại đúng 
52,47% trong khi mô hình KNN kém hiệu quả 
nhất khi chỉ phân loại đúng được 36,28% các 
khoản nợ xấu. Đối với các khoản nợ tốt thì 
Biến số Phân nhóm và tỉ lệ nợ xấu trong mỗi nhóm 
Đặc điểm khách 
hàng Nhóm
Tỉ lệ 
(%) Nhóm
Tỉ lệ 
(%) Nhóm
Tỉ lệ 
(%) Nhóm
Tỉ lệ 
(%)
Trình độ (X3)
Dưới trung 
học 34,40 Trung học 35,30
Trung cấp, 
và trên 30,30 
Sở hữu nhà (X4) không 4,50 có 95,50 
Người phụ thuộc (X5) 0 đến 1 35,20 Trên 1 64,80 
Hôn nhân (X6) Độc thân 8,80
Đã có gia 
đình 91,20 
Quan hệ với gia đình 
(X7)
Xấu 2,10 Tốt 97,90
Năm làm việc (X8) 0 đến 5 8,80 5 đến 10 15,90 Trên 10 75,30 
Nghề nghiệp (X9)
Lao động 
không đào tạo 16,80
Lao động 
được đào tạo 52,50
Văn phòng, 
CNVC 30,70 
Bảo hiểm nhân thọ 
(X10)
Không 90,90 Có 9,10 
Thu nhập hàng tháng 
(X11) (triệu VND)
0 đến 3,5 11,30 3,5 đến 10 39,90 Trên 10 48,70 
Tài khoản thanh toán 
(X12)
Không 46,40 Có 53,60 
Tài khoản tiết kiệm 
(X13)
Không 95,30 Có 4,70 
Đặc điểm khoản vay
Lãi suất (X14) Thấp 4,90 Cao 95,10 
Thời hạn (X15) (ngày) 0 đến 185 36,40 185 đến 365 41,00 Trên 365 22,60 
Giá trị khoản vay (X16) 0 đến 50 37,10 50 đến 100 22,60 100 đến 200 18,30 Trên 200 22,00
Mục đích vay (X17) Tiêu dùng 9,00 Kinh doanh 91,00 
Phương thức trả (X18) Một lần 78,40 Từng phần 21,60 
Tình trạng nợ (X19) Nợ xấu 21,7 Nợ tốt 78,3 
Bảng 2. Kết quả phân loại của các mô hình đơn lẻ
Mô 
hình 
Mẫu huấn luyện (30%)
Mẫu kiểm tra (70%)
Tổng thể 
CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% 
DT 37,60 89,49 78,24 38,91 87,42 76,90 38,52 88,04 77,31
LR 39,50 92,94 81,36 38,89 93,94 82,01 39,07 93,64 81,81
KNN 35,54 97,94 84,42 36,59 96,83 83,78 36,28 97,16 83,97
ANN 51,97 94,33 85,15 52,69 94,02 85,06 52,47 94,11 85,09
Ghi chú: CCB%: Tỷ lệ phân loại đúng các khoản nợ xấu; CCG%: Tỷ lệ phân loại đúng các khoản nợ tốt
Nguồn: Tác giả tính toán bằng phần mềm SPSS và NeuroSolutions
 QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP
53Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018
mô hình được coi là hiệu quả nhất là KNN với 
97,16% khoản nợ loại này được phân loại chính 
xác.
5.2. Kết quả các mô hình kết hợp
Kết quả phân loại tổng thể cho thấy rõ rằng 
phương pháp kết hợp đem lại kết quả dự báo tốt 
hơn với cả 3 mô hình (Bảng 4). Trong khi mô 
hình kết hợp DT_ANN cho thấy có sự cải thiện 
trong cả kết quả phân loại các khoản nợ xấu và 
nợ tốt, thì đối với mô hình DT_LR và DT_KNN 
hiệu phân loại nợ xấu và nợ tốt thay đổi theo 
hai xu hướng ngược nhau. Tỷ lệ phân loại nợ 
xấu đúng tăng từ 8-11% cho cả ba mô hình kết 
hợp trong khi tỷ lệ phân loại nợ tốt đúng giảm 
nhẹ từ 1-2% với mô hình DT_LR và DT_KNN.
Trên thực tế, việc cải thiện khả năng dự báo các 
khoản nợ xấu đúng đem lại lợi ích lớn cho các 
ngân hàng khi so sánh với việc dự báo đúng các 
khoản nợ tốt. Quan sát tình trạng vay nợ của 
khách hàng cho thấy thiệt hại đến từ các khoản 
nợ xấu thường cao hơn nhiều lần lợi nhuận của 
một khoản nợ tốt mang lại. Đặc biệt trong bối 
cảnh hiện nay khi mà các hệ thống ngân hàng 
đang tập trung vào hoạt động quản trị rủi ro, 
giảm thiểu nợ xấu thì việc dự báo các khoản nợ 
xấu sẽ có ý nghĩa cấp thiết hơn. 
6. Kết luận 
So với nhiều nước phát triển, hoạt động chấm 
điểm tín dụng tại Việt Nam chưa nhận được 
nhiều sự quan tâm nghiên cứu. Những mô hình 
truyền thống đang được sử dụng phổ biến tại 
các ngân hàng thương mại là mô hình chuyên 
gia dựa trên kinh nghiệm và một số mô hình cổ 
điển như LDA, LR. Việc nghiên cứu áp dụng 
các mô hình mới là cần thiết để nâng cao tính 
chính xác, độ tin cậy, tính khách quan khi ra 
quyết định cho vay.
Bài nghiên cứu đã đề cập đến một hướng đi 
mới đang được nhiều học giả quan tâm, đó là 
kết hợp các kĩ thuật thống kê hiện đại nhằm 
phát huy tối đa khả năng khai phá dữ liệu của 
những công cụ này để thiết lập một mô hình 
chấm điểm tín dụng tốt nhất. Kết quả nghiên 
cứu thực nghiệm dựa trên cơ sở dữ liệu 15.470 
khách hàng cá nhân chỉ ra rằng, các mô hình 
kết hợp có khả năng phân loại nợ tốt hơn các 
mô hình đơn lẻ, đặc biệt về khả năng phân loại 
nợ xấu. Kết quả cũng chỉ ra rằng mô hình kết 
hợp DT_ANN có hiệu qủa phân loại tốt nhất và 
sự kết hợp này làm tăng độ chính xác đối với cả 
chức năng phân loại nợ xấu và nợ tốt. 
Đối với các TCTD khi áp dụng mô hình 
DT_ANN này cần phải có cơ sở dữ liệu lịch sử 
khách hàng vay lớn, đa dạng và trong khoảng 
thời gian dài. Với sự bùng nổ của cách mạng 
4.0 thì các gói dữ liệu lớn về khách hàng đang 
được chia sẻ thường xuyên giữa nhiều TCTD, 
Bảng 3. Kết quả phân loại của các mô hình kết hợp 
Mô hình 
Mẫu huấn luyện (30%)
Mẫu kiểm tra (70%)
Tổng thể 
CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% 
DT_LR 51,45 90,04 81,67 49,97 91,34 82,38 50,41 91,34 82,17
DT_KNN 45,54 96,54 85,49 46,49 95,87 85,17 46,21 95,87 85,27
DT_ANN 60,23 95,03 87,49 61,83 95,45 88,17 61,35 95,32 87,96
Nguồn: Tác giả tính toán bằng phần mềm SPSS và NeuroSolutions
Bảng 4. So sánh kết quả phân loại giữa mô hình đơn lẻ và mô hình kết hợp
Mô 
hình 
Mô hình đơn lẻ 
 Mô hình kết hợp
Chênh lệch sau kết hợp 
CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% CCB% CCG% Tổng thể% 
LR 39,07 93,64 81,81 50,41 91,34 82,17 11,34 -2,3 0,36
KNN 36,28 97,16 83,97 46,21 95,87 85,27 9,93 -1,29 1,3
ANN 52,47 94,11 85,09 61,35 95,32 87,96 8,88 1,21 2,87
Nguồn: Tác giả tính toán bằng phần mềm SPSS và NeuroSolutions
QUẢN TRỊ NGÂN HÀNG & DOANH NGHIỆP 
54 Tạp chí Khoa học & Đào tạo Ngân hàngSố 193- Tháng 6. 2018
đây là cơ hội để xây dựng các mô hình chấm 
điểm tín dụng sử dụng các kĩ thuật khai phá dữ 
liệu hiện đại như học máy, trí tuệ nhân tạo. Tuy 
Tài liệu tham khảo
1. Abdou, H. ; & Pointon, J. (2011). Credit Scoring, Statistical Techniques and Evaluation Criteria: A Review of the Literature. 
Intelligent Systems in Accounting, Finance & Management, 59-88.
2. Ahn, H.; Kim, K.-J. (2009). Bankruptcy prediction modeling with hybrid case-based reasoning and genetic algorithms 
approach. Appl. Soft Comput. 9, 599–607.
3. Kim, K.S.; Han, I. (2001). The cluster-indexing method for case based reasoning using self-organizing maps and learning 
vector quantization for bond rating cases. Expert Syst, 147–156.
4. Lando, D. (2004). Credit risk modeling: Theory and applications, Princeton Series in Finance; Princeton University Press: 
Princeton, NJ, USA.
5. Lee, T. H.; Jung, S. (2000). Forecasting creditworthiness: Logistic vs. artificial neural net. The Journal of Business 
Forecasting Methods and Systems 18: 28–30
6. Lee, T.S.; Chen, I.F. (2005). A two-stage hybrid credit scoring model using artificial neural networks and multivariate 
adaptive regression splines. Expert Syst, 743–752.
7. Li, J.; Wei, L.; Li, G.; Xu, W. (2011). An evolution strategy-based multiple kernels multi-criteria programming approach: The 
case of credit decision making. Decis. Support Syst, 292–298.
8. Luo, S.-T.; Cheng, B.-W.; Hsieh, C.-H. (2009). Prediction model building with clustering-launched classification and support 
vector machines in credit scoring. Expert Syst,7562–7566.
9. Marinakis, Y.; Marinaki, M.; Doumpos, M.; and Matsatsinis, N. (2008). Constantin Zopounidis, Optimization of nearest 
neighbor classifiers via metaheuristic algorithms for credit risk assessment. Journal of Global Optimization 42(2), 279-293.
10. Peter, K.; Madalina, F.; Antonio, C.; Samuel, R. (2015) Deep neural decision forests. In IEEE International Conference on 
Computer Vision, 1467–1475.
11. Rumelhart, D.; Hinton, G.; & Williams, R. (1986). Learning representations by back-propagating errors. Nature, 533-536.
12. Radall, B (2017). Neural Decision Trees; https://arxiv.org/pdf/1702.07360.pdf
13. Thomas, L.C.; Edelman, D.B.; Crook, J.N. (2002). Credit Scoring and its Applications, SIAM; Monographs on Mathematical 
Modeling and Computation; SIAM: Philadelphia, PA, USA.
Thông tin tác giả
Nguyễn Tiến Hưng, Thạc sỹ
Phòng Thanh tra- Quản lý chất lượng, Học viện Ngân hàng
Email: hungnguyen@hvnh.edu.vn
Lê Thị Huyền Trang, Thạc sỹ
Khoa Quản trị kinh doanh, Học viện Ngân hàng
Email: tranglth@hvnh.edu.vn
Summary
Credit scoring model based on Decision tree, Logit, K-nearest neighbor and neural network
Credit scoring models have been widely studied in academic world and the business community. Over the 
last decades, there have been many studies in the field of credit conducted to improve the accuracy of credit 
scoring models. However, in Vietnam, there is not much research in this field. Most of researchs uses traditional 
techniques such as Logistic Regression (LR), discriminant analysis (DA), some others studies modern techniques 
included decision tree (DT), K-nearest neighbor (KNN), Artificial neural network (ANN). In this paper, we propose 
hybrid credit scoring models based on Decision Tree, Logistic Regression, K-nearest neighbor and artificial neural 
network. The experimental results demonstrate that DT_MLP hybrid credit scoring models is the most effective 
model.
Key- words: Credit scoring, Decision Tree, K-nearest neighbor, Artificial neural network. 
Hung Tien Nguyen, MEc. 
Head of Inspection and Education Quality Department, Banking Academy
Trang Thi Huyen Le, MEc.
Business Administration Faculty, Banking Academy
nhiên, khi sử dụng những kĩ thuật này sẽ gặp 
phải một số khó khăn liên quan đến việc giải 
xem tiếp trang 75
 PHÁT TRIỂN NGUỒN NHÂN LỰC
75Tạp chí Khoa học & Đào tạo Ngân hàng Số 193- Tháng 6. 2018
dụng hồi quy với biến giả (đã đề cập ở Phần 
1 của bài viết) để tìm kiếm bằng chứng thực 
nghiệm về tác động của một số nhân tố đến 
mức độ điều chỉnh số liệu nhằm tránh báo cáo 
lỗ và ổn định lợi nhuận. Bên cạnh đó, các bằng 
chứng thực nghiệm trong nghiên cứu này cũng 
cho thấy các NHTM có xu hướng điều chỉnh số 
and colleges and allows schools to be autonomous in developing enrollment plans. The number of candidates has 
decreased over the years, while increasing enrollment targets of universities and colleges has created pressure 
for universities and colleges to compete to improve quality, reputation, and job orientation in order to attract 
candidates. The research was conducted to develop a model that illustrates the factors that determines the 
choice of the BA’s undergraduate program of students. The results of multiple linear regression analyzed from 
186 questionaire respondents of BA’s 1st year and 2nd year students show that the groups of factors that have 
the significant impact in descending order are: Fixed Characteristics of the insitute, Communication Efforts of 
the institue, Social influencers to the student’s choice of the institute, Individual Characteristics of the student. 
Based on the obtained results, the research team proposes recommendations to improve the effectiveness of the 
enrollment process for universities, colleges in general and for BA institute in particular.
Keywords: Factors, bachelor program, enrollment, Banking Academy of Vietnam. 
Mai Ngoc Tran, MEc.
Faculty of International Business, Banking Academy 
Huong Thi Thu Nguyen
Student of K18KDQTA, Faculty of International Business, Banking Academy
Linh Thuy Do
Student of K18KDQTA, Faculty of International Business, Banking Academy
kiệm, vay vốn với quy mô nhỏ, thời gian đáo 
hạn nhanh phù hợp hơn với nhóm khách hàng 
này. Mặt khác, thủ tục, giấy tờ luôn là một rào 
cản lớn đối với người dân khi tiếp cận các dịch 
vụ tài chính tại nông thôn, điều này đã được đề 
cập trong nhiều nghiên cứu. Việc cải thiện thủ 
tục hành chính sẽ tăng khả năng tiếp cận dịch 
vụ tài chính của khu vực nông thôn. ■
tiếp theo trang 63
thích điểm tín dụng theo những đặc điểm của 
khách hàng, bởi phần lớn cơ chế giải thích của 
các kĩ thuật này rất phức tạp và vẫn còn nằm 
trong “hộp đen”.
Những kết quả được đưa ra trong bài nghiên 
cứu có thể là cơ sở để mở ra các nghiên cứu, 
đưa ra những phương pháp mới kết hợp các 
kĩ thuật nhằm nâng cao hiệu quả các mô hình 
chấm điểm tín dụng. Ngoài việc xem xét kết 
quả của của các mô hình kết hợp thì việc giải 
thích cơ chế tác động của các nhân tố đầu vào 
với nhân tố mục tiêu phân loại đối với các mô 
hình cũng cần được quan tâm nghiên cứu. ■
tiếp theo trang 54
tiếp theo trang 44
cho nhiều trường hợp khác nhau. Việc sử dụng 
tốt sẽ dẫn đến các giao dịch nhanh hơn, minh 
bạch hơn. Giải pháp Blockchain cũng sẽ làm 
giảm chi phí và gánh nặng hành chính đối với 
ngân hàng và khách hàng. Ước tính rằng các 
công nghệ Blockchain có thể làm giảm chi 
phí cơ sở hạ tầng của ngân hàng khoảng 15-
20 tỷ USD một năm vào năm 2022- như tuyên 
bố trong “FinTech 2.0 Paper” của Santander 
InnoVentures. Blockchain cũng đặt ra thách 
thức đòi hỏi tất cả các bên liên quan sẽ phải 
tham gia hợp tác vào sự phát triển trong lĩnh 
vực này, “sẽ cần phải có một tập thể chung” 
giữa các ngân hàng, nhà quản lý và các công ty 
công nghệ. Bên cạnh đó, thách thức về sự riêng 
tư, bảo mật, khả năng mở rộng cũng là những 
vấn đề cần xem xét. Blockchain có thể là giải 
pháp công nghệ tiềm năng cho ngành tài chính 
ngân hàng, tuy nhiên nó còn cần phải tiếp tục 
được hoàn thiện, phát triển về công nghệ, giảm 
thiểu chi phí khi áp dụng và khắc phục các vấn 
đề khác đang tồn tại. ■
tiếp theo trang 36
liệu nhằm báo cáo mức lợi nhuận ổn định. Do 
đó, các nghiên cứu tương lai có thể phát triển 
các mô hình nghiên cứu nhằm tìm kếm bằng 
chứng bổ sung để có thể đưa ra kết luận về việc 
có NHTM có thực sự thao túng số liệu để ổn 
định lợi nhuận hay không, và các công cụ nào 
hay ước tính kế toán nào có thể bị lợi dụng để 
ổn định lợi nhuận. ■

File đính kèm:

  • pdfmo_hinh_cham_diem_tin_dung_dua_tren_su_ket_hop_giua_mo_hinh.pdf