Random border undersampling: thuật toán mới giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng

TÓM TẮT— Cùng với sự phát triển của lĩnh vực công nghệ thông tin là sự tăng lên nhanh chóng của dữ liệu. Dữ liệu càng

lớn thì việc tìm ra những thông tin hữu ích trong đó càng trở nên khó khăn. Phân lớp dữ liệu là một trong những hướng nghiên cứu

chính của khai phá dữ liệu. Phân lớp dữ liệu có ứng dụng nhiều trong thực tế, chẳng hạn như phát hiện thư rác, phát hiện xâm nhập

mạng, phát hiện các gian lận giao dịch, chẩn đoán trong y học, phân tích hiệu quả điều trị. Tuy nhiên, nhiều bộ dữ liệu trong thực tế

bị mất cân bằng tức là số phần tử giữa các lớp có sự chênh lệch. Việc phân lớp đúng các phần tử lớp thiểu số này lại đóng vai trò

rất quan trọng. Ví dụ, trong cơ sở dữ liệu y học, số người mắc bệnh ung thư chiếm tỉ lệ rất nhỏ trên tổng số người bình thường. Việc

chuẩn đoán sai người bị bệnh thành không bị bệnh có ảnh hưởng nghiêm trọng đến sức khỏe và tính mạng con người. Vì vậy cần

tìm ra những phương pháp để cải thiện hiệu quả phân lớp dữ liệu. Bài báo này giới thiệu về mất cân bằng dữ liệu, sự cần thiết của

việc phân lớp dữ liệu. Tiếp đó, chúng tôi xin đề xuất một thuật toán mới gọi là thuật toán giảm phần tử ngẫu nhiên trên đường biên

trong dữ liệu mất cân bằng (Random Border Undersampling). Thuật toán được cải tiến từ thuật toán đã có Random undersampling,

điểm mới là thuật toán không chỉ đơn giản là chọn các phần tử thuộc lớp đa số để giảm bớt mà xác định những phần tử trên đường

biên của lớp đa số và giảm bớt các phần tử đó. Thuật toán được áp dụng vào các bộ dữ liệu từ nguồn dữ liệu chuẩn quốc tế UCI:

Bộ dữ liệu Blood, Haberman, Pima và Breast-w, từ kết quả thực nghiệm cho thấy khả năng phân lớp dữ liệu được cải thiện

8 trang phuongnguyen 4600

Download

Bạn đang xem tài liệu "Random border undersampling: thuật toán mới giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Random border undersampling: thuật toán mới giảm phần tử ngẫu nhiên trên đường biên trong dữ liệu mất cân bằng

Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015
DOI: 10.15625/vap.2015.000200
RANDOM BORDER UNDERSAMPLING: THUẬT TOÁN MỚI
GIẢM PHẦN TỬ NGẪU NHIÊN TRÊN ĐƯỜNG BIÊN TRONG DỮ LIỆU
MẤT CÂN BẰNG
Nguyễn Mai Phương1, Trần Thị Ánh Tuyết1, Nguyễn Thị Hồng1, Đặng Xuân Thọ1
1 Khoa Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội
nguyenmaiphuong2710@gmail.com, tuyettran003@gmail.com, nguyenhong@hnue.edu.vn, thodx@hnue.edu.vn
TÓM TẮT— Cùng với sự phát triển của lĩnh vực công nghệ thông tin là sự tăng lên nhanh chóng của dữ liệu. Dữ liệu càng
lớn thì việc tìm ra những thông tin hữu ích trong đó càng trở nên khó khăn. Phân lớp dữ liệu là một trong những hướng nghiên cứu
chính của khai phá dữ liệu. Phân lớp dữ liệu có ứng dụng nhiều trong thực tế, chẳng hạn như phát hiện thư rác, phát hiện xâm nhập
mạng, phát hiện các gian lận giao dịch, chẩn đoán trong y học, phân tích hiệu quả điều trị. Tuy nhiên, nhiều bộ dữ liệu trong thực tế
bị mất cân bằng tức là số phần tử giữa các lớp có sự chênh lệch. Việc phân lớp đúng các phần tử lớp thiểu số này lại đóng vai trò
rất quan trọng. Ví dụ, trong cơ sở dữ liệu y học, số người mắc bệnh ung thư chiếm tỉ lệ rất nhỏ trên tổng số người bình thường. Việc
chuẩn đoán sai người bị bệnh thành không bị bệnh có ảnh hưởng nghiêm trọng đến sức khỏe và tính mạng con người. Vì vậy cần
tìm ra những phương pháp để cải thiện hiệu quả phân lớp dữ liệu. Bài báo này giới thiệu về mất cân bằng dữ liệu, sự cần thiết của
việc phân lớp dữ liệu. Tiếp đó, chúng tôi xin đề xuất một thuật toán mới gọi là thuật toán giảm phần tử ngẫu nhiên trên đường biên
trong dữ liệu mất cân bằng (Random Border Undersampling). Thuật toán được cải tiến từ thuật toán đã có Random undersampling,
điểm mới là thuật toán không chỉ đơn giản là chọn các phần tử thuộc lớp đa số để giảm bớt mà xác định những phần tử trên đường
biên của lớp đa số và giảm bớt các phần tử đó. Thuật toán được áp dụng vào các bộ dữ liệu từ nguồn dữ liệu chuẩn quốc tế UCI:
Bộ dữ liệu Blood, Haberman, Pima và Breast-w, từ kết quả thực nghiệm cho thấy khả năng phân lớp dữ liệu được cải thiện.
Từ khóa— Dữ liệu mất cân bằng, Phân lớp dữ liệu, Random undersampling, Borderline, Random border undersampling
I. GIỚI THIỆU
Hiện nay, bên cạnh sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông là sự tăng lên của dữ liệu.
Việc khai phá dữ liệu để chắt lọc những thông tin có ích càng trở nên khó khăn khi cơ sở dữ liệu ngày càng lớn. Phân
lớp dữ liệu là một trong những hướng nghiên cứu chính của khai phá dữ liệu. Phân lớp là để dự đoán những nhãn lớp
cho các bộ dữ liệu mới. Đầu vào là một tập các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho mỗi mẫu dữ liệu.
Đầu ra là mô hình phân lớp dựa trên tập huấn luyện và các nhãn lớp.
Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác
nhau. Công nghệ này cũng ứng dụng trong nhiều lĩnh vực khác nhau như: ngân hàng, y tế, dự báo thời tiết, thể thao,
giải tríVí dụ, trong lĩnh vực ngân hàng, phân lớp dữ liệu dựa vào thông tin nghề nghiệp, thu nhập của khách hàng
sẽ đưa ra quyết định có cho khách hàng vay hay không. Trong dự báo thời tiết, có thể cho biết thời tiết ngày mai là mưa
hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ của ngày hôm nay và các ngày trước đó. Trong chẩn
đoán y khoa, phân lớp dữ liệu bệnh nhân để đưa ra chẩn đoán về khối u là lành tính hay ác tính.
Tuy nhiên, dữ liệu thu được trong thực tế thường mất cân bằng. Tập dữ liệu mất cân bằng thường xuất hiện
trong các lĩnh vực như chẩn đoán y tế, giám sát hệ thống mạng, phát hiện xâm nhập hệ thống Thông thường trong
những lĩnh vực này lớp cần quan tâm lại có rất ít phần tử (minority) so với các lớp khác (majority) trong tập dữ liệu. Cụ
thể như, trong số các trường hợp được xác định có bệnh hay không thì số người mắc bệnh là rất ít so với những người
không bị bệnh [9]. Tuy nhiên việc xác định lớp thiểu số tức là số người mắc bệnh lại rất cần thiết và quan trọng. Việc
mất cân bằng dữ liệu là một trong những lý do gây ra sự suy giảm về hiệu quả phân lớp của các thuật toán [8]. Dự đoán
sai nhãn từ người “mắc bệnh” thành “không mắc bệnh” sẽ gây hậu quả nghiêm trọng đến tính mạng con người. Do vậy
đây là một trong những vấn đề khó được cộng đồng và các nhà khoa học quan tâm nghiên cứu.
Tiếp theo, nội dung phần 2 chúng tôi xin trình bày về các nghiên cứu liên quan đến phương pháp tiếp cận trên
mức độ dữ liệu trong dữ liệu mất cân bằng, phần 3 là giải thuật của thuật toán giảm phần tử ngẫu nhiên trên đường
biên. Kết quả thực nghiệm sẽ được trình bày trong phần 4 và phần 5 là kết luận và hướng phát triển.
II. CÁC NGHIÊN CỨU LIÊN QUAN
Trong các phương pháp tiếp cận trên mức độ dữ liệu, bằng cách điều chỉnh sự phân bố lớp để làm giảm sự mất
cân bằng dữ liệu, thì thuật toán Under-sampling (giảm phần tử) và Over-sampling (tăng phần tử) là hai thuật toán phổ
biến. Bên cạnh đó, người ta cũng có thể kết hợp cả 2 phương pháp trên, tức là cùng lúc giảm số phần tử ở lớp đa số và
tăng phần tử lớp thiểu số [4].
A. Under-sampling (giảm phần tử)
Phương pháp giảm phần tử ở lớp đa số để làm giảm tính mất cân bằng dữ liệu. Cách đơn giản nhất đó là loại bỏ
các phần tử ở lớp đa số một cách ngẫu nhiên. Ngoài ra cũng có một số cách giảm phần tử một cách có chủ đích như:
giảm phần tử nhiễu ở vùng an toàn (safe level), giảm phần tử ở đường biên (borderline) [7].
Nk
B
n
th
A
d
d
p
B
I
O
D
đ
tử
l
g
n
l
p
g
guyễn Mai Phươ
Trong R
hi ra tỉ số giữ
. Over-samp
Phương
gẫu nhiên các
ước lớp thiểu
. Ý tưởng
Thuật t
ụng việc giảm
ựa vào số lán
hần tử biên [1
. Thuật toán
nput: Bộ dữ l
n: tỉ l
k: số
m- số
utput: Tập d
ưới đây là nh
ể tiến hành g
negative thu
á cây là đại d
iữa hai lớp đa
Hình 1
egative. Phần
Tiếp đó
áng giềng là t
hần tử thuộc
ần nhất của n
ng, Trần Thị Ánh
andom unde
a đa số và lớp
ling (tăng ph
pháp tăng ph
phần tử lớp th
số bằng cách
III. T
oán Random
ngẫu nhiên p
g giềng là thu
] [4].
Random Bo
iệu huấn luyệ
ệ phần trăm số
láng giềng gầ
phần tử lớp đ
ữ liệu đã giảm
ững hình vẽ m
iảm bớt các p
ộc lớp đa số,
iện cho phần
số và lớp thi
mô tả sự phâ
tử hình tròn m
, ở hình 2, ta
huộc lớp thiể
đường biên. V
ó thì có 6 phầ
Tuyết, Nguyễn
rsampling, ta
thiểu số phù
ần tử)
ần tử ở lớp th
iểu số sau đó
sinh thêm các
HUẬT TOÁ
Border Unde
hần tử trên đ
ộc lớp thiểu
rder Undersa
n T gồm P po
phần tử trên
n nhất đối với
a số trên đườ
các phần tử
ô tả về bộ d
hần tử đó theo
hình tròn mà
tử biên thuộc
ểu số. Hình v
n bố của dữ
àu xanh da t
đi xét k láng
u số. Nếu m t
í dụ trên hình
n tử thuộc lớp
Thị Hồng, Đặng
ngẫu nhiên lo
hợp. Do đó, t
iểu số thì có 2
sao chép giốn
phần tử nhân
N MỚI RAN
rsampling đư
ường biên. Đ
số m trong tổ
mpling
sitive lớp thiể
biên bị giảm
một phần tử
ng biên
trên biên theo
ữ liệu mất cân
tỉ lệ phần tră
u xanh da trờ
lớp đa số. Nh
ẽ chỉ là mô tả
H
liệu, trong đó
rời là thuộc lớ
giềng cho từ
hỏa mãn điều
, phần tử đan
thiểu số, 1 p
Xuân Thọ
ại bỏ phần tử
ổng số dữ liệu
cách, cách th
g hệt để làm t
tạo sau đó gá
DOM BORD
ợc cải tiến từ
ể xác định đượ
ng số k láng
u số, N negat
lớp đa số
tỉ lệ phần tră
bằng và quá
m. Trong các
i đại diện cho
ìn vào hình v
cho một vùng
ình 1. Phân bố
phần tử hìn
p thiểu số và
ng phần tử lớ
kiện k/2 ≤ m
g xét là phần
hần tử thuộc l
của lớp đa số
huấn luyện đ
ứ nhất là tăng
ăng kích thướ
n nhãn các ph
ER UNDER
thuật toán R
c các phần tử
giềng gần nhấ
ive lớp đa số
m n
trình xác địn
hình vẽ dưới
phần tử posi
ẽ 1 ta nhận th
của bộ dữ liệ
dữ liệu
h tròn màu đ
được gán nhã
p đa số. Giả
< k thì ta nó
tử được đánh
ớp đa số. Như
trong tập dữ
ược giảm đán
phần tử lớp
c lớp thiểu số
ần tử đó thuộc
SAMPLING
andom under
trên đường b
t. Nếu k/2 ≤
h phần tử lớp
, hình tròn m
tive lớp thiểu
ấy ngay sự c
u lớn.
ỏ là thuộc lớp
n positive.
sử trong k lá
i phần tử thu
dấu màu vàn
vậy phần tử
liệu huấn luy
g kể.
thiểu số bằng
. Cách thứ 2 l
lớp thiểu số.
sampling đã
iên, thuật toá
m < k thì phầ
đa số thuộc đ
àu đỏ đại diện
số, hình tròn
hênh lệch về
đa số, được
ng giềng gần
ộc lớp đa số đ
g, trong số 7
đó thuộc biên
613
ện cho đến
cách chọn
à tăng kích
có sẵn, sử
n xác định
n tử đó là
ường biên
cho phần
màu xanh
số phần tử
gán nhãn
nhất có m
ang xét là
láng giềng
.
6
14
Tương
RANDOM B
tự , ta xác địn
ORDER UNDER
h được các ph
SAMPLING: T
Hình
ần tử lớp đa s
Hì
H
HUẬT TOÁN M
2. Xác định k-
ố thuộc đườn
nh 3. Các phần
ình 4. Xóa p
ỚI GIẢM PHẦN
láng giềng
g biên là các p
tử biên
hần tử biên
TỬ NGẪU NH
hần tử màu v
IÊN TRÊN ĐƯỜ
àng như tron
NG BIÊN
g hình 3.
Nguyễn Mai Phương, Trần Thị Ánh Tuyết, Nguyễn Thị Hồng, Đặng Xuân Thọ 615
Ta tiến hành xóa n% số phần tử biên thuộc lớp đa số đã xác định. Hình 4 là các phần tử thuộc biên đã bị xóa
toàn bộ. Tuy nhiên, trong thuật toán mới của chúng tôi, số phần tử biên sẽ bị xóa theo tỉ lệ phần trăm, phụ thuộc vào
tham số n.
Trong thuật toán, chúng tôi cho hai tham số đầu vào n chạy từ 1 đến 7 và k chạy từ 2 đến 10 để thuật toán khách
quan và tổng quát hơn.
Các bước thực hiện của thuật toán:
Bước 1: Tìm các phần tử biên thuộc lớp đa số
Với mỗi phần tử trong tập lớp đa số N= {N1, N2, N3 Ni} ta tính k láng giềng gần nhất của nó trong toàn bộ tập
dữ liệu huấn luyện T. Ta gọi số láng giềng thuộc lớp thiểu số trong tổng số k láng giềng gần nhất là m.
Bước 2: Xác định phần tử biên lớp đa số. Nếu k/2 ≤ m < k nghĩa là số láng giềng của N thuộc lớp thiểu số lớn
hơn số láng giềng thuộc lớp đa số [7].
Bước 3: Ta đưa những phần tử thuộc N này vào một mảng border (mảng chứa các phần tử trên đường biên).
Các phần tử trong mảng border là phần tử biên lớp đa số.
Bước 4: Ta giảm theo n phần trăm số phần tử trên đường biên để làm giảm mất cân bằng bộ dữ liệu.
Sau khi đã điều chỉnh bộ, ta áp dụng máy vecto hỗ trợ (Support Vector Machine) để phân lớp dữ liệu [9].
C. Áp dụng Máy véc tơ hỗ trợ (Support Vector Machine- SVM)
Support Vector Machines (SVMs) là một kỹ thuật học máy phổ biến, nhận dữ liệu vào và phân loại chúng vào
hai lớp khác nhau cụ thể ở các bộ dữ liệu trong nghiên cứu của chúng tôi là lớp positive và negative. Do đó SVM là
một thuật toán phân loại nhị phân. Tuy nhiên kỹ thuật SVM cũng được cho là hoạt động kém khi nó được áp dụng vào
các bộ dữ liệu mất cân bằng [6]. Trong bài báo này, chúng tôi giải quyết vấn đề mất cân bằng dữ liệu dựa trên việc
giảm phần tử trên đường biên. Chúng tôi sử dụng thuật toán SVM vì đây là thuật toán đem lại hiệu quả phân lớp tốt
nhất trong các thuật toán hiện nay. Hơn nữa, thuật toán SVM là dựa vào khoảng cách lề cực đại (tức là đường phân
tách chia hai lớp dữ liệu) [5], việc giảm các phần tử biên sẽ làm tăng khoảng cách phân chia giữa hai lớp nên sẽ đem lại
hiệu quả phân lớp cao. Đồng thời, thực nghiệm của chúng tôi áp dụng SVMs cho cả RUS và phương pháp mới RBUS
nên vẫn đảm bảo tính khách quan của kết quả thuật. Kết quả thực nghiệm cho thấy rằng giảm phần tử tốt hơn hẳn so
với việc dùng bộ dữ liệu ban đầu.
IV. THỰC NGHIỆM
A. Bộ dữ liệu
Để đánh giá hiệu quả của thuật toán mới giảm phần tử ngẫu nhiên trên đường biên (RBUS), chúng tôi tiến hành
thực nghiệm trên 4 bộ dữ liệu mất cân bằng lấy từ nguồn dữ liệu chuẩn quốc tế UCI. Kho dữ liệu UCI gồm các bộ dữ
liệu của nhiều lĩnh vực. Trong bài báo này, chúng tôi tiến hành thực nghiệm trên các bộ dữ liệu thuộc lĩnh vực y sinh.
Chi tiết các bộ dữ liệu như sau:
Bảng 1. Bốn bộ dữ liệu từ nguồn dữ liệu chuẩn quốc tế UCI
Bộ dữ liệu Số phần tử Số thuộc tính Tỷ lệ mất cân bằng (Positive/ Negative)
Blood 748 4 1:3
Breast-w 699 8 1:2
Haberman 276 4 1:3
Pima 768 8 1:2
Các bộ dữ liệu trên đều có tình trạng mất cân bằng với hai nhãn lớp là Negative (lớp đa số) và Positive (lớp
thiểu số). Tỉ lệ mất cân bằng của bộ Blood và Haberman là 1:3; bộ dữ liệu Breast-w và Pima là 1:2. Trong đó bộ dữ
liệu có số phần tử lớn nhất là Pima với 768 phần tử và số thuộc tính là 8.
B. Các tiêu chí đánh giá
Để đánh giá hiệu quả của thuật toán, người ta căn cứ vào một số tiêu chí dựa trên ma trận nhầm lẫn
Bảng 2. Bảng ma trận nhầm lẫn
Dự đoán là Possitive Dự đoán là Negative
Thực tế là
Positive
TP (số phần tử Positive dự đoán đúng ) FN (số phần tử Positive bị dự đoán sai)
Thực tế là
Negative
FP (số phần tử Negative bị dự đoán sai ) TN (số phần tử Negative dự đoán đúng)
616 RANDOM BORDER UNDERSAMPLING: THUẬT TOÁN MỚI GIẢM PHẦN TỬ NGẪU NHIÊN TRÊN ĐƯỜNG BIÊN
Một số tiêu chí đánh giá dựa trên ma trận nhầm lẫn [3]:
TPrate= TP/ (TP+FN)
TNrate= TN/ (TN+FP)
G-mean= √܂۾ܚ܉ܜ܍. ܂ۼܚ܉ܜ܍
Gmean là một độ đo dùng để đánh giá hiệu quả của phân lớp dữ liệu mất cân bằng. Nếu tỉ lệ phân lớp đúng các
phần tử ở 2 lớp cao thì G-mean sẽ cao.
C. Kết quả
Chúng tôi so sánh kết quả phân lớp của dữ liệu sau khi áp dụng thuật toán mới Random Border Under-sampling
với kết quả phân lớp của bộ dữ liệu ban đầu và bộ dữ liệu sau khi điều chỉnh bởi Random Undersampling. Thông tin
các bộ dữ liệu được cho trên bảng 1. Với bộ dữ liệu ban đầu và các bộ dữ liệu sau khi điều chỉnh, chúng tôi thực hiện
phân lớp bằng thuật toán SVM [6].
Bộ dữ liệu được chia làm 10 phần trong đó lần lượt mỗi phần được chọn làm bộ dữ liệu kiểm tra và 9 phần còn
lại là bộ dữ liệu huấn luyện. Ta sẽ có 10 bộ đôi dữ liệu kiểm tra và huấn luyện tương ứng. Mỗi bộ dữ liệu huấn luyện
được đưa vào thuật toán SVM thu được mô hình phân lớp. Sau khi có được mô hình phân lớp, bộ dữ liệu kiểm tra được
đưa vào mô hình để xem có bao nhiêu mẫu được phân lớp đúng, bao nhiêu mẫu được phân lớp sai, từ đó ta tính được
các độ đo. Các độ đo đánh giá của một lần 10-fold là trung bình cộng các độ đo đánh giá của 10 bộ dữ liệu huấn luyện
và kiểm tra. Để kết quả thu được khách quan hơn, chúng tôi thực hiện 20 lần 10-fold vì việc chia dữ liệu là ngẫu nhiên.
Hiệu quả phân lớp cuối cùng của mỗi bộ dữ liệu ứng với một thuật toán phân lớp được đánh giá thông qua các độ đo
đánh giá là trung bình cộng của 20 lần 10-fold.
Để xác định thuật toán có ý nghĩa thống kê hay không, chúng tôi áp dụng kiểm định T-test. Nếu p-value của
kiểm định này nhỏ hơn hoặc bằng 0.05 thì ta nói hai giá trị trung bình khác biệt và có ý nghĩa thống kê. Trong bài báo,
chúng tôi sử dụng hàm t.test trong gói stats của R để tính giá trị
Dưới đây là các biểu đồ so sánh hiệu quả phân lớp của kỹ thuật phân lớp chuẩn đối với bộ dữ liệu ban đầu, bộ
dữ liệu sau khi được điều chỉnh bằng thuật toán giảm phần tử ngẫu nhiên (RUS) và bộ dữ liệu sau khi được điều
chỉnh bởi thuật toán mới giảm phần tử ngẫu nhiên trên đường biên (RBUS). Trục ngang là giá trị n- số phần trăm
phần tử biên bị giảm. Trục dọc là giá trị Gmean tương ứng. Những biểu đồ có hình sao là thể hiện thuật toán có ý
nghĩa thống kê.
Biểu đồ so sánh hiệu quả của các thuật toán:
Hình 5. So sánh giá trị G-mean của bộ dữ liệu BLOOD
Trong bộ dữ liệu BLOOD: Giá trị G-mean cao nhất là tại n=70. So sánh giữa G-mean của bộ dữ liệu sau khi áp
dụng thuật toán RBUS và với bộ dữ liệu ban đầu thì giá trị p-value đạt 2.2e-16, với bộ dữ liệu áp dụng thuật toán RUS
thì giá trị p-value đạt 2.693e-08.
Bộ dữ liệu Blood khi áp dụng thuật toán mới RBUS cho kết quả P-value khi so sánh với bộ dữ liệu ban đầu và
bộ dữ liệu được điều chỉnh bởi thuật toán RUS đều nhỏ hơn 0,05. Như vậy thuật toán mới đạt kết quả cao hơn và có ý
nghĩa thống kê.
0
20
40
60
80
10 20 30 40 50 60 70
G_
M
EA
N
(%
)
N
BLOOD
ORIGINAL RUS RBUS
Nguyễn Mai Phương, Trần Thị Ánh Tuyết, Nguyễn Thị Hồng, Đặng Xuân Thọ 617
Hình 6. So sánh giá trị G-mean của bộ dữ liệu HABERMAN
Trong bộ dữ liệu HABERMAN: Giá trị G-mean cao nhất là tại n=10. So sánh giữa G-mean của bộ dữ liệu sau
khi áp dụng thuật toán RBUS và với bộ dữ liệu ban đầu thì giá trị p-value đạt 2.2e-16, với bộ dữ liệu áp dụng thuật
toán RUS thì giá trị p-value đạt 8.021e-08.
Bộ dữ liệu Haberman khi áp dụng thuật toán mới RBUS cho kết quả P-value khi so sánh với bộ dữ liệu ban đầu
và bộ dữ liệu được điều chỉnh bởi thuật toán RUS đều nhỏ hơn 0,05. Như vậy thuật toán mới đạt kết quả cao hơn và có
ý nghĩa thống kê.
Hình 7. So sánh giá trị G-mean của bộ dữ liệu PIMA
0
10
20
30
40
50
60
70
10 20 30 40 50 60 70
G_
M
EA
N
(%
)
N
HABERMAN
ORIGINAL RUS RBUS
0
10
20
30
40
50
60
70
80
10 20 30 40 50 60 70
G_
M
EA
N
(%
)
N
PIMA
ORIGINAL RUS RBUS
618 RANDOM BORDER UNDERSAMPLING: THUẬT TOÁN MỚI GIẢM PHẦN TỬ NGẪU NHIÊN TRÊN ĐƯỜNG BIÊN
Trong bộ dữ liệu PIMA: Giá trị G-mean cao nhất là tại n=20. So sánh giữa G-mean của bộ dữ liệu sau khi áp
dụng thuật toán RBUS và với bộ dữ liệu ban đầu thì giá trị p-value đạt 2.2e-16, với bộ dữ liệu áp dụng thuật toán RUS
thì giá trị p-value đạt 0.0019.
Bộ dữ liệu Pima khi áp dụng thuật toán mới RBUS cho kết quả P-value khi so sánh với bộ dữ liệu ban đầu và bộ
dữ liệu được điều chỉnh bởi thuật toán RUS đều nhỏ hơn 0,05. Như vậy thuật toán mới đạt kết quả cao hơn và có ý
nghĩa thống kê.
Hình 8. So sánh giá trị G-mean của bộ dữ liệu BREAST-W
Trong bộ dữ liệu BREAST-W: Giá trị G-mean cao nhất là tại n=20. So sánh giữa G-mean của bộ dữ liệu sau
khi áp dụng thuật toán RBUS và với bộ dữ liệu ban đầu thì giá trị p-value đạt 0.006124, với bộ dữ liệu áp dụng thuật
toán RUS thì giá trị p-value đạt 0.3194.
Bộ dữ liệu Breast-w khi áp dụng thuật toán mới RBUS cho kết quả P-value khi so sánh với bộ dữ liệu ban đầu
và bộ dữ liệu được điều chỉnh bởi thuật toán RUS lớn hơn 0,05. Như vậy thuật toán mới chưa có ý nghĩa thống kê. Mặc
dù giá trị G-mean của thuật toán mới là lớn hơn so với thuật toán RUS và thuật toán SVM với bộ dữ liệu ban đầu
nhưng nó chưa thực sự cách biệt nên cho giá trị p >0,05.
Bảng 3. Giá trị p-value
Bộ dữ liệu Tên thuật toán Random border undersampling
Blood
Original < 2.2e-16
Random undersampling <2.693e-08
Breast-w
Original 0.006124
Random undersampling 0.3194
Haberman
Original <2.2e-16
Random undersampling <8.021e-08
Pima
Original <2.2e-16
Random undersampling 0.0019
Trên đây là bảng các giá trị p-value để so sánh giá trị G-mean đánh giá hiệu quả phân lớp trên các bộ dữ liệu
Blood, Breast-w, Pima và Haberman sau khi được điều chỉnh bằng thuật toán Random Borderline Undersampling với
các bộ dữ liệu ban đầu và các bộ dữ liệu sau khi được điều chỉnh bởi thuật toán Random Undersampling. Những giá trị
p-value <0.05 (có ý nghĩa thống kê) nghĩa là hiệu quả phân lớp sau khi điều chỉnh dữ liệu bởi Random Borderline
Undersampling tốt hơn hẳn.
96
96.1
96.2
96.3
96.4
96.5
96.6
96.7
10 20 30 40 50 60 70
G_
M
EA
N
(%
)
N
BREAST-W
ORIGINAL RUS RBUS
Nguyễn Mai Phương, Trần Thị Ánh Tuyết, Nguyễn Thị Hồng, Đặng Xuân Thọ 619
Dưới đây là bảng thống kê số phần tử biên lớp đa số và tỉ lệ số phần tử biên lớp đa số so với tổng số phần tử lớp
đa số của mỗi bộ dữ liệu:
Bảng 4. Thống kê số phần tử biên lớp đa số
Bộ dữ liệu Số Negative (a) Số Negative biên (b) Negative biên : Negative (b:a)
Haberman 226 101 1:2
Blood 570 224 1:2
Pima 500 241 1:2
Breast-w 458 10 1:45
V. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Từ các kết quả thực nghiệm ở trên, chúng tôi thấy rằng sau khi điều chỉnh bộ dữ liệu bởi thuật toán mới
Random Border Undersampling thì hiệu quả phân lớp các bộ dữ liệu cao hơn hẳn so với việc phân lớp của bộ dữ liệu
ban đầu và bộ dữ liệu sau khi được điều chỉnh bởi Random Undersampling.
Từ bảng thống kê số phần tư biên lớp đa số và kết quả thực nghiệm, chúng tôi rút ra được kết luận rằng: khi áp
dụng thuật toán mới Random Border Undersampling cho các bộ dữ liệu có nhiều số phần tử biên lớp đa số thì sẽ đạt
hiệu quả phân lớp cao và đạt T-test. Trong 4 bộ dữ liệu chúng tôi thực nghiệm, có 3 bộ dữ liệu cho ra kết quả có ý
nghĩa thống kê là Haberman, Blood và Pima. Ba bộ dữ liệu này đều có số phần tử biên lớp đa số chiếm xấp xỉ 50% trên
tổng số các phần tử lớp đa số (b/a xấp xỉ 1/2). Bộ dữ liệu Breast-w có số phần tử biên lớp đa số là 10 trong tổng số 458
phần tử lớp đa số, tỉ lệ b/a là rất nhỏ và bằng 1:45 nên bộ Breast-w chỉ cho kết quả Gmean cao hơn so với Original và
RUS nhưng chưa đạt ý nghĩa thống kê.
Trong thời gian tới, chúng tôi sẽ tiếp tục tìm hiểu và nghiên cứu vấn đề mất cân bằng dữ liệu. Chúng tôi cũng sẽ
nghiên cứu thêm về thuật toán giảm phần tử nhiễu trên vùng an toàn (Safe level undersampling) và đặc biệt là kết hợp
2 thuật toán Random Border Oversampling và Random Border Undersampling để đưa ra hướng giải quyết tốt hơn cho
việc xử lý dữ liệu mất cân bằng.
VI. TÀI LIỆU THAM KHẢO
[1]. Nguyễn Thị Hồng, Nguyễn Mạnh Cường, Đặng Xuân Thọ. Add-border-SMOTE: Phương pháp mới sinh thêm
phần tử trong dữ liệu mất cân bằng, Tạp chí Khoa học và Kỹ thuật - Học viện KTQS - Số 164 (10-2014).
[2]. Nguyễn Thị Thùy Linh –Trường Đại học Quốc gia Hà Nội. Khóa luận tốt nghiệp: Nghiên cứu các thuật toán phân
lớp dữ liệu dựa trên cây quyết định, Hà Nội năm 2005
[3]. Y. Sun, A. K. C. Wong, and M. S. Kamel, Classification of Imbalanced data: A review, International Journal of
Pattern Recognition and Artificial Intelligence, vol. 23, no. 4, pp. 687–719, 2009.
[4]. Hui Han, Wen-Yuan Wang, and Bing-Huan Mao. Borderline SMOTE A New Over-Sampling Method in
Imbalanced Data Sets Learning, J. Artificial Intell. Res, 2002.
[5]. Man Sun Kim- An effective Under-sampling method for class imbalance data problem.
[6]. Rehan Akbani, Stephen Kwek, Nathalie Japkowicz. Applying Support Vector Machines to Imbalance Datasets,
ECML 2004, pp. 39-50, 2014.
[7]. Xu-Ying Liu, Jianxin Wu, and Zhi-Hua Zhou, Senior Member, IEEE. Exploratory Undersampling for Class-
Imbalance Learning, 6th IEEE International Conference onData Mining (ICDM'06), 2006, 965-969.
[8]. Bùi Minh Quân, Phạm Xuân Hiền, Huỳnh Xuân Diệp. Nâng cao độ chính xác phân loại lớp ít mẫu từ tập dữ liệu
mất cân bằng, Tạp chí Khoa học Trường đại học Cần Thơ, 2013
[9]. Jiawei Han, Micheline Kamber and Jian Pei, Data Mining: concepts and techniques, The Morgan Kaufmann Series
of ELSEVIER, 2012.

File đính kèm:

random_border_undersampling_thuat_toan_moi_giam_phan_tu_ngau.pdf