Về phương pháp rút gọn thuộc tính trong bảng quyết định với miền trị thuộc tính nhận giá trị số theo tiếp cận tập thô mờ

Abstract: Attributes reduction based on rough set

is interesting research area. However, the attributes

reduction algorithms based on rough set is done on

the discrete domain decision tables (that is applied

discretization methods). In recent years, some

researchs on fuzzy rough set based directly attribute

reduction in numeric domain decision tables have

been studied. This paper proposes fuzzy rough set

based directly attribute reduction method in numeric

domain decision tables. The experiment results

showed that the fuzzy rough set method has better

classification accuracy than rough set theory

pdf 10 trang phuongnguyen 9380
Bạn đang xem tài liệu "Về phương pháp rút gọn thuộc tính trong bảng quyết định với miền trị thuộc tính nhận giá trị số theo tiếp cận tập thô mờ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Về phương pháp rút gọn thuộc tính trong bảng quyết định với miền trị thuộc tính nhận giá trị số theo tiếp cận tập thô mờ

Về phương pháp rút gọn thuộc tính trong bảng quyết định với miền trị thuộc tính nhận giá trị số theo tiếp cận tập thô mờ
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 
- 40 - 
Về phƣơng pháp rút gọn thuộc tính trong bảng 
quyết định với miền trị thuộc tính nhận giá trị 
số theo tiếp cận tập thô mờ 
Fuzzy Rough Set based Attribute Reduction in Numeric Domain 
Decision Tables 
Nguyễn Văn Thiện, Nguyễn Long Giang, Nguyễn Nhƣ Sơn 
 Abstract: Attributes reduction based on rough set 
is interesting research area. However, the attributes 
reduction algorithms based on rough set is done on 
the discrete domain decision tables (that is applied 
discretization methods). In recent years, some 
researchs on fuzzy rough set based directly attribute 
reduction in numeric domain decision tables have 
been studied. This paper proposes fuzzy rough set 
based directly attribute reduction method in numeric 
domain decision tables. The experiment results 
showed that the fuzzy rough set method has better 
classification accuracy than rough set theory. 
 Keywords: rough set, fuzzy rough set, decision 
table, fuzzy similarity relation, attribute reduction, 
reduct. 
I. GIỚI THIỆU 
Rút gọn thuộ t h i t u t ọ g trong 
 ước tiền xử ý số liệu với mụ tiêu ại bỏ 
thuộ t h dư thừa nhằm â g t h hiệu quả của 
 thuật t kh i ph dữ liệu. Lý thuyết tập thô [13] 
 ô g ụ hiệu quả giải quyết i t út gọn thuộc 
t h t g ảng quyết đị h v được cộ g đồ g ghiê 
cứu về tập thô thực hiệ âu y. Để thực hiệ 
phươ g ph p út gọn thuộ t h the tiếp cận tập thô, 
 thuộ t h ó miền gi t ị số, iê tục cầ được rời 
rạ hó . Tuy hiê , phươ g ph p ời rạ hó dữ 
liệu khô g ả t được sự kh h u đầu giữa 
 gi t ị thuộ t h. V dụ, với thuộ t h “Nhiệt độ 
cơ thể”, giả sử h i đối tượng x v y ó hiệt độ ơ thể 
tươ g ứ g 39.5 độ v 39.6 độ được rời rạ hó 
th h một gi t ị “Nhiệt độ cao”. T ê ảng quyết định 
mới, h i đối tượng x v y ó gi t ị bằ g h u t ê 
thuộ t h "Nhiệt độ cơ thể” v khô g ả t được 
sự kh h u 0.1 độ t ê ảng quyết đị h đầu. 
D đó, phươ g ph p ời rạ hó dữ liệu khô g ảo 
t “ gữ ghĩ ” ủa dữ liệu gố v ó thể m giảm 
độ h h x phâ ớp t ê dữ liệu gố . Để giải quyết 
 i t út gọn thuộ t h t ực tiếp t ê ảng 
quyết đị h ó miền trị thuộ t h hậ gi t ị số, iê 
tục nhằm khắc phụ hượ điểm t ê , t g mấy ăm 
gầ đây ô g t ì h ghiê ứu đề xuất hướng tiếp 
cận mới sử dụ g ý thuyết tập thô mờ 
Lý thuyết tập thô mờ (Fuzzy Rough Set) do D. 
Du is v ộng sự [4, 5] đề xuất mở ra một hướng 
 ghiê ứu mới về út gọn thuộ t h t ê ảng 
quyết định mờ v ảng quyết đị h ó miền trị 
thuộ t h nhậ gi t ị số, iê tục. Lý thuyết tập thô 
mờ sự kết hợp củ ý thuyết tập thô [13] v ý thuyết 
tập mờ [11] nhằm xấp xỉ tập mờ dự t ê một 
quan hệ tươ g tự (simi ity e ti ) đượ x định 
t ê miề gi t ị thuộ t h. T g ý thuyết tập thô, 
h i đối tượ g tươ g đươ g t ê tập thuộ t h R, 
h y độ tươ g tự 1, ếu gi t ị thuộ t h ủ hú g 
bằ g h u t ê tất cả thuộ t h t g R. Ngược 
lại, hú g khô g tươ g đươ g, h y độ tươ g tự 0. 
T g ý thuyết tập thô mờ, quan hệ tươ g tự thay thế 
quan hệ tươ g đươ g hằm x đị h độ tươ g tự của 
h i đối tượ g. Độ tươ g tự một gi t ị nằm trong 
khoảng [0, 1] cho thấy t h gầ h u, h y t h tươ g 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 
- 41 - 
tự, củ h i đối tượ g. C ghiê ứu iê u đến 
 út gọn thuộ t h the tiếp cận tập thô mờ tập trung 
v h i hướ g h h: hướng thứ nhất sử dụng tập 
thô mờ để giải quyết i t út gọn thuộ t h t ê 
 ảng quyết định mờ (bảng quyết định với gi t ị 
thuộ t h tập mờ) t ước khi thực hiệ thuật 
t t h ọc hệ luật mờ với ô g ố điể hì h 
 [6, 7, 8, 15, 18, 19, 20, 24]; hướng thứ hai giải quyết 
 i t út gọn thuộ t h t ực tiếp t ê ảng 
quyết đị h ó miền trị thuộ t h nhậ gi t ị số, đây 
hướ g ghiê ứu củ i y. 
The hướng tiếp cậ út gọn thuộ t h t ực tiếp 
t ê ảng quyết đị h ó miền trị thuộ t h nhận 
gi t ị số, t ước hết một quan hệ tươ g tự đượ định 
 ghĩ t ê miề gi t ị thuộ t h. Tiếp the , m 
trận quan hệ đượ xây dựng. Ma trận quan hệ cho 
phép x định gi t ị h m thuộc củ đối tượ g đối 
với mỗi lớp tươ g tự mờ. Từ đó, h m thuộc củ 
tập xấp xỉ dưới mờ, xấp xỉ t ê mờ, miề dươ g mờ 
đượ t h dự v t tử xấp xỉ t g ý thuyết 
tập thô mờ [4, 5]. T ê ơ sở đó, phươ g ph p út 
gọn thuộ t h đượ xây dựng dự t ê ền tảng mở 
rộng phươ g ph p út gọn thuộ t h the tiếp cận 
tập thô t uyền thố g. Đó g góp u t ọng về hướng 
 ghiê ứu y phải kể đế ô g t ì h [1, 2, 3, 21, 
22, 23, 25]. T g ô g t ì h y, t giả xây 
dựng ma trận phâ iệt mờ dự t ê m t ận quan hệ 
v đề xuất thuật t tìm tất cả tập út gọn bằng 
 h mở rộ g phươ g ph p út gọn thuộ t h dự t ê 
ma trậ phâ iệt t g ý thuyết tập thô t uyền thống. 
Tuy hiê , t giả hư ô g ố thuật t 
heuristic tìm một tập út gọn tốt nhất dự t ê tiêu 
chuẩn chất ượ g phâ ớp h y độ quan trọng của 
thuộ t h. T g ô g t ì h [8, 17], t giả xây 
dự g phươ g ph p út gọn thuộ t h dự t ê 
entropy Shannon. C t giả t g [8, 17] ũ g mi h 
chứng bằng thực nghiệm rằ g, phươ g ph p út gọn 
thuộ t h the tiếp cận tập thô mờ ó độ h h x 
phâ ớp tốt hơ phươ g ph p út gọn theo tiếp cậ ý 
thuyết tập thô t uyền thống (sau khi rời rạ hó dữ 
liệu) t ê một số bộ dữ liệu thử nghiệm. 
T g i y, hú g tôi đề xuất thuật t 
heu isti út gọn thuộ t h t g ảng quyết đị h ó 
miền trị thuộ t h nhậ gi t ị số sử dụ g độ phụ 
thuộc mờ của thuộ t h t g tập thô mờ. Thuật t 
đề xuất tìm một tập út gọn tốt nhất the tiêu huẩn 
chất ượng phâ ớp (độ quan trọng của thuộ t h), d 
đó hiệu quả hơ ô g ố trong [1, 2, 3, 21, 22, 23, 
25]. Do sử dụ g độ phụ thuộc mờ củ thuộ t h 
 ê thuật t đề xuất ó khối ượ g t h t hỏ hơ 
thuật t t g [8, 17] sử dụ g ô g thức entropy 
Shannon mờ. Kết quả thử nghiệm t ê một số bộ số 
liệu cho thấy, phươ g ph p đề xuất ó độ h h x 
phâ ớp tốt hơ s với phươ g ph p sử dụ g độ phụ 
thuộc của thuộ t h the tiếp cậ ý thuyết tập thô 
truyền thố g. Hơ ữ , phươ g ph p đề xuất ó độ 
 h h x phâ ớp tốt hơ phươ g ph p dự t ê 
entropy Shannon mờ trong [8, 17]. Cấu t ú i 
 hư s u. Phầ 2 t ì h y một số kh i iệm ơ ản 
t g ý thuyết tập thô mờ. Phầ 3 t ì h y phươ g 
ph p út gọn thuộ t h sử dụ g độ phụ thuộc mờ của 
thuộ t h the tiếp cận tập thô mờ. Phần 4 t ì h y 
kết quả thử nghiệm. Cuối ù g kết luậ v hướng 
ph t t iển tiếp theo 
II. CÁC KHÁI NIỆM CƠ BẢN 
Phầ y t ì h y một số kh i iệm ơ ả t g 
 ý thuyết tập thô t uyề thố g ủ P w k [13] v ý 
thuyết tập thô mờ d D. Du is v ộ g sự [4, 5] 
đề xuất. 
Mô hì h tập thô t uyền thố g d P w k [13] đề 
xuất dự t ê u hệ tươ g đươ g để xấp xỉ tập hợp. 
Xét ảng quyết định ,DS U C D  , Mỗi tập thuộc 
t h P C x định một quan hệ tươ g đươ g 
 , ,IND P u v U U a P a u a v  . Nếu 
 ,u v IND P thì u v v khô g phâ iệt được nhau 
bởi thuộ t h t g P. Ký hiệu lớp tươ g đươ g 
chứ đối tượng u  
P
u , khi đó 
  ,Pu v U u v IND P . Với X U , tập 
  CCX u U u X  v   CCX u U u X   tươ g 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 
- 42 - 
ứng gọi C-xấp xỉ dưới, C-xấp xỉ trên của X. Ta gọi 
tập 
/
( )C
X U D
POS D CX
 C-miền dương của D. Dễ 
thấy ( )CPOS D tập đối tượng trong U đượ phâ 
lớp đú g v ớp của /U D sử dụng tập thuộ t h C. 
Độ phụ thuộc của tập thuộ t h C v tập thuộ t h D 
t g ý thuyết tập thô t uyền thố g, ký hiệu C D , 
đượ đị h ghĩ hư s u: 
 C
C
POS D
k D
U
 
với S ự ượ g ủ tập S. Nếu k =1 thì D phụ thuộ 
h t v C. Nếu 0 1k , D phụ thuộ ộ phậ 
v C. Tiếp the , hú g tôi t ì h y kh i iệm t ê 
t g ý thuyết tập thô mờ t g [4, 5]. 
T g mô hì h tập thô mờ, một u hệ tươ g tự 
(similarity relation) đượ sử dụ g th y thế u hệ 
tươ g đươ g để xấp xỉ tập mờ. Cho U tập 
đối tượ g, một u hệ R đượ đị h ghĩ t ê U đượ 
gọi u hệ tươ g tự ếu R thỏ mã t h hất: 
t h phả xạ ( ef exive) , 1R x x , t h đối xứ g 
(symetric) , ,R x y R y x v t h ắ ầu sup-min 
(sup-min transitive) , min , , ,R x z R x y R y z ) với 
mọi , ,x y z U . Qu hệ tươ g tự R x đị h một phâ 
h ạ h mờ t ê U, ký hiệu   / RU R x x U , trong 
đó  
R
x một ớp tươ g đươ g mờ tươ g ứ g với đối 
tượ g x, h m thuộ đượ x đị h ởi ô g thứ 
  , ,
R
Rx
y x y R x y  với mọi y U . 
Giả sử F một tập mờ v R một u hệ tươ g 
tự x đị h t ê U, khi đó tập mờ xấp xỉ dưới R F v 
tập mờ xấp xỉ t ê R F ủ F tập mờ v h m 
thuộ ủ đối tượ g x U 
đượ x đị h hư s u: 
 inf max 1 , ,R FR F
y U
x x y y  
(1)
 sup , ,R FR F
y U
x min x y y  
(2)
với 
  ,
R
Rx
y x y  , khi đó tập mờ xấp xỉ dưới 
 R F v tập mờ xấp xỉ t ê R F đượ viết ại hư 
sau:
   inf max 1 ,R FR F xy Ux y y   (3) 
   sup ,R FxR F y Ux min y y   (4) 
Cặp ,R F R F đượ gọi tập thô mờ. Dễ thấy 
 ằ g một tập hợp (tập õ) ất kỳ X U ó thể xem 
một tập mờ, h m thuộ 1X y với y X v 
 0X y với y X . Mô hì h tập thô mờ ó thể xem 
 việ sử dụ g u hệ tươ g tự để xấp xỉ tập mờ 
(h ặ tập õ) ằ g tập mờ xấp xỉ dưới v tập mờ xấp 
xỉ t ê . 
Ch ả g uyết đị h ó miề t ị thuộ t h hậ 
gi t ị số ,DS U C D  với 1,..., nU u u , 
 1,..., mC c c . Giả sử một u hệ tươ g tự R ất kỳ 
x đị h t ê miề gi t ị ủ thuộ t h điều kiệ 
c C . T ký hiệu 
kc u hệ R x đị h t ê thuộ 
t h điều kiệ , 1..kc C k m . Khi đó, kh i iệm miề 
dươ g CPOS D t g ý thuyết tập thô t uyề thố g 
đượ mở ộ g th h kh i iệm miề dươ g mờ ủ 
tập thuộ t h D đối với tập thuộ t h C dự t ê u 
hệ R, ký hiệu 
C
POS D . 
C
POS D một tập mờ 
m h m thuộ ủ đối tượ g x U đượ đị h ghĩ 
như s u [18]. 
/
sup
C
POS D C X
X U D
x x 
(5) 
Dự t ê kh i iệm miề dươ g mờ, độ phụ thuộ 
 ủ tập thuộ t h điều kiệ C v tập thuộ t h uyết 
đị h D dự t ê u hệ R đượ đị h ghĩ the tiếp 
 ậ tập thô mờ hư s u [18]. 
 C CPOS D POS Dx U
C
x x
D
U U
 
 

 (6) 
The hướ g tiếp ậ út gọ thuộ t h t ự tiếp 
t ê ả g uyết đị h thuộ t h số, m t ậ u 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 
- 43 - 
hệ x đị h t ê thuộ t h kc m t ậ vuô g ấp n 
đượ đị h ghĩ hư s u [21] 
 kck ij
n n
M c m
với , , 1.. , 1..kcij k i jm c u u i n j n . Ở đây, ,k i jc u u 
gi t ị ủ u hệ giữ hai đối tượ g 
iu v ju . Khi 
đó, m t ậ u hệ mờ x đị h t ê tập thuộ t h 
điều kiệ C 
đượ đị h ghĩ [21] 
 Cij
n n
M C m
với  1 2
1..
min min , ,...,k m
c cc cC
ij ij ij ij ij
k m
m m m m m
Dễ thấy ằ g, với phầ tử 
C
ijm ủ m t ậ M C 
t ó , , 1.. , 1..Cij i jm C u u i n j n , với 
   , , i Ci j i j juCC u u u u u  . Từ m t ậ M C 
 h phép x đị h đượ ớp tươ g đươ g mờ 
  1 1
1
...
C C
i i
i C
n
m m
u
u u
 thuộ phâ h ạ h mờ 
  / i iCU C u u U . Khi đó, h m thuộ ủ tập 
mờ xấp xỉ dưới, tập mờ xấp xỉ t ê , miề dươ g mờ ó 
thể đượ t h dự v ô g thứ (3), (4), (5) tươ g 
ứ g v từ đó t h đượ độ phụ thuộ ủ tập thuộ t h 
điều kiệ C v tập thuộ t h uyết đị h D the ô g 
thứ (6). 
III. RÚT GỌN THUỘC TÍNH TRONG BẢNG 
QUYẾT ĐỊNH VỚI MIỀN TRỊ THUỘC TÍNH 
NHẬN GIÁ TRỊ SỐ 
Như đã t ì h y ở phầ I, t ê ớp i t út gọ 
thuộ t h t ự tiếp t ê ả g uyết đị h với miề t ị 
thuộ t h hậ gi t ị số the hướ g tiếp ậ heuristic 
sử dụ g tập thô mờ, t g ô g t ì h [17], t giả 
đã đị h ghĩ tập út gọ dự t ê e t py Sh 
mờ v xây dự g thuật t heu isti tìm một tập út 
gọ tốt hất dự t ê e t py Sh mờ. T g 
 ô g t ì h [8], t giả đị h ghĩ tập út gọ dư 
t ê độ đ ượ g thô g ti tă g thêm mờ (fuzzy 
information gain). Lượ g thô g ti tă g thêm mờ 
đượ xây dự g dự t ê e t py Sh mờ. C t 
giả t g [8] ũ g xây dự g thuật t heu isti tìm 
một tập út gọ tốt hất dự t ê ượ g thô g ti tă g 
thêm mờ. T g ả h i ô g t ì h [8, 17], t giả 
đều hứ g mi h ằ g thự ghiệm ằ g út gọ thuộ 
t h the tiếp ậ thô mờ ó độ h h x phâ ớp tốt 
hơ út gọ thuộ t h the tiếp ậ ý thuyết tập thô 
t uyề thố g. Tuy hiê , hượ điểm ủ h i phươ g 
ph p y đều sử dụ g ô g thứ e t py Sh 
để xây dự g đị h ghĩ tập út gọ , d đó thời 
gi thự hiệ kém hiệu uả d phải t h t iểu 
thứ g it. T g i y, hú g tôi sử dụ g độ 
phụ thuộ mờ ủ thuộ t h th y h độ đ e t py 
Sh để đị h ghĩ tập út gọ v xây dự g thuật 
t heu isti tìm một tập út gọ tốt hất. Vì độ phụ 
thuộ mờ ủ thuộ t h khô g phải t h t iểu 
thứ g it ê hiệu uả hơ phươ g ph p dự 
t ê e t py Sh t g [8, 17]. Chú g tôi ũ g 
 hứ g mi h ằ g thự ghiệm ằ g phươ g ph p đề 
xuất ó độ h h x phâ ớp hơ phươ g 
ph p dự t ê e t py Sh t g [8, 17]. 
Tươ g tự phươ g ph p út gọ thuộ t h t g ý 
thuyết tập thô t uyề thố g, phươ g ph p đề xuất 
gồm ướ : đị h ghĩ tập út gọ dự t ê độ phụ 
thuộ mờ ủ thuộ t h, đị h ghĩ độ u t ọ g ủ 
thuộ t h đặ t ư g h hất ượ g phâ ớp ủ 
thuộ t h v xây dự g thuật t heu isti tìm tập út 
gọ tốt hất dự t ê tiêu huẩ độ u t ọ g ủ 
thuộ t h. 
Định nghĩa 1. Cho bảng quyết định ,DS U C D  ó 
miề t ị thuộ t h hậ gi t ị số , một u hệ tươ g tự 
R đượ x đị h t ê miề gi t ị ủ thuộ t h. Với 
P C , nếu 
1) ( ) ( )
P C
D D  
2) 
 
, ( ) ( )
CP p
p P D D 
 
thì P một tập út gọ ủ C dự t ê độ phụ thuộ 
mờ ủ thuộ t h. 
Từ Đị h ghĩ 1, dễ thấy ằ g tập út gọ dự t ê 
độ phụ thuộ mờ ủ thuộ t h tươ g đươ g với tập 
 út gọ dự t ê miề dươ g mờ, tập út gọ dự t ê 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 
- 44 - 
miề dươ g mờ mở ộ g tập út gọ dự t ê miề 
dươ g ủ P w k the tiếp ậ ý thuyết tập thô mờ. 
Định nghĩa 2. Cho bảng quyết định ,DS U C D  ó 
miề gi t ị thuộ t h số v u hệ tươ g tự R x đị h 
t ê miề gi t ị thuộ t h. Với B C , độ u t ọ g 
mờ ủ thuộ t h b C B đối với tập thuộ t h B 
đượ đị h ghĩ :
 
B BB b
SIG b D D 

 (7) 
Độ u t ọ g ủ thuộ t h đặ t ư g h hất 
 ượ g phâ ớp ủ thuộ t h điều kiệ v thuộ t h 
 uyết đị h v đượ sử dụ g m tiêu huẩ ự họ 
thuộ t h h thuật t heu isti tìm tập út gọ s u 
đây. 
Thuật toán F_RSAR (Fuzzy Rough Set based 
Attribute Reduction). Thuật t heu isti tìm một tập 
 út gọ sử dụ g độ phụ thuộ mờ ủ thuộ t h. 
Đầu vào: Bả g uyết đị h gi t ị thuộ t h số 
 ,DS U C D  , một u hệ tươ g tự R đượ x 
đị h t ê miề gi t ị thuộ t h. 
Đầu ra: Một tập út gọ tốt hất P . 
1. P ; 
2. 0D

 ; 
3. T h m t ậ u hệ M C ; 
4. T h 
C
D ; 
5. While 
P C
D D  do 
6. Begin 
7. For c C P t h 
 
P PP c
SIG c D D 

 ; 
8. Chọ mc C P sao cho 
 mP Pc C PSIG c Max SIG c ; 
9. 
 mP P c  ; 
10. T h 
P
D ; 
11. End; 
12. Return P; 
Ví dụ 1. Xét ả g uyết đị h ó miề gi t ị thuộ 
t h số  ,DS U C d  
 h ở Bả g 1 với 
 1 2 3 4 5 6, , , , ,U u u u u u u , 1 2 3 4 5 6, , , , ,C c c c c c c . 
Bảng 1. Bảng quyết định mô tả Ví dụ 1 
1c 2c 3c 4c 5c 6c d 
1u 0.8 0.2 0.6 0.4 1 0 No 
2u 0.8 0.2 0 0.6 0.2 0.8 Yes 
3u 0.6 0.4 0.8 0.2 0.6 0.4 No 
4u 0 0.4 0.6 0.4 0 1 Yes 
5u 0 0.6 0.6 0.4 0 1 Yes 
6u 0 0.6 0 1 0 1 No 
Giả sử t ê miề gi t ị ủ thuộ t h 
kc C , quan 
hệ tươ g tự 
kc đượ đị h ghĩ hư s u [8] 
1 4* , 0.25
( , ) max( ) min( ) max( ) min( )
0,
k i k j k i k j
k i j k k k k
c u c u c u c u
c u u c c c c
otherwise
 (8) 
Với max , mink kc c tươ g ứ g gi t ị ớ 
 hất v gi t ị hỏ hất ủ miề gi t ị thuộ t h kc 
Áp dụ g ướ ủ Thuật t F_RSAR tìm một 
tập út gọ ủ ả g uyết đị h. T ướ hết, t h 
m t ậ u hệ t ê thuộ t h điều kiệ 1M c , 
 2M c , 3M c , 4M c , 5M c , 6M c . Từ đó, t h m 
t ậ M C : 
1 0 0 0 0 0
0 1 0 0 0 0
0 0 1 0 0 0
( )
0 0 0 1 0 0
0 0 0 0 1 0
0 0 0 0 0 1
M C
T ó    1 3 6 2 4 5/ , , , , ,U d u u u u u u . Xét 
 1 3 6, ,X u u u , xấp xỉ mờ dưới C X tập mờ với 
h m thuộ ủ x U t h ởi 
     1 3 61 3 6 , ,, , inf max 1 ,Cx u u uC u u u y Ux y y   
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 
- 45 - 
Từ m t ậ M C t ó 
 1
1 2 3 4 5 6
1 0 0 0 0 0
C
u
u u u u u u
D đó 
  1 3 6 1, , inf 1,1,1,1,1,1 1C u u u u , tươ g 
tự t ó 
  1 3 6 2, , 0C u u u u ,  1 3 6 3, , 1C u u u u , 
  1 3 6 4, , 0C u u u u ,  1 3 6 5, , 0C u u u u , 
  1 3 6 6, , 1C u u u u ,  2 4 5 1, , 0C u u u u , 
  2 4 5 2, , 1C u u u u ,  2 4 5 3, , 0C u u u u , 
  2 4 5 4, , 1C u u u u  2 4 5 5, , 1C u u u u , 
  2 4 5 6, , 0C u u u u . 
Từ đó, h m thuộ ủ đối tượ g đối với miề 
dươ g mờ  
C
POS d : 
    1 3 6 2 4 51 1 1, , , ,sup , 1CPOS d C u u u C u u uu u u   , 
  2 1CPOS d u 
, 
  3 1CPOS d u 
, 
  4 1CPOS d u 
, 
  5 1CPOS d u ,  6 1CPOS d u 
. Từ đó: 
  1
C
d 
Áp dụ g ướ ủ Thuật t F_RSAR t ó 
  
1
0.167
c
d ,  
2
0
c
d ,  
3
0.167
c
d , 
  
4
0.5
c
d ,  
5
0.467
c
d ,  
6
0.467
c
d . 
Chọ thuộ t h 4c ó độ u t ọ g ớ hất v 
 4P c . Thự hiệ vò g ặp Whi e. Xét thuộ 
t h 1c
t ó: 
   
4 14 4
1 ,
1 0.5 0.5
c cc c
SIG c d d  . Tươ g tự 
4
2 0.5cSIG c , 4 3 0cSIG c , 4 5 0.5cSIG c , 
4
6 0.5cSIG c . Khô g mất t h tổ g u t, họ 
thuộ t h 1c ó độ u t ọ g ớ hất v 
 1 4,P c c . Khi đó t ó   
1 4,
1
c c C
d d  , do 
đó thuật t dừ g v 1 4,P c c một tập út gọ tốt 
 hất ủ ả g uyết đị h DS. 
Thuật t F_RSAR tìm đượ một tập út gọ ủ 
 ả g uyết đị h dự t ê độ u t ọ g ủ thuộ t h 
(đặ t ư g h hất ượ g phâ ớp ủ thuộ t h) 
 ê hiệu uả hơ thuật t tìm tất ả tập út 
gọ the hướ g tiếp ậ m t ậ phâ iệt t g 
 ô g t ì h [1, 2, 3, 21, 22, 23, 25]. Thuật t 
F_RSAR sử dụ g độ phụ thuộ ủ thuộ t h để tìm 
tập út gọ , d đó ó khối ượ g t h t hỏ hơ 
thuật t the hướ g tiếp ậ e t py Sh t g 
[8, 17]. Dễ thấy ằ g, tập út gọ thu đượ ủ Thuật 
t F_RSAR ả t miề dươ g mờ. Phầ tiếp 
the , hú g tôi tiế h h thử ghiệm phươ g ph p đề 
xuất t ê một số ộ dữ iệu thử ghiệm để m õ h i 
vấ đề s u: 1) T h hiệu uả ủ hướ g tiếp ậ tập 
thô mờ s với hướ g tiếp ậ tập thô t uyề thố g về 
độ h h x phâ ớp s u khi út gọ thuộ t h; 2) 
T h hiệu uả ủ thuật t đề xuất với thuật t 
t g ô g t ì h [8] về độ h h x phâ ớp. 
VI. KẾT QUẢ THỰC NGHIỆM 
Chú g tôi họ 8 ộ dữ iệu mẫu từ ấy từ kh dữ 
 iệu UCI [26] ó miề t ị thuộ t h hậ gi t ị số h 
ở Bả g 2 để tiế h h thử ghiệm. Môi t ườ g thử 
 ghiệm m y t h PC với ấu hì h Pe tium du e 
2.13 GHz CPU, 1GB ộ hớ RAM, sử dụ g hệ điều 
h h Wi d ws 7. 
Bảng 2. Bộ số liệu thử nghiệm 
TT Bộ dữ liệu Số thuộc tính 
điều kiện 
Số đối 
tƣợng 
1 Ecoli 7 336 
2 Ionosphere 34 351 
3 Wdbc 30 569 
4 Wpbc 33 198 
5 Wine 13 178 
6 Glass 9 214 
7 Magic04 10 19020 
8 Page-blocks 10 5473 
T ướ hết, hú g tôi tiế h h thử ghiệm hằm 
đ h gi độ h h x phâ ớp t ê ộ số iệu 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 
- 46 - 
mẫu s u khi thự hiệ thuật t F_RSAR v thuật 
t út gọ thuộ t h sử dụ g độ phụ thuộ ủ 
thuộ t h t g ý thuyết tập thô t uyề thố g (gọi tắt 
 thuật t RSAR). Để tiế h h thử ghiệm, hú g 
tôi thự hiệ ô g việ s u: 
- C i đặt thuật t ời ạ hó dữ iệu ằ g phươ g 
ph p e u -width [12], thuật t RSAR, thuật t 
F_RSAR sử dụ g u hệ tươ g tự t g [8], thuật 
t phâ ớp SVM [9], C4.5 [10] ằ g ô g ụ J v . 
- Thự hiệ thuật t ời ạ hó equal-width v 
thuật t RSAR để tìm tập út gọ the tiếp ậ tập 
thô. 
- Thự hiệ thuật t F_RSAR để tìm tập út gọ 
t ự tiếp từ ả g uyết đị h đầu the tiếp ậ tập 
thô mờ sử dụ g u hệ tươ g tự ở ô g thứ (8) 
trong ô g t ì h [8] 
- T ê ả g uyết đị h thu đượ ủ h i h tiếp 
 ậ , họ 2/3 đối tượ g đầu tiê để m tập huấ uyệ 
(t i i g), 1/3 đối tượ g ò ại m tập kiểm t (test). 
Thự hiệ thuật t SVM, C4.5 t ê tập huấ uyệ 
v đ h gi độ h h x phâ ớp t ê tập kiểm t . 
Từ đó, đ h gi độ h h x phâ ớp ủ h i h 
tiếp ậ . 
Bả g 3 kết uả thử ghiệm t ê 8 ộ số iệu 
đượ họ với U số đối tượ g, C số thuộ t h 
điều kiệ , R số thuộ t h ủ tập út gọ . 
Hình 1. Độ chính xác phân lớp F_RSAR và RSAR 
Bảng 3. Kết quả thử nghiệm rút gọn thuộc tính theo tiếp 
cận tập thô và tập thô mờ 
S
T
T 
Bộ số 
liệu 
U
C
Rút gọn thuộc tính 
theo tiếp cận tập thô 
(RSAR) 
Rút gọn thuộc tính theo 
tiếp cận tập thô mờ 
(F_RSAR) 
R
Độ 
chính 
xác 
phân 
lớp 
SVM 
Độ 
chính 
xác 
phân 
lớp 
C4.5 
R
Độ 
chính 
xác 
phân 
lớp 
SVM 
Độ 
chính 
xác 
phân 
lớp 
C4.5 
1 Ecoli 336 7 5 0.851 0.819 7 0.865 0.855 
2 Ionos
phere 
351 3
4 
1
0 
0.814 0.802 15 0.937 0.915 
3 Wdbc 569 3
0 
8 0.795 0.784 19 0.980 0.975 
4 Wpbc 198 3
3 
7 0.718 0.704 19 0.825 0.818 
5 Wine 178 1
3 
4 0.814 0.802 10 0.955 0.920 
6 Glass 214 9 5 0.815 0.795 7 0.891 0.882 
7 Magic
04 
190
20 
1
0 
4 0.745 0.715 6 0.782 0.765 
8 Page-
blocks 
547
3 
1
0 
5 0.758 0.725 7 0.865 0.855 
Từ Bả g 3 v Hì h 1 t thấy, tập út gọ ủ 
F_RSAR hiều thuộ t h hơ RSAR. Độ h h x 
phâ ớp s u khi út gọ thuộ t h the tiếp ậ tập 
thô mờ (F_RSAR) hơ độ h h x phâ ớp the 
tiếp ậ tập thô t uyề thố g (RSAR). 
Tiếp the , hú g tôi tiế h h thử ghiệm để đ h 
gi thuật t đề xuất (F_RSAR) với thuật t tìm 
tập út gọ the tiếp ậ tập thô mờ sử dụ g ượ g 
thô g ti tă g thêm (i f m ti g i ) dự t ê 
e t py Sh , gọi thuật t 
GAIN_RATIO_AS_FRS [8]. Để tiế h h thử 
 ghiệm, hú g tôi i đặt thuật t 
GAIN_RATIO_AS_FRS trong [8] v thuật t 
F_RSAR. Cả h i thuật t đều dù g u hệ tươ g tự 
ở ô g thức (8) trong ô g t ì h [8]. Chạy 02 thuật 
t t ê 8 ộ dữ iệu thử ghiệm. Kết uả thử ghiệm 
 h ở Bả g 4. 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 
- 47 - 
Bảng 4. Kết quả thử nghiệm thuật toán 
GAIN_RATIO_AS_FRS và thuật toán F_RSAR 
S
T
T 
Bộ số 
liệu 
U 
C
Thuật toán 
GAIN_RATIO_AS_FR
S 
Thuật toán F_RSAR 
R
Độ 
chính 
xác 
phân 
lớp 
SVM 
Độ 
chính 
xác 
phân 
lớp 
C4.5 
R
Độ 
chính 
xác 
phân 
lớp 
SVM 
Độ 
chính 
xác 
phân 
lớp 
C4.5 
1 Ecoli 336 7 6 0.814 0.802 7 0.865 0.855 
2 Ionosp
here 
351 34 13 0.916 0.904 15 0.937 0.915 
3 Wdbc 569 30 17 0.925 0.917 19 0.980 0.975 
4 Wpbc 198 33 17 0.815 0.804 19 0.825 0.818 
5 Wine 178 13 9 0.910 0.902 10 0.955 0.920 
6 Glass 214 9 7 0.891 0.882 7 0.891 0.882 
7 
Magic
04 
1902
0 
10 6 0.782 0.765 6 0.782 0.765 
8 
Page-
blocks 
5473 10 6 0.852 0.848 7 0.865 0.855 
Hình 2. Độ chính xác phân lớp của GAIN_RATIO_AS_FRS 
và F_RSAR 
Từ Bả g 4 v Hì h 2 t thấy, t ê ù g một u 
hệ tươ g tự đượ sử dụ g, độ h h x phâ ớp s u 
khi thự hiệ thuật t đề xuất F_RSAR hơ độ 
 h h x phâ ớp s u khi thự hiệ thuật t 
GAIN_RATIO_AS_FRS t g [8]. Bả g 4 ũ g h 
thấy, tập út gọ ủ thuật t đề xuất F_RSAR ả 
t miề dươ g mờ v hiều thuộ t h hơ s với 
thuật t GAIN_RATIO_AS_FRS t g [8]. 
V. KẾT LUẬN 
Mô hì h tập thô mờ do D. Du is v ộng sự 
[4, 5] đề xuất ô g ụ hiệu quả để giải quyết i 
t út gọn thuộ t h t ực tiếp t ê ảng quyết 
đị h ó miền trị thuộ t h nhậ gi t ị số. T g i 
 y, hú g tôi đề xuất thuật t heu isti tìm một 
tập út gọn của bảng quyết đị h ó miền trị thuộ t h 
nhậ gi t ị số sử dụ g độ phụ thuộc mờ của thuộc 
t h the tiếp cận tập thô mờ. 
Độ phụ thuộc mờ của thuộ t h đượ x định dựa 
t ê m t ận quan hệ sinh bởi một quan hệ tươ g tự 
x đị h t ê miề gi t ị thuộ t h. Thực nghiệm t ê 
 ộ số liệu UCI cho thấy, độ h h x phâ ớp 
của tập dữ liệu sau khi thực hiệ phươ g ph p đề xuất 
 hơ độ h h x phâ ớp sau khi thực hiệ út 
gọn thuộ t h the tiếp cận tập thô truyền thống. 
Hơ ữ , phươ g ph p đề xuất ó độ h h x 
phâ ớp hơ phươ g ph p tiếp cận dự t ê 
e t py Sh t g ô g t ì h [8]. Mặt kh , 
phươ g ph p đề xuất khô g phải t h ô g thức 
logarit củ e t py Sh ê thời gian thực hiện 
hiệu quả hơ phươ g ph p t g [8]. 
Về đị h hướ g ghiê ứu tiếp theo, thứ nhất 
tìm kiếm độ đ hiệu quả để giải quyết i t út 
gọn thuộ t h the tiếp cận tập thô mờ nhằm â g 
độ h h x phâ ớp, thứ h i tìm kiếm u hệ 
tươ g tự kh hằm â g độ h h x phâ ớp 
s u khi út gọn thuộ t h. 
TÀI LIỆU THAM KHẢO 
[1] CHEN, D.G., TSANG E.C.C. and ZHAO, S.Y, An 
approach of attributes reduction based on fuzzy TL 
rough sets, IEEE International Conference on 
Systems, Man and Cybernetics, pp. 486-491, 2007. 
[2] CHEN D.G, ZHAO S.Y., Local reduction of decision 
system with fuzzy rough sets, Fuzzy Sets and Systems 
161, pp. 1871-1883, 2010. 
[3] CHEN D.G, LEI Z, SUYUN Z, QINGHUA H, and 
PENGFEI Z, A Novel Algorithm for Finding Reducts 
With Fuzzy Rough Sets, IEEE Transaction on Fuzzy 
Systems, Vol. 20, No. 2, pp. 385 - 389 , 2012. 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 
- 48 - 
[4] DUBOIS D, PRADE H, Putting rough sets and fuzzy 
sets together, Intelligent Decision Support, Kluwer 
Academic Publishers,Dordrecht, 1992. 
[5] DUBOIS D, PRADE H, Rough fuzzy sets and fuzzy 
rough sets, International Journal of General Systems, 
17, pp. 191-209, 1990. 
[6] F. F. XU, D. Q. MIAO and L. WEI, An Approach for 
Fuzzy-Rough Sets Attributes Reduction via Mutual 
Information, Fourth International Conference 
on Fuzzy Systems and Knowledge Discovery, FSKD 
2007, Volume 3, pp. 107 – 112, 2007. 
[7] F.F. XU, D.Q. MIAO and L. WEI, Fuzzy-rough 
attribute reduction via mutual information with an 
application to cancer classification, Computers and 
Mathematics with Applications 57, pp. 1010 -1017, 
2009. 
[8] J. DAI, QING X, Attribute selection based on 
information gain ratio in fuzzy rough set theory with 
application to tumor classification, Applied Soft 
Computing 13, pp. 211–221, 2013. 
[9] J. NEUMANN, C. SCHNORR, G. STEILD, 
Combined SVM-based feature selection and 
classification, Mach. Learn. 61 (2005), pp. 129-150. 
[10] J. QUINLAN, C4.5: Programs For Machine 
Learning, Morgan kaufmann, 1993. 
[11] L. A. ZADEH, Fuzzy sets, Information and Control, 
8:338-353, 1965. 
[12] M.R. CHMIELEWSKI, J.W. GRZYMALABUSSE, 
Global discretization of continuous attributes as 
preprocessing for machine learning, Int. J. Approx. 
reasoning 15 (4), 1996, pp. 319–331. 
[13] PAWLAK Z., Rough sets, International Journal of 
Computer and Information Sciences, 11(5): 341-356, 
1982. 
[14] PAWLAK Z., Rough sets: Theoretical Aspects of 
Reasoning About Data, Kluwer Aca-demic Publishers, 
1991. 
[15] Q. SHEN, R. JENSEN, Selecting informative features 
with fuzzy-rough sets and its application for complex 
systems monitoring, Pattern Recognition, Volume 37, 
Issue 7, pp. 1351–1363, 2004. 
[16] QIANG HE, CONGXIN WU, DEGANG CHEN, 
SUYUN ZHAO, Fuzzy rough set based attribute 
reduction for information systems with fuzzy decisions, 
Knowledge-Based Systems 24 (2011), pp. 689–696, 
2011. 
[17] QINGHUA HU, DAREN YU, ZONGXIA XIE, 
Information-preserving hybrid data reduction based 
on fuzzy-rough techniques, Pattern Recognition Letters 
27, 2006, pp. 414-423. 
[18] R. JENSEN, Q. SHEN, Fuzzy-Rough Sets for 
Descriptive Dimensionality Reduction, Proceedings of 
the 2002 IEEE International Conference on Fuzzy 
Systems ,FUZZ-IEEE'02, pp. 29-34, 2002. 
[19] R. JENSEN, Q. SHEN, Fuzzy–rough attribute 
reduction with application to web categorization, 
Fuzzy Sets and Systems, Volume 141, Issue 3, pp. 
469-485,2004. 
[20] RAJEN, B. BHATT, M. GOPAL., On fuzzy-rough sets 
approach to feature selection, Pattern Recognition 
Letters 26, pp. 965–975, 2005. 
[21] TSANG G.C.Y., CHEN DEGANG., TSANG 
E.C.C, LEE J.W.T and DANIEL S. YEUNGA, On 
attributes reduction with fuzzy rough sets, 
Proceedings of 2005 IEEE International Conference 
on Systems, Man and Cybernetics ,Volume 3, pp. 
2775 - 2780, 2005. 
[22] TSANG E.C.C, DE GANG CHEN, The Fuzzy Rough 
Set Approaches of Fuzzy Reasoning, Proceedings of 
the Fifth International Conference on Machine 
Learning and Cybernetics, Dalian, pp. 1642-1646, 
2006. 
[23] TSANG E.C.C, DEGANG CHEN. YEUNG D.S., XI 
ZHAO WANG and JOHN W. T. LEE, Attributes 
Reduction Using Fuzzy Rough Sets, IEEE Transactions 
on Fuzzy Systems, Volume16, Issue 5 , pp. 1130 - 
1141, 2008. 
[24] YI CHENG, Forward approximation and backward 
approximation in fuzzy rough sets, Neurocomputing, 
Volume 148, pp. 340-353, 2015. 
[25] ZHAO MING, YAN ZHENGBO, ZHOU LIUKUN, 
WANG HUIJIE and XU XIAOGANG, The Extraction 
Method of the Energy Consumption Characteristics 
Based on Fuzzy Rough Set, Proceedings of Conference 
on Computational Intelligence and Bioinformatics 
(AASRI), pp. 142 – 149, 2012. 
[26] The UCI machine learning repository, 
Ngày nhận bài: 29/02/2016
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 
- 49 - 
SƠ LƢỢC VỀ TÁC GIẢ 
NGUYỄN VĂN THIỆN 
Si h ăm 1970 tại Phú Thọ. 
Tốt ghiệp ĐH B h kh H Nội 
 ăm 1996. Tốt ghiệp Thạ sỹ tại 
t ườ g ĐH Sư phạm H Nội ăm 
2000. 
Hiệ đ g ô g t tại : T ườ g 
ĐH Cô g ghiệp H Nội. 
Hướ g ghiê ứu: Hệ thố g thô g ti , Cơ sở dữ iệu, 
Kh i ph dữ iệu. 
Điệ th ại: 0902416668. 
Email: nvthien1970@gmail.com 
NGUYỄN LONG GIANG 
Sinh ăm 1975 tại H Nội. 
Tốt ghiệp ĐH B h kh H Nội 
 ăm 1997, thạ sĩ CNTT tại ĐH 
Cô g ghệ, ĐH Quố gi H Nội 
 ăm 2003. Nhậ ằ g tiế sỹ tại 
Việ CNTT, Việ H âm 
KH&CN Việt N m ăm 2012. 
Hiệ ô g t tại: Việ CNTT, Việ H âm 
KH&CN Việt N m. 
Hướ g ghiê ứu: Cơ sở dữ iệu, kh i ph dữ iệu v 
họ m y. 
Điệ th ại: 0904739189. 
Email: nlgiang@ioit.ac.vn 
NGUYỄN NHƢ SƠN 
Si h ăm 1974 tại Nghệ A . 
Tốt ghiệp ĐH B h kh H 
Nội ăm 1995, thạ sĩ CNTT tại 
t ườ g ĐH B h kh H Nội 
 ăm 2001. Nhậ ằ g tiế sỹ tại 
ĐH Queensland - Aust i ăm 
2007, huyê g h Kh họ 
m y t h. 
Hiệ ô g t tại: Việ CNTT, Việ H âm 
KH&CN Việt N m. 
Hướ g ghiê ứu: Hệ thố g thô g ti , Cơ sở dữ iệu, 
Kh i ph dữ iệu, T h t đ m mây. 
Điệ th ại: 0987039966. 
Email: nnson@ioit.ac.vn 

File đính kèm:

  • pdfve_phuong_phap_rut_gon_thuoc_tinh_trong_bang_quyet_dinh_voi.pdf