Bài giảng Xử lý ảnh - Chương 20: Nhận dạng mẫu: phân lớp và đánh giá

20.1. GIỚI THIỆU

Trong chương 18, chúng ta đã giới thiệu về nhận dạng mẫu thống kê và đã đề cập

đến việc tách và trích chọn các đối tượng từ một cảnh phức tạp. Chương 19 đã chỉ ra

các phương pháp xác định những đặc điểm của các đối tượng đó. Trong chương này,

chúng ta tiếp cận bài toán nhận biết các đối tượng bằng cách phân lớp chúng thành

từng nhóm. Có lẽ phải viết nhiều về chủ đề này và chúng ta chỉ có thể giới thiệu các

khái niệm cơ bản ở đây. Nếu muốn nghiên cứu đầy đủ hơn, độc giả nên tham khảo

tài liệu về chủ đề này (Phụ lục 2)

pdf 30 trang phuongnguyen 9840
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Xử lý ảnh - Chương 20: Nhận dạng mẫu: phân lớp và đánh giá", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Xử lý ảnh - Chương 20: Nhận dạng mẫu: phân lớp và đánh giá

Bài giảng Xử lý ảnh - Chương 20: Nhận dạng mẫu: phân lớp và đánh giá
 401 
Ch­¬ng 20 
NHẬN DẠNG MẪU: 
PHÂN LỚP VÀ ĐÁNH GIÁ 
20.1. GIỚI THIỆU 
Trong chương 18, chúng ta đã giới thiệu về nhận dạng mẫu thống kê và đã đề cập 
đến việc tách và trích chọn các đối tượng từ một cảnh phức tạp. Chương 19 đã chỉ ra 
các phương pháp xác định những đặc điểm của các đối tượng đó. Trong chương này, 
chúng ta tiếp cận bài toán nhận biết các đối tượng bằng cách phân lớp chúng thành 
từng nhóm. Có lẽ phải viết nhiều về chủ đề này và chúng ta chỉ có thể giới thiệu các 
khái niệm cơ bản ở đây. Nếu muốn nghiên cứu đầy đủ hơn, độc giả nên tham khảo 
tài liệu về chủ đề này (Phụ lục 2) 
20.2. PHÂN LỚP 
20.2.1. Chọn lọc đặc trưng 
Nếu ta muốn một hệ thống phân biệt các loại đối tượng khác nhau, đầu tiên chúng 
ta phải quyết định nên xác định những đặc điểm nào để tạo ra các tham số miêu tả. 
Các đặc điểm riêng biệt cần xác định gọi là các đặc trưng của đối tượng và các giá trị 
tham số kết quả gồm có vec tơ đặc trưng đối với từng đối tượng. Việc chọn lựa các 
đặc trưng thích hợp là rất quan trọng, vì chỉ có chúng mới được sử dụng để nhận biết 
đối tượng. 
Có vài phương tiện phân tích để hướng dẫn chọn lựa các đặc trưng. Khả năng trực 
giác thường xuyên chỉ đạo danh sách các đặc trưng có ích tiềm tàng. Các kỹ thuật 
sắp xếp đặc trưng tính toán có liên quan đến số lượng các đặc trưng khác nhau. Điều 
này cho phép lược bớt danh sách chỉ còn một vài đặc trưng tốt nhất. 
Các đặc trưng tốt có bốn đặc điểm: 
1. Sự phân biệt đối xử. Các đặc trưng phải nhận những giá trị khác nhau một cách 
đáng kể đối với các đối tượng thuộc các lớp khác nhau. Ví dụ, đường kính là 
dặc tính tốt trong ví dụ sắp xếp trái cây ở chương 18, vì nó nhận những giá trị 
khác nhau đối với những quả sơ ri và những quả nho. 
2. Tính tin cậy. Các đặc trưng phải nhận các giá trị giống nhau đối với mọi đối 
tượng cùng lớp. Ví dụ, màu sắc có thể là đặc trưng kém đối với những quả táo 
nếu chúng xuất hiện theo các mức độ chín không ổn định. Tức là, một quả táo 
xanh và một quả táo chín (đỏ) có thể rất khác nhauvề màu sắc, mặc dù cả hai 
đều thuộc lớp đối tượng là các quả táo. 
3. Tính độc lập. Nhiều đặc trưng được sử dụng khác nhau không được tương quan 
với nhau. Đường kính và trọng lượng của một trái cây sẽ tạo thành các đặc 
trưng tương quan chặt, vì trọng lượng tỷ lệ gần đúng với đường kính mũ ba. 
Bài toán mà cả đường kính lẫn trọng lượng về bản chất đều phản ánh cùng một 
tính chất, ấy là kích thước của trái cây. Trong khi các đặc trưng tương quan 
chặt có thể kết hợp (ví dụ, bằng cách lấy trung bình tất cả chúng cùng với nhau) 
 402 
để làm giảm tính nhậy cảm đối với nhiễu, thì nói chung chúng lại không được 
sử dụng như những đặc trưng độc lập. 
4. Các số nhỏ. Tính phức tạp của một hệ thống nhận dạng mẫu tăng nhanh chóng 
theo kích cỡ (số các đặc trưng được dùng) của hệ thống. Quan trọng hơn là số 
các đối tượng cần có để huấn luyện bộ phân lớp và để đo lường hiệu suất của 
nó tăng theo cấp số mũ với số các đặc trưng. Trong vài trường hợp, để có thể 
đạt được lượng dữ liệu cần thiết cho việc huấn luyện bộ phân lớp tương xứng 
chỉ là điều hão huyền. Cuối cùng, việc thêm các đặc trưng nhiễu hay đặc trưng 
tương quan chặt với các đặc trưng hiện có có thể làm suy giảmhiệu suất của 
những bộ phân lớp, đặc biệt bởi vì kích thước giới hạn của tập huấn luyện. 
Trong thực tế, quá trình chọn lựa đặc trưng thường bao gồm cả việc kiểm tra tập 
các đặc trưng hợp lý quatrực giác và việc giảm tập xuống còn một số các đặc trưng 
tốt nhất có thể chấp nhận. Thường có ít hoặc không có sẵn các đặc trưng lý tưởng 
dưới dạng các tính chất đã nói ở trên. 
20.2.2. Thiết kế bộ phân lớp 
Thiết kế bộ phân lớp bao gồm việc thiết lập cấu trúc logic của bộ phân lớp và cơ 
sở toán học của quy tắc phân lớp. Thông thường, đối với mỗi đối tượng thường gặp, 
sự phân lớp tính toán, với từng lớp, giá trị báo hiệu (bằng độ lớn của nó) mức độ mà 
đối tượng đó tương tự đối tượng điển hình của lớp đó. Giá trị này được tính như một 
hàm đặc trưng và nó được dùng để chọn lớp gần giống với công việc được giao nhất. 
Hầu hết các quy tắc quyết định bộ phân lớp đều giảm đến một vạch ngưỡng phân 
chia các không gian kích cỡ thành các vùng rời nhau, mỗi lớp một (hoặc nhiều) vùng. 
Mỗi vùng (phạm vi các giá trị đặc trưng) ứng với một lớp riêng lẻ. Nếu các giá trị 
đặc trưng nằm trong một vùng riêng biệt thì đối tượng được ấn định cho lớp tương 
ứng. Trong vài trường hợp, một hoặc nhiều vùng như vậy có thể ứng với một lớp 
“không xác định”. 
20.2.3. Huấn luyện bộ phân lớp 
Một khi các quy tắc quyết định cơ bản của bộ phân lớp đã được thiết lập thì ta 
phải xác định các giá trị ngưỡng riêng biệt phân tách các lớp. Điều này thường được 
thực hiện bằng cách huấn luyện bộ phân lớp theo nhóm các đối tượng đã biết. Tập 
huấn luyện là một tập hợp các đối tượng từ mỗi lớp đã được nhận biết trước đó bằng 
một phương pháp chính xác nào đó. Các đối tượng trong tập huấn luyện được đo, và 
không gian kích cỡ được phân chia, bằng các bề mặt quyết định, thành các vùng mà 
độ chính xác của bộ phân lớp là tối đa khi nó hoạt động trên tập huấn luyện. 
Khi huấn luyện một bộ phân lớp, ta có thể sử dụng quy tắc đơn lẻ, ví dụ như tối 
thiểu hoá tổng các sai số phân lớp. Nếu một vài sự phân lớp sai lầm có thể gây rắc rối 
hơn những cái khác thì ta có thể thiết lập một hàm giá để giải thích điều này bằng 
cách cân nhắc các sai số khác nhau một cách gần đúng. Các đường quyết định sau đó 
được đặt vào để tối thiểu hoá toàn bộ “giá” của việc thao tác bộ phân lớp. 
Nếu tập huấn luyện là biểu diễn của các đối tượng nói chung thì bộ phân lớp loại 
cũng phải thực hiện xung quanh các đối tượng mới giống như nó đã từng thực hiện 
trên tập huấn luyện. Có được một tập huấn luyện đủ lớn thường là một công việc 
gian khổ. Để được thể hiện, tập huấn luyện phải bam gồm các ví dụ về tất cả những 
đối tượng có thể gặp, kể cả những đối tượng hiếm khi nhìn thấy. Nếu tập huấn luyện 
ngăn chận một đối tượng không phổ biến nào đó, thì nó không biểu hiện. Nếu nó 
chứa các sai số phân lớp thì nó bị thành kiến. 
 403 
20.2.4. Xác định hiệu suất 
Sự chính xác của một bộ phân lớp có thể được đánh giá trực tiếp bằng cách liệt kê 
hiệu suất của nó dựa trên tập các đối tượng kiểm tra đã biết. Nếu tập kiểm tra đủ lớn 
để biểu diễn các đối tượng lớn và nếu nó không có sai số, thì hiệu suất được đánh giá 
có thể rất hữu ích. 
Một phương pháp lựa chọn cho việc đánh giá hiệu suất là sử dụng tập kiểm tra của 
các đối tượng đã biết để đánh giá PDF của những đặc trưng theo từng nhóm. Từ 
những PDF cơ bản đã cho, ta có thể sử dụng các tham số phân lớp để tính tỷ lệ sai số 
mong muốn. Nếu đã dạng tổng quát của các PDF đó thì kỹ thuật này có thể sử dụng 
tập kiểm tra kích thước ở mép tốt hơn. 
Ta muốn có được hiệu suất của bộ phân lớp trên tập huấn luyện như một phép đo 
toàn bộ hiệu suất của nó, nhưng đánh giá này thường bị nghi ngờ về tính lạc quan. 
Một phương pháp tiếp cận tốt hơn là sử dụng một tập kiểm tra riêng biệt đối với việc 
đánh giá hiệu suất của bộ phân lớp. Tuy nhiên, điều này làm tăng đáng kể sự cần 
thiết của những dữ liệu trước phân lớp. 
Nếu những đối tượng đã phân lớp trước đây được đánh giá cao, thì ta có thể sử 
dụng một thủ tục vòng luân chuyển mà trong đó bộ phân lớp được huấn luyện với 
hầu hết mọi đối tượng và tiếp theo sau là đối tượng đó được phân lớp. Khi điều này 
được thực hiện với tất cả các đối tượng thì ta sẽ có một đánh giá của toàn bộ hiệu 
suất thực hiện của bộ phân lớp. 
20.3. CHỌN LỰA ĐẶC TRƯNG 
Trong một bài toán nhạn dạng mẫu, ta thường phải đối mặt với côngviệc chọn lựa 
trong nhiều đặc trưng sẵn có, đặc trưng nào xác định và thể hiện bộ phân lớp. Bài 
toán chọn lựa đặc trưng đã nhận được sự quan tâm đáng kể trong tài liệu, nhưng lại 
nổi lên tình trạng không rõ ràng. Phần này dành cho độc giả như một vấn đề lý thú. 
Như đã lưu ý trước đây, ta tìm kiếm một tập nhỏ các đặc trưng tin cậy, độc lập và 
sự phân biệt đối xử. Nói chung, ta mong muốn làm suy giảm hiệu suất của bộ phân 
lớp khi các đặc trưng được đánh giá, ít ra cũng là những đặc trưng hữu ích. Thực tế, 
đánh giá nhiễu hay các đặc trưng tương quan chặt có thể thực sự cải tiến hiệu suất 
thực hiện. 
Sau đó, chọn lựa đặc trưng có thể được coi như quá trình đánh giá một vài đặc 
trưng và kết hợp các đặc trưng có liên quan khác, cho đến khi tập đặc trưng trở nên 
dễ sử dụng và sự thực hiện vẫn còn chính xác. 
Nếu tập đặc trưng được giảm từ M đặc trưng xuống còn một lượng N nào đó nhỏ 
hơn, thì chúng ta sẽ tìm kiếm tập N đặc trưng riêng biệt để tối thiểu hoá toàn bộ việc 
thực hiện bộ phân lớp. 
Một phương pháp tiếp cận bằng cách lặp đi lặp lại một thủ tục đơn giản nhiều lần 
để chọn lựa đặc trưng được cho dưới đây. Đối với tất cả các tập con của N đặc trưng 
có thể có, huấn luyện bộ phân lớp, và xác định hiệu suất của nó bằng cách liệt kê các 
tỷ số phân lớp nhầm các nhóm khác nhau của bộ phân lớp. Sau đó tạo ra một chỉ số 
hiệu suất tổng thể là một hàm tỷ số lỗi. Cuối cùng, sử dụng tập N đặc trưng đó để tạo 
ra chỉ số hiệu suất tốt nhất. 
Dĩ nhiên bài toán với cách tiếp cận bằng cách lặp đi lặp lại một thủ tục đơn giản 
nhiều lần là một khối lượng khổng lồ đối với tất cả trừ các bài toán nhận dạng mẫu 
đơn giản nhất. Thực tế, thường thì tài nguyên chỉ đủ để huấn luyện và đánh giá bộ 
phân lớp. Trong đa số các bài toán thực tiễn, phương pháp tiếp cận bằng cách lặp đi 
 404 
lặp lại một thủ tục đơn giản nhiều lần là không thực tế và một kỹ thuật ít tốn tiền phải 
được sử dụng để đạt được cùng một mục đích. 
Trong phần thảo luận dưới đây, chúng ta sẽ xem xét trường hợp giảm một bài toán 
hai đặc trưng xuống còn một đặc trưng đơn giản. Giả sử tập huấn luyện là có sẵn và 
chứa các đối tượng của M lớp khác nhau. Đặt Nj là số đối tượng trong lớp j. Hai đặc 
trưng xij và yij thu được khi xác định đối tượng thứ i trong lớp j. Ta có thể khởi đầu 
bằng việc tính giá trị trung bình của từng đặc trưng trong mỗi lớp: 
 

jN
i
ij
j
xj xN 1
1
 (1) 
và 
 

jN
i
ij
j
yj yN 1
1
 (2) 
Dấu mũ trên đầu xj và yj nhắc ta rằng đây là những đánh giá của các giá trị trung 
bình trong lớp dựa trên tập huấn luyện, chứ không phải là các giá trị trung bình thật 
sự của lớp. 
20.3.1. Độ lệch đặc trưng 
Lý tưởng mà nói, các đặc trưng phải nhận các giá trị giống nhau đối với mọi đối 
tượng trong cùng một lớp. Độ lệch đặc trưng x trong lớp j được đánh giá là 
 

jN
i
xjij
j
xj xN 1
2
2 1  (3) 
và đối với đặc trưng y là 
 

jN
i
yjij
j
yj yN 1
2
2 1  (4) 
20.3.2. Tương quan đặc trưng 
Sự tương quan của các đặc trưng x và y trong lớp j có thể được đánh giá bởi 
yjxj
N
i
yjijxjij
j
xyj
j
yx
N



 



1
1
 (5) 
Đại lượng này nằm giữa -1 và +1. Giá trị 0 cho thấy rằng hai đặc trưng là không 
tương quan, trong khi giá trị gần +1 cho thấy một mức đọ cao của sự tương quan. Giá 
trị -1 chứng tỏ rằng mỗi biến tỷ lệ với giá trị âm của biến khác. Nếu độ lớn của một 
tương quan xấp xỉ 1, thì hai đặc trưng có thể được kết hợp thành một hay có thể bỏ đi 
một trong hai đặc trưng đó. 
20.3.3. Khoảng cách phân tách lớp 
Một phép tính xác đáng về khả năng của một đặc trưng để phân biệt hai lớp là 
khoảng cách độ lệch đã chuẩn hoá giữa các giá trị trung bình của lớp. Với đặc trưng 
x, khoảng cách này được cho bởi 
 405 
22
xkxj
xkxj
xjkD





 (6) 
trong đó j, k là hai lớp. Rõ ràng, đặc trưng cao hơn là đặc trưng tạo ra sự tách lớp 
phổ biến nhất. 
20.3.4. Giảm chiều 
Có nhiều phương pháp kết hợp hai đặc trưng x và y thành một đặc trưng z đơn lẻ. 
Một phương pháp đơn giản là sử dụng một hàm tuyến tính (Xem phần 13.6.2.1) 
 byaxz (7) 
Bởi vì hiệu suất phân lớp không bị ảnh hưởng bởi việc lấy tỷ lệ độ lớn của các đặc 
trưng, chúng ta có thể lợi dụng sự hạn chế về độ lớn, ví dụ như 
 122 ba (8) 
Biểu thức này có thể hợp nhất với biểu thức (7) bằng cách viết 
  sincos yxz (9) 
trong đó  là một biến mới chỉ rõ tỷ lệ của x và y trong biểu thức. 
Nếu mỗi đối tượng trong tập huấn luyện tương ứng với một điểm trong không 
gian đặc trưng hai chiều (ví dụ mặt phẳng x, y), thì biểu thức (9) miêu tả mọi điểm 
lên trục z, làm thành với trục x một góc . Điều này được cho trong bảng 20-1. Rõ 
ràng,  phải được chọn để tối thiểu hoá sự tách lớp hay một tiêu chuẩn chất lượng 
nào đó của một đặc trưng. Để hiểu thêm về sự giảm chiều, độc giả nên tham khảo 
một cuốn sách nói về nhận dạng mẫu. 
HÌNH 20-1 
Hình 20-1 Giảm chiều bằng phép chiếu 
20.4. SỰ PHÂN LỚP THỐNG KÊ 
Trong phần này, chúng ta sẽ xem xét một vài phương pháp thống kê phổ biến 
được dùng cho phân lớp. 
 406 
20.4.1. Lý thuyết quyết định thống kê 
Giả sử chúng ta có một bài toán sắp xếp trái cây đơn giản như trong chương 18, 
nhưng chỉ với hai lớp và một đặc trưng đơn lẻ. Nghĩa là các đối tượng thể hiện chính 
bản thân chúng theo lớp 1 (anh đào) hoặc lớp 2 (táo). Đối với mỗi đối tượng, ta xác 
định một tính chất, đường kính, và ta gọi đặc trưng này là x. 
Có thể biết trước PDF của đường kính x đối với một hay cả hai lớp đối tượng. Ví 
dụ, Hiệp hội nông dân trồng anh đào có thể phát hành một bản tin mở đầu là đường 
kính trung bình của các quả anh đào là 20 mm và PDF là xẫpỉ hàm Gauss với độ lệch 
tiêu chuẩn là 4 mm. Nếu không biết PDF của đừng kính những quả táo, ta có thể ước 
lượng nó bằng cách đo một lượng lớn các quả táo, vẽ lược đồ các đường kính của 
chúng và tính trung bình và độ lệch. Sau đó chuẩn hoá thành đơn vị diện tích và có lẽ 
nên làm trơn, có thể coi lược đồ này như một ước lượng củaPDF tương ứng. 
20.4.1.1. Xác suất tiên nghiệm 
Nói chung, đó là khả năng một lớp hầu như sẽ xuất hiện không theo thứ tự. Ví dụ, 
giả sử băng truyền trong ví dụ sắp xếp trái cây đã biết, vận chuyển số anh đào nhiều 
gấp hai lần số táo mỗi chu kỳ vận hành. Vì thế, ta có thể nói rằng một xác suất tiên 
nghiệm của hai lớp là 
3
1
3
2
2 CPCP i vµ (10) 
Các biểu thức này phát biểu đơn giản rằng lớp 1 có khả năng xuất hiện gấp hai lần 
lớp 2. Xác suất tiên nghiệm biểu diễn điều mà chúng ta biết về một đối tượng trước 
khi nó được xác định. Trong ví dụ này, chúng ta ta biết rằng một đối tượng chưa xác 
định là anh đào có khả năng xuất hiện gấp hai lần táo. 
Xác suất có điều kiện. Hình 20-2 trình bày hình dạng của hai PDF. Ta ký hiệu 
PDF có điều kiện đối với đường kính anh đào là P(x|C1), có thể đọc là “xác suất mà 
đường kính x sẽ xuất hiện, khi đã biết xác suất xuất hiện đối tượng thuộc lớp 1”. 
Tương tự, P(x|C2) là xác suất xuất hiện của đường kính x, khi đã biết xác suất xuất 
hiện lớp 2. 
HÌNH 20-2 
Hình 20-2 Các PDF có điều kiện 
20.4.1.2. Định lý Bayes 
Trước khi một đối tượng được xác định, ta chỉ biết nó chỉ gồm xác suất tiên 
nghiệm của biểu thức (10). Tuy nhiên, sau khi xác định, ta có thể sử dụng số đo và 
 407 
các PDF có điều kiện để chứng tỏ hiểu biết của ta về thành viên lớp của đối tượng. 
Sau khi xác định, cái gọi là xác suất hậu nghiệm để đối tượng thuộc lớp i được cho 
bởi định lý Bayes; tức là, 
 xp
CPCxp
xCP iii
|
| (11) 
 ... lớp. Đối 
với vấn đề này, chúng ta đưa ra chủ đề ước lượng tỷ lệ thức từ lĩnh vực thống kê. 
 424 
20.6.1. Trường hợp hai lớp, không sai số 
Định nghĩa. Giả sử chúng ta muốn xác định tỷ lệ p của số sinh viên nữ trong một 
trường đại học (0 p 1). Chúng ta bắt đầu với các định nghĩa như sau: 
 Pp {lựa chọn sinh viên ngẫu nhiên là nữ} (40) 
 Pq {lựa chọn sinh viên ngẫu nhiên được gọi là nữ} (41) 
Vì chúng ta đang giả thiết rằng chúng ta có thể chỉ ra số sinh viên nữ mà không có 
sai sót nào, p và q hoàn toàn giống nhau trong trường hợp này. 
Tiếp theo chúng ta đưa ra một thí nghiệm bằng cách phỏng vấn N sinh viên được 
chọn lựa ngẫu nhiên. Chúng ta tìm được n trong số họ là nữ và N - n trong số họ là 
nam. Tự nhiên ta có tỷ lệ mẫu, 
N
nq 

 (42) 
như một ước lượng của tỷ lệ sinh viên nữ. Tuy nhiên, trừ khi N đủ lớn để bao gồm 
toàn bộ số sinh viên, sẽ chẳng có gì tốt hơn một ước lượng của tỷ lệ p cơ bản thực sự. 
Nếu N là nhỏ, nó có thể là một ước lượng kém. Khác biệt giữa giá trị của

q từ một thí 
nghiệm cụ thể nào đó với tỷ lệ thực sự p có thể quy về sai số lấy mẫu thống kê. 
20.6.1.1. Sự phân bố của ước lượng 
Nếu chúng ta lặp lại thí nghiệm trên nhiều lần, chúng ta sẽ quan sát được các giá 
trị khác nhau của 

q . Trong thực tế, 

q là một biến ngẫu nhiên với phân bố nhị thức. 
Với N lớn (chẳng hạn, lớn hơn 24), phân bố này là xấp xỉ của Gauss (chuẩn hoá) với 
giá trị trung bình và độ lệch tiêu chuẩn tưng ứng. 
N
pppq q
1
 vµ (43) 
Nhắc lại rằng xấp xỉ 95% diện tích phân bố chuẩn nằm trong phạm vi hai độ lệch 
tiêu chuẩn trên mỗi phần giá trị trung bình. Do đó, ta có thể nói với độ tin cậy 95% 
mà bất kỳ một tỷ lệ quan sát

q nào cũng nằm giữa p - 2q và p + 2q. 
Khi kích thước mẫu tăng, sự phân bố trở nên từ từ hẹp lại hơn xung quanh giá trị 
trung bình p của nó, đó thực sự là tỷ lệ sinh viên nữ trong trường đại học. Vì thế, 
chúng ta có thể ước lượng p càng chính xác như mong muốn bằng cách thực hiện với 
N đủ lớn. 
Bởi vì chúng ta không biết bắt đầu với giá trị p nào, nên thật khó khăn để tính q. 
Tại nơi bắt đầu, chúng ta có thể thực hiện nó an toàn bằng cách giả định trường hợp 
xấu nhất. Chú ý là p = 0.5% sẽ cực đại hoá q, vì vậy việc sử dụng giá trị đó sẽ mang 
lại một ước lượng có chừng mực đối với độ rộng của phân bố. Sau khi dữ liệu được 
thu thập, chúng ta thay thế

q vào p trong biểu thức (43) để có một ước lượng tốt hơn. 
20.6.1.2. Ví dụ: thăm dò ý kiến 
Một ví dụ cụ thể, cho N = 1000. Giả sử rằng p = 0.5; q =1.58% và khoảng tin cậy 
của chúng ta xấp xỉ 3%. Đây là phương pháp thường dùng cho kịch bản đối với 
 425 
việc thăm dò chính trị được đăng tải trên các báo. Họ chất vấn một ngàn người và 
xác nhận độ chính xác là 3%. 
20.6.2. Trường hợp hai lớp với sai số phân loại 
Nguyên lý trên đây có thể áp dụng nếu chúng ta phân loại các đối tượng bằng bộ 
phân lớp hai lớp không sai số và sử dụng các kết quả để đánh giá tỷ lệ. Giả sử rằng 
phương pháp của chúng ta để xác định giới tính không rõ ràng cho lắm. Ở đây, chúng 
ta xem xét sai số phân loại ảnh hưởng tới việc đánh giá tỷ lệ. 
Cho hai tỷ lệ sai số của bộ phân lớp là 
 P 1 {nữ được gọi là nam} (44) 
Và 
 P 2 {nam được gọi là nữ} (45) 
Ngoài ra,

q = n/N được phân bố bình thường (gần đúng với N lớn), nhưng giá trị 
trung bình của phân bố bây giờ là 
 p-1 2 11pq (46) 
đây là xác suất hoặc là giới tính nữ sẽ được phânguyên lýớp chính xác hoặc là giới 
tính nam được phân lớp không chính xác. 
20.6.2.1. Lệch bộ ước lượng (Estimator Bias) 
Chú ý rằng giá trị trung bình của phân bố không lớn hơn tỷ lệ thực p, khi nó nằm 
trong trường hợp không có sai số. Nó có thể cao hơn hoặc thấp hơn, thuỳ thuộc vào 
các giá trị liên quan của hai tỷ lệ sai số. Ở đây, sai số phân lớp đã được làm lệch 
thành ước lượng tỷ lệ. Tất nhiên nếu cả hai tỷ lệ sai số đều bằng 0, thì trường hợp 
này sẽ giảm xuống mức trước đó. 
Độ lệch tiêu chuẩn phân bố của

q là: 
N
qq
q
1
 (47) 
Biểu thức này có xu hướng trở về 0 khi mẫu trở lên lớn hơn. Giống như giá trị 
trung bình, nó có thể lớn hơn hay nhỏ hơn trong trường hợp không có sai số. Điều lo 
lắng là các kích thước mẫu lớn hơn sẽ gây ra sự phân bố của

q trở lên hẹp lại xung 
quanh đáp số sai. Vế trái không được kiểm tra, điều này có thể gây trở ngại nghiêm 
trọng đối với việc ước lượng tỷ lệ tự động. 
20.6.2.2. Chống lệch bộ ước lượng (Unbiasing estimator) 
Mặc dù giá trị

q có được từ một thí nghiệm bất kỳ là một ước lượng lệch của p, nó 
là một ước lượng không lệch của q, xác suất để phân lớp một sinh viên là nữ (biểu 
thức (41)). Nếu biết trước tỷ lệ sai số thì chúng ta có thể tính ước lượng không lệch 
của p từ 
21
2
1 


 qp (48) 
 426 
Ở đây, chúng ta giải biểu thức (46) theo p và thay 

q cho q. Bây giờ, p một lần nữa 
là giá trị trung bình của sự phân bố bộ ước lượng

p và chúng ta có thể đánh giá tỷ lệ 
chính xác đến độ mong muốn, chứng tỏ rằng chúng ta muốn tập hợp đầy đủ dữ liệu. 
Chú ý rằng bất kỳ sai số nào trong giá trị 1 hay 2 sẽ không làm giảm tính chính 
xác của công thức trên. Bởi vì, có các tye lệ sai số bộ phân lớp, nên chúng thường 
phải được đánh giá bằng thử nghiệm. Tập thử nghiệm phải có kích thước thích hợp 
và đại diện cho tất cả. 
20.6.3. Trường hợp nhiều lớp 
Chúng ta có thể mở rộng trình bày trước đây để kiểm soát trường hợp có nhiều 
hơn hai lớp. 
20.6.3.1. Các định nghĩa 
Giả sử có K kiểu đối tượng khác nhau. Chúng ta có một véc tơ p của các tỷ lệ, với 
các thành phần: 
 pi = P{đối tượng được lựa chọn một cách ngẫu nhiên tuỳ thuộc vào lớp thứ i} (49) 
trong đó i = 1, ..., K. Các tỷ lệ sai số bộ phân lớp có thể được xác định theo dạng 
của ma trận kết hợp C có các phần tử: 
 cịj = P{đối tượng của lớp thứ i được ấn định cho lớp thứ j} (50) 
trong đó j = 1, ...., K. Theo các số hạng này, ma trận hỗn hợp là một mảng các xác 
suất phân lớp. Các tác giả khác thường sử dụng cùng một tên cho một mảng các kết 
quả phân lớp không chuẩn hoá. 
Chúng ta đặt q là vec tơ của các xác suất phân lớp đối tượng với các phần tử 
 qj= P{đối tượng được lựa chọn một cách ngẫu nhiên theo lớp thứ j } (51) 
được cho bởi 
 pCq T
K
i
ijij Cpq 
 hay
1
 (52) 
Nếu bộ phân lớp kiểm tra N đối tượng và ấn định nj của chúng cho lớp j, thì bộ 
ước lượng có khả năng xảy ra tối đa của q là vec tơ 

q , có các phần tử 
N
n j 

q (53) 
20.6.3.2. Bộ ước lượng 
Tương tự với trường hợp hai lớp, bây giờ chúng ta tìm kiếm một vec tơ

p mà (a) 
dựa trên 

q , (b) là một bộ ước lượng không lệch của p, và (c) tối thiểu hoá sai số bình 
phương trung bình được cho bởi 
 

K
i
iii ppN
MSEE
1
21
 (54) 
 427 
trong đó [] là phép toán dự tính và  là một vec tơ của các trọng số không âm cho 
phép chúng ta nhấn mạnh những lớp có các sai số nghiêm trọng nhất. Trong khi đó 
giá trị của i là tuỳ ý, thì chúng ta có thể chọn tỷ lệ thích hợp sao cho tổng của chúng 
là 1 mà không làm mất tính tổng quát. Nếu không tính đến sự liên quan trọng số thì 
chúng ta có thể làm cho tất cả các phần tử của  bằng nhau. 
Bộ ước lượng không lệch của p là 
     qCp 1T (55) 
Đây là biểu thức tổng quát nhiều lớp của biểu thức (48). Nó cho biết rằng việc 
nhân 

q với nghịch đảo của ma trận kết hợp sẽ loại bỏ sự lệch do sai số phân lớp sai. 
Như trên, tỷ lệ sai số phải được biết một cách chính xác. 
20.6.3.3. Ma trận mập mờ (Befuddlement) 
Sai số ước lượng bình phương trung bình thực tế là 
  BpT
K
i
iii N
pp
N
MSEE 111
1
 
 (56) 
trong đó ma trận B có các phần tử 
  
K
i
mllimlml CCB
1
21  (57) 
trong đó ml là hàm delta Kronecker, chẳng hạn, 
1,0
1,1
m
m
ml 
 (58) 
Chỉ phụ thuộc vào ma trận kết hợp, B là một biểu thức của các tỷ lệ sai số bộ phân 
lớp. Nó được gọi là ma trận mập mờ (Befuddlement) để tránh sự kết hợp. Các phần 
tử của ma trận này là không âm. Nếu bộ phân lớp là tốt (chẳng hạn, các phần tử 
ngoài đường chéo của C nhỏ) thì B xấp xỉ ma trận kết hợp bằng cách thay 1 - cij vào 
đường chéo. 
Giống như với B, các phần tử của p và  đều không âm. Vì thế, số hạng thứ hai 
của biểu thức (56) có thể không bao giờ âm và không thể giảm MSEE, không có ảnh 
hưởng đến p và  nhận được. 
Khi bộ phân lớp không có sai số (chẳng hạn, khi C = I), tất cả các phần tử của B 
đều là 0 và số hạng thứ hai suy giảm dần. Điều này để lại số hạng thứ nhất khi sai số 
bộ ước lượng chỉ có được từ kích thước mẫu giới hạn. Do đó, theo lý thuyết, ta có thể 
đánh giá các tỷ lệ với mức độ chính xác bất kỳ mong muốn (thậm chí với bộ ước 
lượng kém) bằng cách xem xét một lượng đối tượng đủ lớn. 
Biểu thức (56) cũng cho phép ta so sánh các bộ phân lớp khác nhau để chọn ra 
một bộ hỗ trợ tốt nhất cho việc đánh giá tỷ lệ. Căn cứ vào ma trận kết hợp của một 
bộ phân lớp riêng biệt, ta có thể tính thành phần mập mờ của MSEE (ví dụ, pTB) 
mà bộ phân lớp sẽ đóng góp. Bộ phân lớp đóng góp ít sai số mập mờ nhất là tốt hơn 
cho công việc đánh giá tỷ lệ. 
Với một bộ phân lớp tồi, thành phần sai số mập mờ trong biểu thức (56) sẽ bị chi 
phối và đòi hỏi thêm nhiều mẫu để khắc phục những tác động phân lớp sai. Nói cách 
khác, nếu bộ phân lớp đủ tốt sao cho thành phần sai số mập mờ ít hơn đáng kể so với 
 428 
thành phần sai số lấy mẫu, thì sự cải thiện vượt bậc của bộ phân lớp có thể không 
đáng giá so với kết quả của sự cố gắng. 
20.6.3.4. Sự mập mờ hai lớp 
Bây giờ chúng ta quay trở lại với trờng hợp hai lớp. Nếu 1 và 2 nhỏ, ma trận 
mập mờ gần giống với 
22
11


B (59) 
và sai số mập mờ được cho bởi 
   21212  pT Bp (60) 
Bởi vì  chỉ xuất hiện như một tổng, nên chúng đơn thuần chỉ có tác dụng nhân tỷ 
lện trong trường hợp này. Hơn nữa, nếu p nhỏ (chẳng hạn, lượng nữ là hiếm), thì nó 
bằng 2 (phân loại nhầm thành nam) có mặt nhiều nhất trong MSEE và ngược lại nếu 
p lớn. Nếu sự hoà hợp xấp xỉ như nhau (p 0.5), thì cả hai sai số đều phiền toái như 
nhau. 
Thường thì một bộ phân lớp có một tham số điều chỉnh để điều khiển việc cân 
bằng các yếu tố khác nhau giữa 1 và 2 . Ta có thể giảm yếu tố tốn kém nhất bằng 
cách tăng cường các yếu tố khác. Trong trường hợp đó, biểu thức (60) đưa ra cách tối 
ưu hoá cách thiết lập. 
20.7. TỔNG KẾT NHỮNG ĐIỂM QUAN TRỌNG 
1. Các đặc trưng sử dụng đối với sự phân lớp phải phân biệt đối xử, tin cậy, độc 
lập và ít số. 
2. Một tập huấn luyện được sử dụng để thiết lập các tham số phải là điển hình và 
không bị lệch. 
3. Hiệu suất bộ phân lớp (tỷ lệ sai số) có thể đánh giá bằng cách phân lớp một tập 
thử nghiệm đã biết. 
4. Các đặc trưng hiệu quả có sự thay đổi nhỏ trong phạm vi lớp, tương quan thấp 
và sự tách biệt thay đỏi được chuẩn hoá giữa các giá trị trung bình của lớp. 
5. Định lý Bayes [biểu thức (11)] đưa ra xác suất của một đối tượng theo từng lớp 
riêng biệt. 
6. Quy tắc quyết định Bayes tối thiểu hoá độ rủi ro khi thao tác một bộ phân lớp. 
7. Các tham số chưa biết có thể ước lượng theo khả năng xảy ra tối đa và các kỹ 
thuật Bayes. 
8. Một mạng nơ ron là một sự tập hợp các phần tử xử lý giống nhau đã được kết 
nối và được sắp xếp theo lớp. Mối nút tính toán một tổng trọng số các đầu vào 
của nó và chuyển đầu ra của nó qua các nút trong lớp tiếp theo. 
9. Trong một mạng nơ ron sử dụng để nhận dạng mẫu, vec tơ đặc trưng được đặt 
vào lớp đầu tiên và lớp cuối cùng đưa ra một sự phân công công việc. 
10. Các mạng nơ ron được huấn luyện bằng cách áp dụng lặp đi lặp lại tập huấn 
luyện, với những điều chỉnh nho nhỏ tạo ra các trọng số liên kết tại mỗi bước. 
11. Một bộ phân lớp mạng nơ ron là mục tiêu của việc huấn luyện xếp chồng, 
trong đó nó tự điều chỉnh với tập huấn luyện. 
12. Hiệu suất của một bộ phân lớp mạng nơ ron được huấn luyện tốt thường 
giống hiệu suất của một bộ phân lớp được thiết kế tốt. Tri thức ít ỏi về bài toán 
 429 
rất cần thiết cho việc phát triển bộ phân lớp mạng nơ ron, nhưng có sẵn tri thức 
tối thiểu đối với quá trình thực hiện quyết định. 
13. Các sai số phân lớp đưa sự sai lệch vào trong một ước lượng tỷ lệ. Với một 
bộ ước lượng bị lệch, sự đáng giá không hội tụ về đúng tỷ lệ cơ bản khi kích 
thước mẫu tăng. 
14. Sự lệch lạc (bias) có thể được loại bỏ khỏi một ước lượng tỷ lệ bằng cách 
nhân vec tơ của các tỷ lệ quan sát được với nghịch đảo của ma trận kết hợp 
[biểu thức (55)]. Một kích thức mẫu lớn mạng lại các ước lượng tỷ lệ với độ 
chính xác tuỳ ý. 
15. Với một bôh ước lượng không bị lệch, sai số ước lượng bình phương trung 
bình có hai thành phần, một là do lấy mẫu và một là do phân lớp sai [biểu thức 
(56)]. Cả hai thành phần đều tiên tới 0 khi kích thước mẫu lớn. 
16. Một bộ phân lớp tốt hơn cho việc đánh giá tỷ lệ là bộ phân lớp mà có sai số 
mập mờ, pTB ,thấp. 
BÀI TẬP 
1. Trọng lượng trung bình của một quả cam là 100 gam, với độ lệch tiêu chuẩn là 
25 gam. Trọng lượng trung bình của một quả bưởi là 180 gam, với độ lệch tiêu 
chuẩn là 40 gam. Những quả cam thường bằng hay lớn gấp rưỡi những quả 
bưởi. Bảy quả trong một cái hộp riêng biệt nặng 80, 100, 120, 140, 160 và 200 
gam. Hộp đó chứa được bao nhiêu quả cam? 
2. Một trường đại học có số lượng sinh viên nam và nữ xấp xỉ bằng nhau. Trong 
một bộ ước lượng tỷ lệ giới tính sinh viên hai lớp, hai sai số phân loại nhầm 
luôn luôn bằng nhau, nhưng chúng có thể rút gọn bằng cách cải tiến thuật giải 
hơn nữa. Giá trị nào của 1 và 2 sẽ tạo ra sai số mập mờ bằng với sai số lấy 
mẫu? 1 và 2 có thể thấp đến bao nhiêu để sai số mập mờ chỉ bằng 1/8 sai số 
lấy mẫu? 
3. Trên sân một trường đại học nào đó, số lượng nam chiếm 3/4 nhóm sinh viên. 
trong một bộ ước lượng giới tính sinh viên hai lớp hiện có, sai số phân lớp 
nhầm của cả hai là 0.25. Có bao nhiêu sinh viên phải được phỏng vấn để giảm 
MSEE xuống còn 1%? Tỷ lệ sai số có thể giảm bằng cách cải tiến thuật giải. 
Bạn cố gắng giảm sai số nào để giảm bớt kích thước mẫu yêu cầu? Nếu bạn chỉ 
giảm một sai số, giá trị nào của 1 và 2 sẽ tạo ra sai số mập mờ bằng nửa sai số 
lấy mẫu? Có bao nhiêu sinh viên phải được phỏng vấn để giảm MSEE xuống 
còn 1%? 
DỰ ÁN 
1. Phát triển một bộ phân lớp Bayes hai lớp, hai đặc trưng và huấn luyện nó để 
định rõ số nam và nữ bằng cách dùng chiều cao và trọng lượng cơ thể như các 
đặc trưng. Viết một bài ngắn gọn mô tả quá trình thiết kế, huấn luyện và thực 
hiện của bộ phân lớp. 
2. Phát triển một chương trình phân lớp Bayes mà có thể xác định sự thích hợp 
của các quân bài (rô, cơ, chuồn, bích) trong các ảnh số của biểu tượng thích 
hợp. Kiểm tra chương trình bằng một người đánh bài. 
3. Huấn luyện một mạng nơ ron để phân lớp các vec tơ ngẫu nhiên từ ba phân bố. 
Sử dụng một tập huấn luyện nhỏ, chỉ ra sai số trên tập huấn luyện và trên một 
tập thử nghiệm riêng biệt như một hàm khối lượng của quá trình huấn luyện. 
Đưa ra bằng thực nghiệm để làm sáng tỏ việc huấn luyện xếp chồng. 
 430 
4. Sử dụng các lớp, đặc trưng, tập huấn luyện và tập thử nghiệm như nhau, so 
sánh hiệu suất của một mạng nơ ron và một bộ phân lớp Bayes. Viết một bài 
ngắn gọn để tổng kết những điều thuận lợi và không thuận lợi của chúng. 

File đính kèm:

  • pdfbai_giang_xu_ly_anh_chuong_20_nhan_dang_mau_phan_lop_va_danh.pdf