Tăng cường dữ liệu huấn luyện cho hệ thống học sâu phân vùng các polyp trên ảnh nội soi đại tràng sử dụng mạng sinh dữ liệu có điều kiện

Một trong những trở ngại chính của các hệ thống học sâu phân tích ảnh y tế nói chung và tự động phân vùng các polyp trên ảnh nội soi đại tràng hỗ trợ các bác sỹ trong trong quá trình nội soi nói riêng là sự thiếu hụt dữ liệu ảnh dùng để huấn luyện đã được gán nhãn bởi các chuyên gia y tế. Trong bài báo này, chúng tôi đề xuất một phương pháp sinh ảnh nội soi đại tràng có chứa các polyp sử dụng mạng sinh dữ liệu có điều kiện (CGAN) nhằm tăng số lượng mẫu huấn luyện cho hệ thống học sâu. Chúng tôi đề xuất sử dụng ảnh nhị phân thể hiện hình dạng polyp kết hợp với ảnh lọc cạnh của ảnh nội soi đại tràng bình thường làm điều kiện cho việc sinh ảnh nội soi có chứa polyp. Theo cách này, chúng tôi có thể tạo ra nhiều ảnh chứa polyp khác nhau trong khi vẫn duy trì nội dung tổng thể của ảnh nội soi. Phần thực nghiệm của chúng tôi cho thấy rằng, ảnh polyp tổng hợp được tạo ra không chỉ giống ảnh thực mà còn giúp nâng cao hiệu suất của hệ thống học sâu phát hiện và phân vùng các polyp trên ảnh nội soi

pdf 8 trang phuongnguyen 100
Bạn đang xem tài liệu "Tăng cường dữ liệu huấn luyện cho hệ thống học sâu phân vùng các polyp trên ảnh nội soi đại tràng sử dụng mạng sinh dữ liệu có điều kiện", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Tăng cường dữ liệu huấn luyện cho hệ thống học sâu phân vùng các polyp trên ảnh nội soi đại tràng sử dụng mạng sinh dữ liệu có điều kiện

Tăng cường dữ liệu huấn luyện cho hệ thống học sâu phân vùng các polyp trên ảnh nội soi đại tràng sử dụng mạng sinh dữ liệu có điều kiện
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 447
TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN CHO HỆ THỐNG HỌC 
SÂU PHÂN VÙNG CÁC POLYP TRÊN ẢNH NỘI SOI ĐẠI TRÀNG 
SỬ DỤNG MẠNG SINH DỮ LIỆU CÓ ĐIỀU KIỆN 
Lê Thị Thu Hồng1*, Nguyễn Chí Thành1, Phạm Thu Hương1, 
Nguyễn Sinh Huy1, Nguyễn Văn Đức2, Nguyễn Thành Trung2 
Tóm tắt: Một trong những trở ngại chính của các hệ thống học sâu phân tích 
ảnh y tế nói chung và tự động phân vùng các polyp trên ảnh nội soi đại tràng hỗ trợ 
các bác sỹ trong trong quá trình nội soi nói riêng là sự thiếu hụt dữ liệu ảnh dùng 
để huấn luyện đã được gán nhãn bởi các chuyên gia y tế. Trong bài báo này, chúng 
tôi đề xuất một phương pháp sinh ảnh nội soi đại tràng có chứa các polyp sử dụng 
mạng sinh dữ liệu có điều kiện (CGAN) nhằm tăng số lượng mẫu huấn luyện cho hệ 
thống học sâu. Chúng tôi đề xuất sử dụng ảnh nhị phân thể hiện hình dạng polyp kết 
hợp với ảnh lọc cạnh của ảnh nội soi đại tràng bình thường làm điều kiện cho việc 
sinh ảnh nội soi có chứa polyp. Theo cách này, chúng tôi có thể tạo ra nhiều ảnh 
chứa polyp khác nhau trong khi vẫn duy trì nội dung tổng thể của ảnh nội soi. Phần 
thực nghiệm của chúng tôi cho thấy rằng, ảnh polyp tổng hợp được tạo ra không chỉ 
giống ảnh thực mà còn giúp nâng cao hiệu suất của hệ thống học sâu phát hiện và 
phân vùng các polyp trên ảnh nội soi. 
Từ khóa: Mạng sinh dữ liệu; Tăng cường dữ liệu; Học chuyển giao; Phân vùng polyp. 
1. GIỚI THIỆU 
Ung thư đại trực tràng (CRC) là nguyên nhân phổ biến thứ ba gây tử vong liên quan đến 
ung thư trên thế giới cho cả nam và nữ, với 551.269 ca tử vong (chiếm 5,8% tổng số ca tử 
vong do ung thư) trên toàn thế giới vào năm 2018 [1]. CRC thường phát sinh từ các polyp 
tăng trưởng bất thường bên trong đại tràng, nội soi đại tràng là thủ thuật phổ biến để phát 
hiện các polyp từ đó sàng lọc, phát hiện sớm CRC. Trong thủ thuật nội soi, một ống dài linh 
hoạt (colonoscope) đầu có gắn máy quay phim nhỏ và đèn soi ở được đưa vào quét bộ đại 
tràng thu hình ảnh của niêm mạc đại tràng và hình ảnh này được phóng đại trên màn hình 
màu có độ nét cao, cho phép các bác sĩ xem xét bên trong của toàn bộ đại tràng. Chất lượng 
thủ thuật nội soi đại tràng phụ thuộc vào tay nghề, kinh nghiệm và sự tập trung của các bác 
sĩ nội soi, các nghiên cứu gần đây đã chỉ ra rằng 22% đến 28% polyp của bệnh nhân trong 
quá trình nội soi [2]. Các ứng dụng tự động phân vùng polyp trên ảnh nội soi sẽ hỗ trợ các 
bác sĩ nội soi cải thiện độ chính xác và giảm thiểu việc bỏ sót polyp trong quá trình nội soi. 
Hiện tại có các nghiên cứu sử dụng các mô hình học sâu cho tác vụ phân vùng polyp trên 
ảnh nội soi. Tuy nhiên, trở ngại chính trong việc sử dụng học sâu cho tác vụ này là không đủ 
dữ liệu nội soi được gán nhãn là các ảnh nhị phân thể hiện hình dạng của polyp (polyp mask) 
chính xác dùng để huấn luyện các mô hình học sâu, do đó cần có các phương pháp tăng số 
lượng mẫu dữ liệu học có gán nhãn cho huấn luyện mô hình học sâu từ đó nâng cao hiệu 
năng của mô hình. Thông thường, các kỹ thuật tăng cường dữ liệu (data augmentation) đơn 
giản như xoay (rotating) và lật (flipting), phóng to thu nhỏ (scaling), thay đổi độ sáng, làm 
mờ (blurring), thay đổi độ tương phản các ảnh gốc thường được sử dụng để tăng số lượng 
mẫu học cho các mô hình học sâu. Tuy nhiên, do các polyp trên ảnh nội soi có sự biên thiên 
về hình dạng, tỷ lệ và màu sắc rất lớn nên việc áp dụng các kỹ thuật tăng cường ảnh đơn giản 
chỉ có hiệu quả hạn chế đối với hiệu năng hệ thống vì không thay đổi được các đặc điểm của 
các polyp và sự cân bằng của nó với nền. 
Mạng sinh dữ liệu đối nghịch (GAN- Generative Adversarial Networks) [3] là mô hình 
mạng nơ ron có khả năng tạo các ảnh tổng hợp bằng cách sử dụng sự cạnh tranh của hai 
mạng nơ-ron: Bộ sinh (Generator) dùng để sinh ảnh và Bộ phân biệt (Discriminator) để 
Toán học – Công nghệ thông tin 
 L. T. T. Hồng, , N. T. Trung, “Tăng cường dữ liệu huấn luyện  có điều kiện.” 448 
phân biệt ảnh thật là các ảnh trong bộ dữ liệu thực và ảnh giả là ảnh do bộ Generator tạo 
ra. GAN là một phương pháp có hiệu quả để tăng cường dữ liệu cho các hệ thống học sâu. 
Mạng sinh dữ liệu có điều kiện [4] (CGAN- Conditional GAN) là một dạng GAN trong đó 
có kiểm soát Generator sinh ảnh theo điều kiện đầu vào nhất định. Trong nghiên cứu này, 
chúng tôi sử dụng mô hình Pix2Pix [5] là một mạng CGAN để sinh ảnh nội soi đại tràng 
có chứa polyp nhằm tăng số lượng mẫu huấn luyện từ đó tăng hiệu năng của hệ thống 
phân vùng polyp trên ảnh nội soi. Ngoài ra, để tạo ra ảnh nội soi có chứa polyp với polyp 
và nền hài hòa tự nhiên, chúng tôi đề xuất kết hợp lọc cạnh của ảnh nội soi đại tràng bình 
thường và ảnh nhị phân thể hiện hình dạng polyp (polyp mask) tạo nên đầu vào cho mô 
hình Pix2Pix. Hình 1 biểu diễn mô hình sinh ảnh nội soi đại tràng chứa polyp mà chúng tôi 
đề xuất, trong đó, G là bộ sinh (Generator), D là bộ phân biệt (Discriminator). Đầu vào của 
G là ảnh điều kiện x được tạo ra bằng kết hợp của lọc cạnh của ảnh nội soi và polyp mask, 
đầu ra của G là ảnh nội soi tổng hợp G(x). Đầu vào của D gồm 2 ảnh: ảnh điều kiện x (đầu 
vào của generator) và ảnh nội soi chứa polyp có thể là G(x) (đầu ra của generator) hoặc 
ảnh nội soi thực trong bộ dữ liệu y có nhãn là polyp mask được sử dụng để tạo ảnh điều 
kiện đầu vào x. Đầu ra của D là giá trị nhị phân thể hiện ảnh thật (real) là các ảnh trong bộ 
dữ liệu thực và ảnh giả (fake) là ảnh do bộ G tạo ra. 
Hình 1. Mô hình Pix2Pix sinh ảnh nội soi chứa polyp. 
Với mô hình sinh ảnh nội soi chứa polyp từ hình ảnh nội soi bình thường, chúng tôi có 
thể tạo ra nhiều hình ảnh nội soi chứa polyp khác nhau, điều này nhằm khắc phục khó 
khăn trong việc thu thập mẫu dữ liệu vì các trường hợp nội soi có polyp ít gặp hơn các 
trường hợp nội soi bình thường trong thực tế. Ngoài ra, chúng tôi đánh giá định lượng chất 
lượng tăng cường dữ liệu của mô hình sinh ảnh nội soi chứa polyp thông qua đánh giá hiệu 
năng của mô hình học sâu phân vùng polyp trên ảnh nội soi được huấn luyện với dữ liệu 
ảnh nội soi tổng hợp đã được sinh. 
Phần còn lại của bài báo này được tổ chức như sau: Phần 2 mô tả các phương pháp mà 
chúng tôi sử dụng trong nghiên cứu bao gồm: mô hình sinh dữ liệu ảnh nội soi có chứa 
polyp được đề xuất, phương pháp tạo ảnh điều kiện đầu vào, giới thiệu tóm tắt mô hình tự 
động phân vùng polyp trên ảnh nội soi và cách đánh giá khả năng cải thiện hiệu năng của 
mô hình do được tăng cường dữ liệu. Phần 3 sẽ trình bày các cài đặt thử nghiệm mô hình 
và các kết quả thử nghiệm. Cuối cùng là phần 4 sẽ đưa ra kết luận và hướng phát triển của 
nghiên cứu trong tương lai. 
2. PHƯƠNG PHÁP 
2.1. Mô hình mạng sinh dữ liệu đối nghịch có điều kiện Pix2Pix tạo ảnh nội soi 
chứa polyp 
Pix2Pix [5] là một mạng sinh dữ liệu đối nghịch có điều kiện cGAN, Generator của 
Pix2Pix có kiến trúc mạng dạng U-Net là một kiến trúc dựa trên mạng mã hóa-giải mã 
(encode-decode) với các kết nối (skip connections) giữa bộ mã hóa và bộ giải mã, các kết 
nối cộng này cung cấp thông tin cục bộ chính xác từ mỗi lớp mã hóa tới lớp giải mã. Hình 
2 mô tả kiến trúc của Generator trong mô hình Pix2Pix mà chúng tôi đã sử dụng, đầu vào 
của Generator ảnh x là ảnh điều kiện kích thước 256x256x3, đầu ra của Generator là ảnh 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 449
nội soi chứa polyps được tổng hợp cùng kích thước 256x256x3. Phần mã hóa bao gồm các 
khối ENCODE, mỗi khối bao gồm 3 phép biến đổi: Convolution-BatchNorm-LeakyReLU, 
trong khi đó phần giải mã bao gồm các khối DECODE bao gồm các phép: Transpose 
Convolution-BatchNorm-Dropout-ReLU với tỉ lệ dropout là 50%. 
Hình 2. Kiến trúc của bộ Generator. 
Với mô hình Pix2Pix thì Discriminator được triển khai dưới dạng PatchGAN. 
Discriminator trong mạng GAN bình thường chính là một bộ phân lớp nhị phân với toàn 
bộ ảnh đầu vào sẽ được phân lớp với nhãn đầu ra là 0 tức ảnh giả hoặc 1 tức ảnh thật, 
trong khi đó ý tưởng của PatchGAN [5] là thực hiện phân lớp nhị phân trên từng vùng ảnh 
nhỏ (patch) thay vì trên toàn bộ ảnh. Trong nghiên cứu này chúng tôi sử dụng PatchGAN 
70x70 nghĩa là kích thước của mỗi patch là 70x70 cho, đây là cấu hình của PatchGAN cho 
kết quả tốt nhất về hiệu suất và chất lượng ảnh. Hình 3 mô phỏng kiến trúc của Discrimitor 
được sử dụng, trong đó, Discriminator có đầu vào là 2 ảnh: một ảnh là ảnh điều kiện chính 
là đầu vào của generator và một ảnh là ảnh cần phân biệt có thể là đầu ra của generator 
hoặc ảnh thật tương ứng với đầu vào trong bộ dữ liệu học. Các ảnh đầu vào được xếp 
chồng qua khối CONCAT, tiếp sau đó được đi qua các khối ENCODE, mỗi khối bao gồm 
3 phép biến đổi: Convolution-BatchNorm-LeakyReLU. Kernel 4 × 4 và stride 2 × 2 được 
sử dụng trên tất cả các lớp trừ 2 lớp cuối cùng. 
Hình 3. Kiến trúc của Discriminator. 
Trong mô hình Pix2Pix mục tiêu của Generator (G) là học ánh xạ: G:x,z→y với x là ảnh 
nguồn, z là điều kiện đầu vào, y là ảnh đích. Mục tiêu của Discriminator (D) cố gắng phân 
biệt đâu là ảnh thật và đâu là ảnh giả, trong khi đó, G sẽ học để đánh lừa D rằng ảnh nó sinh 
ra là ảnh thật. Hàm mất mát (loss function) của Pix2Pix có thể được thể hiện như sau: 
ℒ(, ) = ,[(, )] + ,[log (1 − (, (, )))] (1) 
Trong đó: G(∙) và D(∙) biểu diễn đầu ra của Generator và Discriminator; E là kì vọng, 
hiểu đơn giản là lấy trung bình của tất cả dữ liệu. Để tạo ảnh thực hơn chúng tôi đã thêm 
vào hàm mục tiêu (1) thành phần L1 là hàm mất mát truyền thống tính bằng khoảng cách 
theo dạng chuẩn 1 giữa đầu ra và nhãn đúng thực sự (ground truth) của đầu vào: 
() = ,,‖ − (, )‖ (2) 
Hàm mất mát cuối cùng được biểu diễn như sau: 
∗ =  min

max

(, ) + () (3) 
Toán học – Công nghệ thông tin 
 L. T. T. Hồng, , N. T. Trung, “Tăng cường dữ liệu huấn luyện  có điều kiện.” 450 
Với: λ là tham số để kiểm soát cân bằng giữa 2 thành phần hàm mất mát;  cho 
phép GAN học được các chi tiết khung ảnh nhiều hơn còn sẽ cho phép học được các 
chi tiết nhỏ của ảnh, kết hợp hai hàm mất mát này với nhau sẽ cho ra kết quả tốt hơn. Bằng 
thực nghiệm theo phương pháp tìm kiếm lưới (grid search) chúng tôi đã chọn được tham 
số λ = 0.01 là giá trị cho kết quả sinh ảnh nội soi chứa polyp tốt nhất trên bộ dữ liệu thực 
nghiệm của chúng tôi đã sử dụng. 
2.2. Phương pháp tạo điều kiện đầu vào cho mạng sinh dữ liệu 
Chúng tôi đã đề xuất một phương pháp sinh các ảnh điều kiện đầu vào sử dụng các ảnh 
nội soi của ca bệnh bình thường tức ảnh nội soi không chứa các polyp. Hình 4 dưới đây 
minh họa phương pháp tạo ảnh ảnh đầu vào mà chúng tôi đề xuất: Hình a-ảnh nội soi bình 
thường không có polyp qua bộ dò cạnh sử dụng toán tử Sobel được hình b- ảnh lọc cạnh. 
Sau đó, ảnh lọc cạnh được kết hợp với hình c- ảnh nhị phân thể hiện hình dạng polyp 
(polyp mask) để được hình d- ảnh điều kiện đầu vào cho mạng sinh ảnh nội soi có chứa 
polyp. Để tạo ra các hình dạng polyp mới, chúng tôi tạo polyp mask tổng hợp bằng cách 
sử dụng các nhãn polyp mask trong bộ dữ liệu huấn luyện và áp dụng các kết hợp các phép 
tăng cường dữ liệu (data augmentation) như xoay (rotating) và lật (flipting), phóng to thu 
nhỏ (scaling), dịch vị trí với các tham số chọn ngẫu nhiên. 
Hình 4. Sinh đầu vào cho mạng CGAN. 
2.3. Mô hình phân vùng polyp trên ảnh nội soi sử dụng các kỹ thuật học sâu 
Mục tiêu của chúng tôi trong nghiên cứu này là tăng cường dữ liệu huấn luyện cho hệ 
thống học sâu phân để vùng polyp trên ảnh nội soi đại tràng sử dụng mạng sinh dữ liệu có 
điều kiện. Chúng tôi đã xây dựng hệ thống học sâu phân vùng polyp trên ảnh nội soi sử 
dụng phương pháp học chuyển giao (Transfer learning) với kiến trúc mạng U-net 
backbone là mạng ResNet101 [6] được huấn luyện trên bộ dữ liệu ảnh tự nhiên ImageNet. 
Hình 5 dưới đây biểu diễn hệ thống phân vùng polyp dựa trên ảnh nội soi của chúng tôi. 
Hệ thống bao gồm các thành phần sau: 1) Tăng cường dữ liệu (Data Augmentation), 2) 
Học chuyển giao với mạng Unet backbone Resnet 101, 3) Lưu tham số mô hình đã huấn 
luyện, 4) Dự đoán phân vùng polyp trên ảnh nội soi thử nghiệm. 
Hình 5. Hệ thống phân vùng polyp trên ảnh nội soi. 
2.4. Phương pháp đánh giá hiệu quả tạo ảnh nội soi chứa polyp tổng hợp tăng cường 
cho hệ thống phân vùng polyp 
Để đánh giá hiệu quả của việc tạo các ảnh nội soi chứa polyp tăng cường dữ liệu cho hệ 
thống học sâu phân vùng polyp trên ảnh nội soi chúng tôi thực hiện so sánh hiệu năng của 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 451
hệ thống phân vùng được huấn luyện bằng hai bộ dữ liệu huấn luyện khác nhau: một là bộ 
dữ liệu huấn luyện gồm các mẫu ban đầu thu thập do các chuyên gia y tế gán nhãn, hai là 
bộ dữ liệu huấn luyện mới bao gồm các các mẫu dữ liệu ban đầu và các ảnh nội soi có 
polyps tổng hợp do mạng sinh dữ liệu tạo ra. Chúng tôi đã sử dụng các độ đo đánh giá chất 
lượng phân vùng ảnh như sau: độ tương tự giữa ảnh dự đoán và ảnh nhãn ký hiệu Dice, độ 
giao nhau giữa ảnh dự đoán và ảnh nhãn ký hiệu là IoU, độ nhạy (sensitivity/recall) ký 
hiệu là Sen, độ chính xác (precision) ký hiệu là Prec, F1 Score, specificity ký hiệu là Spec. 
Công thức tính các độ đo này như sau: 
 =
 ∩ 
 ∪ 
;  =
∩
∪
;  =


;  =


;  =


 (4) 
Trong đó: PR là phân vùng polyp dự đoán; GT phân vùng polyp trên nhãn; TP - True 
positive; FP - False positive; TN - True nagative. 
3. CÀI ĐẶT THỬ NGHIỆM MÔ HÌNH VÀ ĐÁNH GIÁ CÁC KẾT QUẢ 
3.1. Các bộ dữ liệu thử nghiệm 
Chúng tôi sử dụng các bộ dữ liệu mẫu ảnh nội soi đại tràng có chứa polyp được công 
bố rộng rãi trong cộng đồng nghiên cứu là CVC-ClinicDB [7], ETIS-Larib [8], CVC-
ColonDB [9], Kvasir Dataset v2-Aditional Set [10]. Các bộ dữ liệu này được thu thập từ 
các hệ thống chụp ảnh nội soi khác nhau và các ảnh đều được gán nhãn là các polyp mask 
tức các ảnh nhị phân thể hiện hình dạng của các polyp. Tất cả các nhãn polyp mask trong 
các bộ dữ liệu này đã được tạo bởi các chuyên gia nội soi đến từ các viện nghiên cứu y học 
có uy tín trên thế giới: CVC-ClinicDB có 612 ảnh nội soi chứa polyp; ETIS-
LaribPolypDB có 196 ảnh nội soi có chứa polyp; CVC-ColonDB có 300 ảnh; Kvasir 
Dataset v2-Aditional Set: có 1000 ảnh nội soi đại tràng bình thường không chứa polyp. Bộ 
dữ liệu ‘CVC-ClinicDB’ được sử dụng cho huấn luyện mô hình Pix2Pix sinh ảnh nội soi 
tổng hợp chứa polyp. Để sinh ảnh nội soi chứa polyp từ ảnh nội soi bình thường chúng tôi 
sử dụng bộ dữ liệu ‘Kvasir Dataset v2-Aditional Set’ trích ra 300 ảnh nội soi bình thường 
để tạo ra đầu vào có điều kiện cho mô hình Pix2Pix. Bộ ETIS-LaribPolypDB và bộ CVC-
ColonDB được sử dụng cho kiểm thử mô hình phân vùng polyp trên ảnh nội soi đại tràng. 
3.2. Cài đặt, huấn luyện các mô hình 
Để huấn luyện mô hình sinh ảnh nội soi chứa polyp Pix2Pix chúng tôi sử dụng hàm tối 
ưu Adam với momentum=0.5 và tốc độ học λ=0.0002, batch size=1. Với mô hình phân 
vùng polyp chúng tôi dùng trọng số huấn luyện trước bằng bộ dữ liệu ảnh tự nhiên 
ImageNet của mạng backbone làm tham số khởi tạo. Sau đó, huấn luyện để tinh chỉnh toàn 
bộ tham số của mô hình trên dữ liệu ảnh nội soi sử dụng hàm tối ưu Adam với tham số 
momentum=0.5 và tốc độ học λ=0.0001. Các mô hình và thuật toán của chúng tôi đều 
được lập trình và huấn luyện sử dụng thư viện Keras Tensorflow backend trên máy tính 
với card GeForce GTX 1080 Ti GPU. 
3.3. Kết quả sinh ảnh nội soi chứa polyp 
Hình 6 trình bày một số ảnh nội soi chứa polyp được sinh ra từ mạng Pix2Pix mà 
chúng tôi đề xuất. Ở mỗi cột ảnh được tạo ở dòng thứ ba (a) tương ứng với ảnh điều kiện 
đầu vào ở dòng thứ hai (b), đầu vào này nhận được từ một ảnh nội soi đại tràng bình 
thường ở dòng thứ nhất (a) và một polyp mask tổng hợp (b). Từ hình vẽ có thể thấy, ảnh 
nội soi chứa polyp được tạo đã duy trì được cấu trúc và kết cấu tổng thể của nền từ ảnh nội 
soi bình thường ban đầu và phần polyp tổng hợp khá giống polyp thực, tuy nhiên, chúng ta 
thấy trên hình 6 không có sự khác biệt nhiều về màu sắc và kết cấu của các polyp được tạo 
ra do.Trong nghiên cứu này, chúng tôi đã đề xuất phương pháp sinh ảnh điều kiện đầu vào 
cho mạng GAN Pix2Pix bằng cách kết hợp lọc cạnh của ảnh nội soi bình thường và polyp 
mask. Để đánh giá hiệu quả của phương pháp này, chúng tôi thực hiện thí nghiệm chỉ sử 
dụng các polyp mask làm ảnh đầu vào cho huấn luyện và sinh ảnh tổng hợp, tất cả mô 
Toán học – Công nghệ thông tin 
 L. T. T. Hồng, , N. T. Trung, “Tăng cường dữ liệu huấn luyện  có điều kiện.” 452 
hình và các tham số huấn luyện được sử dụng như nhau, hình 7 trình bày kết quả các ảnh 
được sinh ra. Chúng ta có thể thấy trong hình 7, mặc dù mạng đã tạo ra các polyp khá 
giống thực nhưng nền không giống như các ảnh nội soi thực. Qua đó cho thấy, phương 
pháp tạo ảnh nhị phân đầu vào cho mạng Pix2Pix bằng kết hợp của lọc cạnh ảnh nội soi và 
polyp mask mà chúng tôi đề xuất đã có hiệu quả rất tốt trong việc hướng dẫn bộ Generator 
của mạng GAN sinh cấu trúc tổng thể của ảnh nội soi đại tràng. 
Hình 6. Kết quả sinh ảnh nội soi chứa polyp 
của mạng Pix2Pix. 
Hình 7. Ảnh nội soi tổng hợp được 
sinh từ các polyp mask. 
3.4. So sánh hiệu năng của phân vùng polyp trên ảnh nội soi 
Chúng tôi đã thực hiện huấn luyện mô hình phân vùng polyp sử dụng hai bộ dữ liệu 
huấn luyện khác nhau: một là sử dụng bộ CVC-ClinicDB, hai là sử dụng bộ dữ liệu huấn 
luyện mới bao gồm các mẫu trong bộ CVC-ClinicDB và các ảnh nội soi có polyps tổng 
hợp do mạng GAN Pix2Pix tạo ra. Sau khi huấn luyện chúng tôi thu được 2 bộ tham số tối 
ưu khác nhau của mô hình. Chúng tôi đánh giá kết quả phân vùng polyp của mô hình với 
từng bộ tham số đó trên hai bộ dữ liệu kiểm thử và so sánh kết quả đạt được, bảng 1 và 
bảng 2 trình bày các kết quả thử nghiệm đạt được. Từ các bảng này, chúng ta thấy hiệu 
năng của hệ thống phân vùng polyp được cải thiện trên cả 2 bộ số liệu thử nghiệm, thể 
hiện bằng việc tất cả các độ đo đánh giá phân vùng đều được tăng tốt lên. Tuy nhiên, kết 
quả tăng ở trên bộ ETIS-Larib tốt hơn, đạt được tăng 2,48% đối với hệ số Dice và 3,55% 
với IoU trong khi đó, với bộ CVC-ColonDB chỉ số tăng lên chỉ là 1,24% với hệ số Dice và 
1,77% với IoU. 
Bảng 1. So sánh kết quả trên bộ dữ liệu CVC-ColonDB. 
Dữ liệu huấn luyện Dice IoU Sen Prec F1 Spec 
CVC-ClinicDB 0.8407 0.731 0.7992 0.8956 0.8437 0.995 
CVC-ClinicDB+ Ảnh tổng hợp 0.8617 0.761 0.848 0.8814 0.864 0.9938 
Bảng 2. So sánh kết quả trên bộ dữ liệu ETIS-Larib. 
Dữ liệu huấn luyện Dice IoU Sen Prec F1 Spec 
CVC-ClinicDB 0.7767 0.6367 0.7803 0.778 0.7768 0.989 
CVC-ClinicDB+ Ảnh tổng hợp 0.7886 0.6639 0.8267 0.7727 0.7966 0.9888 
Trong thí nghiệm trên chúng tôi sử dụng toàn bộ 300 ảnh tổng hợp được sinh bởi mạng 
sinh có điều kiện, tuy nhiên, số lượng này có thể chưa phải là tối ưu cho mô hình phân vùng 
polyp vì vậy chúng tôi đã tiến hành đánh giá hiệu năng của mô hình phân vùng khi thay đổi 
số lượng ảnh tổng hợp đưa vào huấn luyện. Chúng tôi đã huấn luyện mô hình phân vùng 
polyp với các tập dữ liệu khác nhau như sau: Dataset1 gồm 612 ảnh của bộ CVC-ClinicDB 
ký hiệu C, Dataset1 gồm C và 100 ảnh tổng hợp, Dataset2 gồm C và 200 ảnh tổng hợp, 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 453
Dataset3 gồm C và 300 ảnh tổng hợp. Bảng 3 và bảng 4 trình bày các kết quả thử nghiệm 
trên bộ dữ liệu kiểm thử ETIS-LaribPolypDB và CVC-ColonDB. Từ kết quả này chúng ta 
rút ra kết luận nhìn chung khi số lượng ảnh tổng hợp đưa vào huấn luyện tăng thì các độ đo 
đánh giá phân vùng đều tăng, tức là hiệu năng của hệ thống phân vùng tốt lên. 
Bảng 3. So sánh kết quả trên bộ dữ liệu CVC-ColonDB. 
Dữ liệu huấn luyện Dice IoU Sen Prec F1 Spec 
CVC-ClinicDB 0.8407 0.731 0.7992 0.8956 0.8437 0.995 
CVC-ClinicDB+ 100 0.8530 0.7502 0.8364 0.8794 0.8566 0.9938 
CVC-ClinicDB+ 200 0.856 0.7574 0.8477 0.877 0.8613 0.9936 
CVC-ClinicDB+ 300 0.8617 0.761 0.848 0.8814 0.864 0.9938 
Bảng 4. So sánh kết quả trên bộ dữ liệu ETIS-Larib. 
Dữ liệu huấn luyện Dice IoU Sen Prec F1 Spec 
CVC-ClinicDB 0.7767 0.6367 0.7803 0.778 0.7768 0.989 
CVC-ClinicDB+ 100 0.7835 0.6569 0.7886 0.8217 0.7915 0.9923 
CVC-ClinicDB+ 200 0.7880 0.6664 0.8033 0.7983 0.7986 0.9907 
CVC-ClinicDB+ 300 0.7886 0.6639 0.8267 0.7727 0.7966 0.9888 
4. KẾT LUẬN 
Trong nghiên cứu này, chúng tôi đã đề xuất một mô hình sinh ảnh nội soi chứa polyp 
tổng hợp sử dụng mạng sinh dữ liệu có điều nhằm tăng cường dữ liệu cho hệ thống học 
sâu phân vùng polyp trên ảnh nội soi đại tràng. Mô hình mạng sinh dữ liệu có điều kiện 
mà chúng tôi sử dụng là mô hình Pix2Pix một mô hình được xây dựng cho mục đích dịch 
ảnh sang ảnh. Để sinh ảnh nội soi chứa polyp giống ảnh thực chúng tôi đã đề xuất sử dụng 
điều kiện đầu vào cho mạng sinh dữ liệu là kết hợp của lọc cạnh của ảnh nội soi bình 
thường và polyp mask tổng hợp, điều kiện đầu vào này đã hướng dẫn việc tạo cấu trúc nền 
hiệu quả và sự hài hòa của nền với polyp của ảnh tổng hợp được tạo ra. Chúng tôi đã cài 
đặt thử nghiệm mô hình sinh dữ liệu để tạo ảnh nội soi chứa polyps tổng hợp và sử dụng 
các ảnh này tăng số lượng mẫu huấn luyện cho mô hình học sâu cho phân vùng polyp trên 
ảnh nội soi. Số liệu thực nghiệm của chúng tôi cho thấy, ảnh polyp được tạo có thể sử 
dụng để tăng cường dữ liệu nhằm cải thiện hiệu năng của hệ thống phân vùng polyp trên 
ảnh nội soi đại tràng sử dụng các kỹ thuật học sâu. Tuy nhiên, kết quả cải thiện đạt được 
chưa được cao do các polyp được tạo ra chưa có sự đa dạng về màu sắc và kết cấu. Để 
khắc phục vấn đề này một trong những hướng giải quyết là xây dựng bộ dữ liệu bao gồm 
các ảnh nội soi chứa nhiều loại polyp khác nhau và phân loại các loại polyp sau đó thêm 
điều kiện loại polyp cho các đầu vào của mạng sinh ảnh. Do đó, trong tương lai để nâng 
cao kết quả chúng tôi dự định sẽ tiếp tục hợp tác với các bác sỹ để xây dựng bộ dữ liệu 
huấn luyện với các ảnh nội soi chứa nhiều loại polyp khác nhau và cải tiến mô hình sinh 
ảnh nội soi chứa polyps với hiệu năng tốt hơn. 
TÀI LIỆU THAM KHẢO 
[1]. Bray, Freddie, et al. "Global cancer statistics 2018: GLOBOCAN estimates of 
incidence and mortality worldwide for 36 cancers in 185 countries." CA: a cancer 
journal for clinicians 68.6 (2018): 394-424. 
[2]. M. Gschwantler, S. Kriwanek, E. Langner, B. Goritzer, C. SchrutkaKolbl, E. 
Brownstone, H. Feichtinger, and W. Weiss. “High-grade dysplasia and invasive 
carcinoma in colorectal adenomas: a multivariate analysis of the impact of adenoma 
Toán học – Công nghệ thông tin 
 L. T. T. Hồng, , N. T. Trung, “Tăng cường dữ liệu huấn luyện  có điều kiện.” 454 
and patient characteristics,” European journal of gastroenterology hepatology, 
14(2):183188, 2002. 
[3]. Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural 
information processing systems. 2014. 
[4]. Mirza, Mehdi, and Simon Osindero. "Conditional generative adversarial nets." 
arXiv preprint arXiv:1411.1784 (2014). 
[5]. Isola, Phillip, et al. "Image-to-image translation with conditional adversarial 
networks." Proceedings of the IEEE conference on computer vision and pattern 
recognition. 2017. 
[6]. He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of 
the IEEE conference on computer vision and pattern recognition. 2016.. 
[7]. Bernal, J., Sánchez, F. J., Fernández-Esparrach, G., Gil, D., Rodríguez, C., & 
Vilariño, F. “WM-DOVA maps for accurate polyp highlighting in colonoscopy: 
Validation vs. saliency maps from physicians”. Computerized Medical Imaging and 
Graphics, 43, 99-111,2015 
[8]. Juan S. Silva, Aymeric Histace, Olivier Romain, Xavier Dray, Bertrand Granado, 
“Towards embedded detection of polyps in WCE images for early diagnosis of 
colorectal cancer”, International Journal of Computer Assisted Radiology and 
Surgery, Springer Verlag (Germany), 2014, 9 (2), pp. 283-293. 
[9]. Jorge Bernal, F. Javier Sanchez, & Fernando Vilariño. “Towards Automatic Polyp 
Detection with a Polyp Appearance Model”. Pattern Recognition, 45(9), 3166–
3182, 2012. 
[10]. Konstantin Pogorelov, Kristin Ranheim Randel, Carsten Griwodz, Sigrun Losada 
Eskeland, Thomas de Lange, Dag Johansen, Concetto Spampinato, Duc-Tien Dang-
Nguyen, Mathias Lux, Peter Thelin Schmidt, Michael Riegler, Pål Halvorsen, 
Kvasir. “A Multi-Class Image Dataset for Computer Aided Gastrointestinal Disease 
Detection”, MMSys'17 Proceedings of the 8th ACM on Multimedia Systems 
Conference (MMSYS), Pages 164-169 Taipei, Taiwan, June 20-23, 2017. 
ABSTRACT 
DATA AGUMENTATION FOR DEEP LEARNING SYSTEM OF POLYP 
SEGMENTION ON COLONOSCOPY IMAGES USING CONDITIONAL 
GENARATIVE ADVERSARIAL NETWORKS 
One of the major obstacles in automatic polyp segmentation during colonoscopy is 
the lack of labeled polyp training images. In this paper, a framework of conditional 
genarativ adversarial networks to increase the number of training samples by 
generating synthetic polyp images is proposed. An edge filtering-based combined input 
conditioned image to train our proposed networks is proposed. This enables realistic 
polyp image generations while maintaining the original structures of the colonoscopy 
image frames. Our experiment shows that the generated polyp images are not only 
qualitatively realistic, but also help to improve polyp segmentation performance. 
Keywords: CGAN; Data Agumentation; Transfer learning; Polyp Segmentation. 
Nhận bài ngày 03 tháng 8 năm 2020 
Hoàn thiện ngày 05 tháng 10 năm 2020 
Chấp nhận đăng ngày 05 tháng 10 năm 2020 
Địa chỉ: 1Viện Công nghệ thông tin/Viện Khoa học và Công nghệ quân sự; 
2Bệnh viện Trung ương Quân đội 108. 
*Email: [email protected]. 

File đính kèm:

  • pdftang_cuong_du_lieu_huan_luyen_cho_he_thong_hoc_sau_phan_vung.pdf