Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng

Tóm tắt: Ngày nay, việc ứng dụng Deep Learning trong xử lý ảnh đã ngày một

phổ biến. Trong quá trình khai thác học sâu, người ta dần nhận thấy mối liên hệ

mạnh mẽ giữa số lượng dữ liệu đầu vào và độ chính xác của giải thuật. Tuy nhiên

trong thực tế, việc lấy dữ liệu cho một số đối tượng cần nhận dạng là phức tạp và

rất mất thời gian. Nhằm giải quyết vấn đề đấy, việc học dựa trên dữ liệu mô phỏng

trở thành vấn đề được nhiều nhóm nghiên cứu quan tâm. Trong bài báo này, chúng

tôi xây dựng mô hình huấn luyện dựa trên ảnh nhân tạo thông qua việc sử dụng một

phần của mạng Inception v3 đã huấn luyện.

pdf 7 trang phuongnguyen 5900
Bạn đang xem tài liệu "Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng

Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng
Công nghệ thông tin 
Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 264 
MÔ HÌNH HUẤN LUYỆN MẠNG NƠ-RON 
DỰA TRÊN ẢNH MÔ PHỎNG 
Đặng Hoàng Minh*, Phạm Văn Lai 
Tóm tắt: Ngày nay, việc ứng dụng Deep Learning trong xử lý ảnh đã ngày một 
phổ biến. Trong quá trình khai thác học sâu, người ta dần nhận thấy mối liên hệ 
mạnh mẽ giữa số lượng dữ liệu đầu vào và độ chính xác của giải thuật. Tuy nhiên 
trong thực tế, việc lấy dữ liệu cho một số đối tượng cần nhận dạng là phức tạp và 
rất mất thời gian. Nhằm giải quyết vấn đề đấy, việc học dựa trên dữ liệu mô phỏng 
trở thành vấn đề được nhiều nhóm nghiên cứu quan tâm. Trong bài báo này, chúng 
tôi xây dựng mô hình huấn luyện dựa trên ảnh nhân tạo thông qua việc sử dụng một 
phần của mạng Inception v3 đã huấn luyện. 
Từ khóa: Deep learning (học sâu), Mạng nơ-ron, Mạng nơ-ron tích chập. 
1. MỞ ĐẦU 
Deep Learning là một mô hình mạnh mẽ cho bài toán nhận dạng đối tượng từ 
ảnh. Tuy nhiên, nó có một nhược điểm là đỏi hỏi lượng dữ liệu quá lớn. Do đó, nhu 
cầu học dựa trên ảnh mô phỏng được đề ra. Lý do là vì việc tạo ra ảnh mô phỏng 
đơn giản hơn nhiều so với việc thu thập ảnh thật. Một số nhóm nghiên cứu đã tiến 
hành thử nghiệm, tuy nhiên, kết quả còn khiêm tốn và chưa thể ứng dụng rộng rãi. 
Một số nghiên cứu có thể kể đến như sau: 
- “Học dựa trên ảnh mô phỏng, không giám sát thông qua huấn luyện đối 
nghịch” [1]. Ý tưởng của công trình này là xây dựng một mạng đối nghịch 
(Generative Adversarial Network – GAN) [8] có khả năng tinh chỉnh ảnh 
mô phỏng sao cho nó giống với ảnh thật. Ảnh sau khi được tinh chỉnh có 
thể sử dụng làm dữ liệu đầu vào cho các mô hình mạng nơ-ron nhận dạng 
đối tượng. Tuy nhiên, mô hình này mới chỉ ứng dụng với các đối tượng 
đơn giản(như mắt người). 
- “Huấn luyện phân loại đối tượng dựa trên dữ liệu nhân tạo thông qua việc 
sử dụng một autoencoder đa kênh” [2]. Tư tưởng của phương pháp này là 
sử dụng một autoencoder đa kênh được huấn luyện bởi đồng thời cả ảnh 
thật và ảnh nhân tạo [2]. Đầu ra của autoencoder sẽ là những ảnh đã được 
tinh chỉnh để có độ chênh lệch ít đi. 
Trong bài báo này, nhóm nghiên cứu tập trung nghiên cứu một mô hình mạng 
nơ-ron cho phép học dựa trên ảnh mô phỏng. 
2. LÝ THUYẾT CHUNG 
Mạng nơ-ron tích chập (CNN)[6]. Mạng tích nơ-ron tích chập gồm hai thành 
phần chính là lớp tích chập (Convolutional layer) và lớp Pooling. Trong đó, lớp 
tích chập bao gồm các bộ lọc có kích thước và bước nhảy định nghĩa trước. Các bộ 
lọc này sẽ lần lượt trượt qua ảnh và tạo ra các kết quả khác nhau. Lớp Pooling xử 
lý kết quả từ lớp tích chập theo phương cách chọn một phần tử trong cửa sổ trượt 
đại diện cho cả cửa sổ. Kết quả cuối cùng của lớp Pooling sẽ được làm phẳng trước 
khi đưa vào lớp Fully connected để nhận dạng. 
Thông tin
Tạp chí Nghi
Hình
m
hơn 10 tri
ImageNet phiên b
nh
hội tụ, nó sẽ chứa trong đó các bộ lọc cho phép tổng hợp ra những đặc tr
ứng tr
m
sau khi đư
lọc ra các đặc tr
ra, theo ki
hu
cả những đối t
th
1000 đ
3.1. Bài toán nh
toán như sau: Th
ron b
dựa tr
nếu điều n
Tập dữ liệu phục vụ cho b
M
ạng CNN (
ất (3.46%). 
Theo nguyên lý ho
ỗi bộ lọc sẽ trích ra một đặc tr
ấn luyện với 1
ể thực hiện đ
Đ
 1
ạng Inception v3
ên 
ối t
ể thử nghiệm mô h
ằng ph
ên 
 khoa h
. Ki
ảnh. Nói cách khác, trong một lớp mạng CNN sẽ tập hợp nhiều bộ lọc v
ư
ảnh mô phỏng nh
ên c
ến trúc mạng n
ệu ảnh của 1000 lớp (loại) đối 
ợc huấn luyện hội tụ sẽ chứa trong m
ểm nghiệm thực tế các lớp CNN trong mạng Inception v3 sau khi đ
ợng ban đầu nh
3. BÀI TOÁN NH
ương pháp h
ày x
ọc công nghệ 
ứu KH&CN 
hình 2). M
ư
ư
ảy ra, chứng tỏ mạng đ
ưng c
000 l
ợng không chứa trong nhóm 1000 đối t
ợc do trong thực tế, có rất nhiều đối t
ận dạng
ử nghiệm nhận dạng 05 loại máy bay chiến đấu sử dụng mạng n
ản 2012). Inception v3 l
Hình
ạt động của m
ủa 1000 đối t
ớp đối t
ình h
quân s
ơ
 là m
ạng Inception v3 đ
 2
ưng có cùng
ọc tr
ưng 
-ron có s
. Ki
ọc dựa tr
ài toán g
ự, 
ạng n
ến trúc của mạng Inception v3.
ượng ho
Ậ
ên 
ph
Số Đặc san 
ưng khác nhau t
N D
ảnh mô phỏng. Mạng n
ải có khả năng nhận ra đối t
ử dụng mạng tích chập trong nhận dạng ảnh.
ơ-
ình, khi m
ượng khác nhau trong thế giới tự nhi
Ạ
ên 
ồm 02 th
ron nhân t
àn toàn có th
 đ
NG VÀ MÔ HÌNH 
ảnh mô phỏng, nhóm nghi
ã h
à m
ặc tr
ọc đ
CNTT
ược xây dựng để huấn luyện dựa tr
tượng khác nhau (theo CSDL ảnh của 
ột trong các mô h
ưng v
ư
ành ph
ạo đ
ột lớp mạng CNN 
ừ ảnh.
ình r
ợc đối t
, 12
ể tổng hợp đ
ới 1000 đối t
 - 20
ư
ất nhiều các bộ lọc, cho phép 
ần: Dữ liệu mô phỏng (đ
17
ợc cấu th
 Khi đó, m
ượng ban đầu. Điều n
ượng tuy không nằm trong 
ơ
ượng từ dữ liệu mô phỏng. 
Đ
-ron s
Ề
ượng đó tr
ành b
ình có t
ư
ượng ban đầu.
 XU
ẽ đ
đư
ạng Inception v
ợc đặc tr
Ấ
ên c
ược huấn luyện 
ởi nhiều lớp 
ợc huấn luyện 
T 
ứu đặt ra b
ên 
ỉ lệ lỗi thấp 
ưng tương 
ên. Ngoài 
ưng c
ảnh thật, 
265
ày có 
ư
ên 
à 
3 
ã 
ủa 
ài 
ơ-
ợc 
Công nghệ thông tin 
Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 266 
sinh từ 3D engine với số lượng 5000 ảnh cho một đối tượng) và dữ liệu ảnh thật 
(với số lượng 200 ảnh cho một đối tượng). Các loại máy bay chiến đấu được lựa 
chọn để thử nghiệm là: B2, B25, B52, C130, F111. 
3.2. Phương pháp xây dựng dữ liệu 
Xây dựng bộ dữ liệu ảnh thật: 
Các ảnh thật được tải về từ Internet dựa trên một số engine tìm kiếm được cung 
cấp miễn phí. Các ảnh này sau đó được xứ lý (loại bỏ ảnh giống nhau, các ảnh 
không đúng nội dung, các ảnh chứa thủy ấn) và phân loại về các thư mục tương 
ứng trước khi sử dụng. Sau quá trình trên, bộ dữ liệu ảnh thật còn khoảng 200 ảnh 
cho mỗi loại máy bay. 
Xây dựng bộ dữ liệu ảnh mô phỏng: 
Các ảnh mô phỏng được xây dựng dựa trên một engine mô phỏng. Engine này 
tải các đối tượng 3D lên một môi trường địa hình cho trước và tiến hành thay đổi 
vị chí và góc nhìn đối tượng. Đối với mỗi một lần thay đổi, một bức ảnh đối tượng 
được sinh ra. Sau quá trình trên, bộ dữ liệu ảnh mô phỏng thu được gồm 5000 ảnh 
cho mỗi loại máy bay (hình 3 mô tả một số ảnh được sinh ra từ engine mô phỏng). 
Hình 3. Một số dữ liệu mô phỏng của 5 loại máy bay. 
3.3. Kiến trúc mạng nơ-ron đề xuất 
Kiến trúc của mạng nơ-ron được sử dụng gồm 02 thành phần (hình 4): 
- Kế thừa các lớp mạng CNN đã huấn luyện của mạng Inception v3 
- Xây mới lớp mạng Fully connected. 
Sau khi đã kế thừa lại các lớp mạng CNN, lớp Fully connected nối tiếp được 
xây dựng với tham số gồm 2048 nơ-ron (do đầu ra của lớp CNN cuối cùng trong 
mạng Inception có kích thước 2048) và 5 đầu ra (tương ứng với 5 loại máy bay). 
Lớp mạng này sẽ được xây mới và huấn luyện từ đầu. Mô hình lớp mạng này được 
khái quát như sau: 
he(xi) = f(Wexi + be)(7) 
Trong đó, f(.) là hàm Softmax; xi là ma trận đầu vào có kích thước [2048,1], xi 
là giá trị thu được sau khi dữ liệu đi qua toàn bộ các lớp CNN của mạng Inception 
Thông tin khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 267
v3; We là ma trận có kích thước [2048,5]; be có kích thước [2048,1]; he là ma trận 
kết quả có kích thước [5,1] chứa giá trị từ 0.0 đến 1.0 đánh giá mức độ chắc chắn 
của mạng nơ-ron về đối tượng đầu vào tương ứng với 1 trong 5 đối tượng đầu ra. 
Như vậy, một bức ảnh khi đi qua mô hình mới, đầu tiên sẽ được phân tích thành 
tổ hợp của các đặc trưng đã học được từ tập dữ liệu của ImageNet (đặc điểm này 
có được do kế thừa từ các lớp CNN của Inception-v3). Các đặc trưng này, sau đó 
sẽ được tổng hợp để ra quyết định phân loại tại lớp Fully connected mới. Do đó, 
quá trình huấn luyện sẽ chỉ cần huấn luyện lớp Fully connected này. 
Đối với bài toàn học dựa trên ảnh mô phỏng, khi một bức ảnh ảo được đưa qua 
các lớp mạng CNN trên, sẽ được chuyển thành tổ hợp của nhiều đặc trưng thuộc 
các đối tượng huấn luyện thật. Điều này tạo ưu thế tốt hơn so với việc huấn luyện 
lại các lớp mạng CNN theo các đặc trưng trên ảnh mô phỏng. 
Hình 4. Mô hình mạng nơ-ron thử nghiệm. 
4. THỬ NGHIỆM VÀ KẾT QUẢ 
Thử nghiệm khả năng nhận dạng của mô hình đối với đối tượng mô phỏng 
(thử nghiệm 1): 
- Tập dữ liệu dùng để huấn luyện: gồm 1000 ảnh mô phỏng cho mỗi loại máy 
bay. 
- Tập dữ liệu dùng để kiểm tra: gồm 1000 ảnh mô phỏng dùng cho mỗi loại máy 
bay. 
- Kết quả được trình bày dưới dạng ma trận confusion (Confusion Matrix), 
trong đó hàng dọc là kết quả phán đoán của mạng nơ-ron, hàng ngang biểu thị 
tập dữ liệu được đưa vào mạng nơ-ron (bảng 1): 
Bảng 1. Ma trận confusion của mạng khi nhận dạng ảnh mô phỏng. 
 B25 F111 B2 B52 C130 % 
B25 959 30 3 4 4 95.9 
F111 4 965 18 8 5 96.5 
B2 0 8 981 9 2 98.1 
B52 7 20 11 928 34 92.8 
C130 6 13 12 46 923 92.3 
AVG 95.12 
o Độ chính xác trung bình của mạng nơ-ron cuối quá trình huấn luyện là: 
94.3% (E-in) 
o Độ chính xác trung bình của mạng nơ-ron trên tập dữ liệu kiểm tra: 95.12 % 
(E-out) 
Công nghệ thông tin 
Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 268 
Có thể thấy, độ lệch giữa E-in và E-out là nhỏ, cho thấy mạng không bị 
overfiting hay nói cách khác, dữ liệu mô phỏng được sinh ra đã đảm bảo đủ các 
yêu cầu về độ ngẫu nhiên của bối cảnh, mô tả được các điểm đặc trưng riêng của 
từng loại máy bay mô phỏng. Bên cạnh đó, độ chính xác của mạng nơ-ron lớn hơn 
95% cho thấy mạng nơ-ron đã được huấn luyện tốt để có thể nhận dạng được đối 
tượng mô phỏng. 
Thử nghiệm học dựa trên dữ liệu mô phỏng (thử nghiệm 2): 
- Tập dữ liệu dùng để huấn luyện tương tự như ở thử nghiệm 1 (huấn luyện trên 
dữ liệu mô phỏng). 
- Tập dữ liệu dùng để kiểm tra: gồm 100 ảnh thật cho mỗi loại. 
- Kết quả thể hiện trên bảng 2: 
Bảng 2. Ma trận confusion của mạng khi nhận dạng ảnh thật. 
 B25 F111 B2 B52 C130 % 
B25 70 11 3 3 13 70 
F111 12 63 6 4 15 63 
B2 8 19 62 0 11 62 
B52 29 23 3 10 35 10 
C130 49 17 1 3 30 30 
AVG 47 
o Độ chính xác trung bình của mạng nơ-ron cuối quá trình huấn luyện là: 
94.3% (E-in) 
o Độ chính xác trung bình của mạng nơ-ron sau khi huấn luyện trên tập dữ liệu 
kiểm tra: 47 % (E-out) 
Đối với kết quả này có thể nhận thấy như sau:Trước hết, khoảng cách giữa dữ 
liệu nhân tạo và dữ liệu thật là lớn. Do đó, ở cùng một loại máy bay, tuy mạng nơ-
ron có thể nhận dạng nó chính xác trên ảnh mô phỏng (thử nghiệm 1) nhưng lại 
không thể nhận dạng được trên ảnh thật (thử nghiệm 2). Hay nói cách khác, các 
đặc trưng được lớp CNN trích ra từ ảnh thật và ảnh mô phỏng nằm trong các nhóm 
đặc trưng tương đối khác nhau. 
Để thu nhỏ sự khác biệt này, nhóm nghiên cứu tiến hành thử nghiệm thứ 3. Thử 
nghiệm rút ngắn khoảng cách giữa dữ liệu mô phỏng và dữ liệu thật. Trong 
thử nghiệm này: 
- Tập huấn luyện:1000 ảnh mô phỏng ở dạng tách biên (hình 9). 
- Tập kiểm tra:100 ảnh thật ở dạng tách biên. 
- Kết quả được thể hiện trên bảng 3. 
Bảng 3. Ma trận confusion của mạng sau hiệu chỉnh khi nhận dạng ảnh thật. 
 B25 F111 B2 B52 C130 % 
B25 59 23 6 4 8 59 
F111 10 64 18 3 5 64 
B2 1 8 87 3 1 87 
B52 9 16 13 56 6 56 
C130 5 15 4 5 71 71 
AVG 67.4 
Thông tin khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 269
Có thể thấy, việc tách biên ảnh trước khi đưa vào mạng nơ-ron, khiến cho mạng 
tập trung vào việc học các hình dáng của đối tượng mà bỏ qua phần biểu bì (texture). 
Do đó, độ chính xác của mạng đã được nâng lên. Nói cách khác, thông thường cùng 
một đối tượng máy bay trong ảnh thật tuy có hình dạng giống nhau nhưng có thể 
được sơn màu, và mang các trang bị, khác nhau. Việc đưa ảnh huấn luyện và kiểm 
tra về dạng đường viền sẽ khiến mạng chỉ tập trung vào việc nhận dạng hình dáng 
của đối tượng, do đó, việc học dựa trên ảnh mô phỏng được cải thiện. 
(a) (b) 
Hình 5. Ảnh tách biên của máy bay B2. (a) Ảnh mô phỏng tách biên. 
(b) Ảnh thật được tách biên. 
5. KẾT LUẬN 
Có thể thấy, mô hình đề ra đã giải quyết tốt bài toán nhận dạng thông thường 
(thử nghiệm 1) nhưng chưa tốt trong việc học trên ảnh mô phỏng (thử nghiệm 2). 
Để cải thiện hiệu quả của việc học trên (hay nói cách khác, rút ngắn khoảng cách 
giữa dữ liệu ảnh thật và ảnh ảo) nhóm nghiên cứu đã thử nghiệm tách biên dữ liệu, 
tuy nhiên kết quả mới chỉ cải thiện được một phần nhỏ. 
Mô hình được đề xuất ở trên tuy có phần nào cải thiện được hiệu quả nhận dạng 
của mạng nơ-ron khi chỉ huấn luyện sử dụng ảnh mô phỏng nhưng kết quả nhận 
dạng đó còn rất thấp để có thể đưa vào ứng dụng nhất định. Trong tương lai, nhóm 
nghiên cứu sẽ tiếp tục tìm hiểu, bổ sung các phương pháp thu hẹp khoảng cách 
giữa dữ liệu mô phỏng và dữ liệu thật. 
TÀI LIỆU THAM KHẢO 
[1]. Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, 
Russ Webb Apple Inc. “Learning from Simulated and Unsupervised Images 
through Adversarial training”. 2016 
[2]. Xi Zhang, Yanwei Fu, Andi Zang, Leonid Sigal, Gady Agam. “Learning 
Classifiers from Synthetic Data Using a Multichannel Autoencoder”. 2015 
Công nghệ thông tin 
Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 270 
[3]. Ruizhongtai (Charles) Qi Stanford University. “Learning 3D Object 
Orientations From Synthetic Images”. 
[4]. Xi Zhang, Yanwei Fu, Shanshan Jiang, Leonid Sigal and Gady Agam. 
“Learning from Synthetic Data Using a Stacked Multichannel Autoencoder”. 
[5]. Pierre Baldi. “Autoencoders, Unsupervised Learning, and Deep 
Architectures”. 2012 
[6]. Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. “Gradient-based learning 
applied to document recognition.” 1998 
[7]. Health Education Training Institute (HETI). “Simulation based education: 
Professional entry student education and training”. 2014 
[8]. IanJ.Goodfellow, JeanPouget-Abadie, MehdiMirza, BingXu, DavidWarde-
Farley, SherjilOzair, AaronCourville, YoshuaBengio. “Generative Adversarial 
Nets”. 2014 
[9]. Glorot, Xavier, Bordes, Antoine, and Bengio, Yoshua. “Deep sparse rectifier 
neural networks”. 2011 
ABSTRACT 
STUDY OF LEARNING FROM SYNTHETIC DATA 
Solving images classification problem using Deep learning has been 
researched and deployed in more than decades. However, we did not witness 
any breakthough until last recent years. This reality is addressed due to the 
lack of data and calculation capability. Although all people have been using 
GPU to solve calculation capability problems, lack of data problem stilll 
remains. Therefore, during last few years, learning from synthetic data has 
become a hot topic. In this paper, a model to help artificial neural network 
learn from synthetic data is suggested. 
Keywords: Deep learning; Neural networks; Convolution neural networks. 
Nhận bài ngày 16 tháng 8 năm 2017 
Hoàn thiện ngày 26 tháng 11 năm 2017 
Chấp nhận đăng ngày 28 tháng 11 năm 2017 
Địa chỉ: Viện CNTT/ Viện KHCNQS. 
 * Email: danghoangminh86@gmail.com. 

File đính kèm:

  • pdfmo_hinh_huan_luyen_mang_no_ron_dua_tren_anh_mo_phong.pdf