Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng

Tóm tắt: Ngày nay, việc ứng dụng Deep Learning trong xử lý ảnh đã ngày một

phổ biến. Trong quá trình khai thác học sâu, người ta dần nhận thấy mối liên hệ

mạnh mẽ giữa số lượng dữ liệu đầu vào và độ chính xác của giải thuật. Tuy nhiên

trong thực tế, việc lấy dữ liệu cho một số đối tượng cần nhận dạng là phức tạp và

rất mất thời gian. Nhằm giải quyết vấn đề đấy, việc học dựa trên dữ liệu mô phỏng

trở thành vấn đề được nhiều nhóm nghiên cứu quan tâm. Trong bài báo này, chúng

tôi xây dựng mô hình huấn luyện dựa trên ảnh nhân tạo thông qua việc sử dụng một

phần của mạng Inception v3 đã huấn luyện.

7 trang phuongnguyen 12940

Download

Bạn đang xem tài liệu "Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng

Công nghệ thông tin
Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 264
MÔ HÌNH HUẤN LUYỆN MẠNG NƠ-RON
DỰA TRÊN ẢNH MÔ PHỎNG
Đặng Hoàng Minh*, Phạm Văn Lai
Tóm tắt: Ngày nay, việc ứng dụng Deep Learning trong xử lý ảnh đã ngày một
phổ biến. Trong quá trình khai thác học sâu, người ta dần nhận thấy mối liên hệ
mạnh mẽ giữa số lượng dữ liệu đầu vào và độ chính xác của giải thuật. Tuy nhiên
trong thực tế, việc lấy dữ liệu cho một số đối tượng cần nhận dạng là phức tạp và
rất mất thời gian. Nhằm giải quyết vấn đề đấy, việc học dựa trên dữ liệu mô phỏng
trở thành vấn đề được nhiều nhóm nghiên cứu quan tâm. Trong bài báo này, chúng
tôi xây dựng mô hình huấn luyện dựa trên ảnh nhân tạo thông qua việc sử dụng một
phần của mạng Inception v3 đã huấn luyện.
Từ khóa: Deep learning (học sâu), Mạng nơ-ron, Mạng nơ-ron tích chập.
1. MỞ ĐẦU
Deep Learning là một mô hình mạnh mẽ cho bài toán nhận dạng đối tượng từ
ảnh. Tuy nhiên, nó có một nhược điểm là đỏi hỏi lượng dữ liệu quá lớn. Do đó, nhu
cầu học dựa trên ảnh mô phỏng được đề ra. Lý do là vì việc tạo ra ảnh mô phỏng
đơn giản hơn nhiều so với việc thu thập ảnh thật. Một số nhóm nghiên cứu đã tiến
hành thử nghiệm, tuy nhiên, kết quả còn khiêm tốn và chưa thể ứng dụng rộng rãi.
Một số nghiên cứu có thể kể đến như sau:
- “Học dựa trên ảnh mô phỏng, không giám sát thông qua huấn luyện đối
nghịch” [1]. Ý tưởng của công trình này là xây dựng một mạng đối nghịch
(Generative Adversarial Network – GAN) [8] có khả năng tinh chỉnh ảnh
mô phỏng sao cho nó giống với ảnh thật. Ảnh sau khi được tinh chỉnh có
thể sử dụng làm dữ liệu đầu vào cho các mô hình mạng nơ-ron nhận dạng
đối tượng. Tuy nhiên, mô hình này mới chỉ ứng dụng với các đối tượng
đơn giản(như mắt người).
- “Huấn luyện phân loại đối tượng dựa trên dữ liệu nhân tạo thông qua việc
sử dụng một autoencoder đa kênh” [2]. Tư tưởng của phương pháp này là
sử dụng một autoencoder đa kênh được huấn luyện bởi đồng thời cả ảnh
thật và ảnh nhân tạo [2]. Đầu ra của autoencoder sẽ là những ảnh đã được
tinh chỉnh để có độ chênh lệch ít đi.
Trong bài báo này, nhóm nghiên cứu tập trung nghiên cứu một mô hình mạng
nơ-ron cho phép học dựa trên ảnh mô phỏng.
2. LÝ THUYẾT CHUNG
Mạng nơ-ron tích chập (CNN)[6]. Mạng tích nơ-ron tích chập gồm hai thành
phần chính là lớp tích chập (Convolutional layer) và lớp Pooling. Trong đó, lớp
tích chập bao gồm các bộ lọc có kích thước và bước nhảy định nghĩa trước. Các bộ
lọc này sẽ lần lượt trượt qua ảnh và tạo ra các kết quả khác nhau. Lớp Pooling xử
lý kết quả từ lớp tích chập theo phương cách chọn một phần tử trong cửa sổ trượt
đại diện cho cả cửa sổ. Kết quả cuối cùng của lớp Pooling sẽ được làm phẳng trước
khi đưa vào lớp Fully connected để nhận dạng.
Thông tin
Tạp chí Nghi
Hình
m
hơn 10 tri
ImageNet phiên b
nh
hội tụ, nó sẽ chứa trong đó các bộ lọc cho phép tổng hợp ra những đặc tr
ứng tr
m
sau khi đư
lọc ra các đặc tr
ra, theo ki
hu
cả những đối t
th
1000 đ
3.1. Bài toán nh
toán như sau: Th
ron b
dựa tr
nếu điều n
Tập dữ liệu phục vụ cho b
M
ạng CNN (
ất (3.46%).
Theo nguyên lý ho
ỗi bộ lọc sẽ trích ra một đặc tr
ấn luyện với 1
ể thực hiện đ
Đ
1
ạng Inception v3
ên
ối t
ể thử nghiệm mô h
ằng ph
ên
khoa h
. Ki
ảnh. Nói cách khác, trong một lớp mạng CNN sẽ tập hợp nhiều bộ lọc v
ư
ảnh mô phỏng nh
ên c
ến trúc mạng n
ệu ảnh của 1000 lớp (loại) đối
ợc huấn luyện hội tụ sẽ chứa trong m
ểm nghiệm thực tế các lớp CNN trong mạng Inception v3 sau khi đ
ợng ban đầu nh
3. BÀI TOÁN NH
ương pháp h
ày x
ọc công nghệ
ứu KH&CN
hình 2). M
ư
ư
ảy ra, chứng tỏ mạng đ
ưng c
000 l
ợng không chứa trong nhóm 1000 đối t
ợc do trong thực tế, có rất nhiều đối t
ận dạng
ử nghiệm nhận dạng 05 loại máy bay chiến đấu sử dụng mạng n
ản 2012). Inception v3 l
Hình
ạt động của m
ủa 1000 đối t
ớp đối t
ình h
quân s
ơ
là m
ạng Inception v3 đ
2
ưng có cùng
ọc tr
ưng
-ron có s
. Ki
ọc dựa tr
ài toán g
ự,
ạng n
ến trúc của mạng Inception v3.
ượng ho
Ậ
ên
ph
Số Đặc san
ưng khác nhau t
N D
ảnh mô phỏng. Mạng n
ải có khả năng nhận ra đối t
ử dụng mạng tích chập trong nhận dạng ảnh.
ơ-
ình, khi m
ượng khác nhau trong thế giới tự nhi
Ạ
ên
ồm 02 th
ron nhân t
àn toàn có th
đ
NG VÀ MÔ HÌNH
ảnh mô phỏng, nhóm nghi
ã h
à m
ặc tr
ọc đ
CNTT
ược xây dựng để huấn luyện dựa tr
tượng khác nhau (theo CSDL ảnh của
ột trong các mô h
ưng v
ư
ành ph
ạo đ
ột lớp mạng CNN
ừ ảnh.
ình r
ợc đối t
, 12
ể tổng hợp đ
ới 1000 đối t
- 20
ư
ất nhiều các bộ lọc, cho phép
ần: Dữ liệu mô phỏng (đ
17
ợc cấu th
Khi đó, m
ượng ban đầu. Điều n
ượng tuy không nằm trong
ơ
ượng từ dữ liệu mô phỏng.
Đ
-ron s
Ề
ượng đó tr
ành b
ình có t
ư
ượng ban đầu.
XU
ẽ đ
đư
ạng Inception v
ợc đặc tr
Ấ
ên c
ược huấn luyện
ởi nhiều lớp
ợc huấn luyện
T
ứu đặt ra b
ên
ỉ lệ lỗi thấp
ưng tương
ên. Ngoài
ưng c
ảnh thật,
265
ày có
ư
ên
à
3
ã
ủa
ài
ơ-
ợc
Công nghệ thông tin
Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 266
sinh từ 3D engine với số lượng 5000 ảnh cho một đối tượng) và dữ liệu ảnh thật
(với số lượng 200 ảnh cho một đối tượng). Các loại máy bay chiến đấu được lựa
chọn để thử nghiệm là: B2, B25, B52, C130, F111.
3.2. Phương pháp xây dựng dữ liệu
Xây dựng bộ dữ liệu ảnh thật:
Các ảnh thật được tải về từ Internet dựa trên một số engine tìm kiếm được cung
cấp miễn phí. Các ảnh này sau đó được xứ lý (loại bỏ ảnh giống nhau, các ảnh
không đúng nội dung, các ảnh chứa thủy ấn) và phân loại về các thư mục tương
ứng trước khi sử dụng. Sau quá trình trên, bộ dữ liệu ảnh thật còn khoảng 200 ảnh
cho mỗi loại máy bay.
Xây dựng bộ dữ liệu ảnh mô phỏng:
Các ảnh mô phỏng được xây dựng dựa trên một engine mô phỏng. Engine này
tải các đối tượng 3D lên một môi trường địa hình cho trước và tiến hành thay đổi
vị chí và góc nhìn đối tượng. Đối với mỗi một lần thay đổi, một bức ảnh đối tượng
được sinh ra. Sau quá trình trên, bộ dữ liệu ảnh mô phỏng thu được gồm 5000 ảnh
cho mỗi loại máy bay (hình 3 mô tả một số ảnh được sinh ra từ engine mô phỏng).
Hình 3. Một số dữ liệu mô phỏng của 5 loại máy bay.
3.3. Kiến trúc mạng nơ-ron đề xuất
Kiến trúc của mạng nơ-ron được sử dụng gồm 02 thành phần (hình 4):
- Kế thừa các lớp mạng CNN đã huấn luyện của mạng Inception v3
- Xây mới lớp mạng Fully connected.
Sau khi đã kế thừa lại các lớp mạng CNN, lớp Fully connected nối tiếp được
xây dựng với tham số gồm 2048 nơ-ron (do đầu ra của lớp CNN cuối cùng trong
mạng Inception có kích thước 2048) và 5 đầu ra (tương ứng với 5 loại máy bay).
Lớp mạng này sẽ được xây mới và huấn luyện từ đầu. Mô hình lớp mạng này được
khái quát như sau:
he(xi) = f(Wexi + be)(7)
Trong đó, f(.) là hàm Softmax; xi là ma trận đầu vào có kích thước [2048,1], xi
là giá trị thu được sau khi dữ liệu đi qua toàn bộ các lớp CNN của mạng Inception
Thông tin khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 267
v3; We là ma trận có kích thước [2048,5]; be có kích thước [2048,1]; he là ma trận
kết quả có kích thước [5,1] chứa giá trị từ 0.0 đến 1.0 đánh giá mức độ chắc chắn
của mạng nơ-ron về đối tượng đầu vào tương ứng với 1 trong 5 đối tượng đầu ra.
Như vậy, một bức ảnh khi đi qua mô hình mới, đầu tiên sẽ được phân tích thành
tổ hợp của các đặc trưng đã học được từ tập dữ liệu của ImageNet (đặc điểm này
có được do kế thừa từ các lớp CNN của Inception-v3). Các đặc trưng này, sau đó
sẽ được tổng hợp để ra quyết định phân loại tại lớp Fully connected mới. Do đó,
quá trình huấn luyện sẽ chỉ cần huấn luyện lớp Fully connected này.
Đối với bài toàn học dựa trên ảnh mô phỏng, khi một bức ảnh ảo được đưa qua
các lớp mạng CNN trên, sẽ được chuyển thành tổ hợp của nhiều đặc trưng thuộc
các đối tượng huấn luyện thật. Điều này tạo ưu thế tốt hơn so với việc huấn luyện
lại các lớp mạng CNN theo các đặc trưng trên ảnh mô phỏng.
Hình 4. Mô hình mạng nơ-ron thử nghiệm.
4. THỬ NGHIỆM VÀ KẾT QUẢ
Thử nghiệm khả năng nhận dạng của mô hình đối với đối tượng mô phỏng
(thử nghiệm 1):
- Tập dữ liệu dùng để huấn luyện: gồm 1000 ảnh mô phỏng cho mỗi loại máy
bay.
- Tập dữ liệu dùng để kiểm tra: gồm 1000 ảnh mô phỏng dùng cho mỗi loại máy
bay.
- Kết quả được trình bày dưới dạng ma trận confusion (Confusion Matrix),
trong đó hàng dọc là kết quả phán đoán của mạng nơ-ron, hàng ngang biểu thị
tập dữ liệu được đưa vào mạng nơ-ron (bảng 1):
Bảng 1. Ma trận confusion của mạng khi nhận dạng ảnh mô phỏng.
B25 F111 B2 B52 C130 %
B25 959 30 3 4 4 95.9
F111 4 965 18 8 5 96.5
B2 0 8 981 9 2 98.1
B52 7 20 11 928 34 92.8
C130 6 13 12 46 923 92.3
AVG 95.12
o Độ chính xác trung bình của mạng nơ-ron cuối quá trình huấn luyện là:
94.3% (E-in)
o Độ chính xác trung bình của mạng nơ-ron trên tập dữ liệu kiểm tra: 95.12 %
(E-out)
Công nghệ thông tin
Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 268
Có thể thấy, độ lệch giữa E-in và E-out là nhỏ, cho thấy mạng không bị
overfiting hay nói cách khác, dữ liệu mô phỏng được sinh ra đã đảm bảo đủ các
yêu cầu về độ ngẫu nhiên của bối cảnh, mô tả được các điểm đặc trưng riêng của
từng loại máy bay mô phỏng. Bên cạnh đó, độ chính xác của mạng nơ-ron lớn hơn
95% cho thấy mạng nơ-ron đã được huấn luyện tốt để có thể nhận dạng được đối
tượng mô phỏng.
Thử nghiệm học dựa trên dữ liệu mô phỏng (thử nghiệm 2):
- Tập dữ liệu dùng để huấn luyện tương tự như ở thử nghiệm 1 (huấn luyện trên
dữ liệu mô phỏng).
- Tập dữ liệu dùng để kiểm tra: gồm 100 ảnh thật cho mỗi loại.
- Kết quả thể hiện trên bảng 2:
Bảng 2. Ma trận confusion của mạng khi nhận dạng ảnh thật.
B25 F111 B2 B52 C130 %
B25 70 11 3 3 13 70
F111 12 63 6 4 15 63
B2 8 19 62 0 11 62
B52 29 23 3 10 35 10
C130 49 17 1 3 30 30
AVG 47
o Độ chính xác trung bình của mạng nơ-ron cuối quá trình huấn luyện là:
94.3% (E-in)
o Độ chính xác trung bình của mạng nơ-ron sau khi huấn luyện trên tập dữ liệu
kiểm tra: 47 % (E-out)
Đối với kết quả này có thể nhận thấy như sau:Trước hết, khoảng cách giữa dữ
liệu nhân tạo và dữ liệu thật là lớn. Do đó, ở cùng một loại máy bay, tuy mạng nơ-
ron có thể nhận dạng nó chính xác trên ảnh mô phỏng (thử nghiệm 1) nhưng lại
không thể nhận dạng được trên ảnh thật (thử nghiệm 2). Hay nói cách khác, các
đặc trưng được lớp CNN trích ra từ ảnh thật và ảnh mô phỏng nằm trong các nhóm
đặc trưng tương đối khác nhau.
Để thu nhỏ sự khác biệt này, nhóm nghiên cứu tiến hành thử nghiệm thứ 3. Thử
nghiệm rút ngắn khoảng cách giữa dữ liệu mô phỏng và dữ liệu thật. Trong
thử nghiệm này:
- Tập huấn luyện:1000 ảnh mô phỏng ở dạng tách biên (hình 9).
- Tập kiểm tra:100 ảnh thật ở dạng tách biên.
- Kết quả được thể hiện trên bảng 3.
Bảng 3. Ma trận confusion của mạng sau hiệu chỉnh khi nhận dạng ảnh thật.
B25 F111 B2 B52 C130 %
B25 59 23 6 4 8 59
F111 10 64 18 3 5 64
B2 1 8 87 3 1 87
B52 9 16 13 56 6 56
C130 5 15 4 5 71 71
AVG 67.4
Thông tin khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 269
Có thể thấy, việc tách biên ảnh trước khi đưa vào mạng nơ-ron, khiến cho mạng
tập trung vào việc học các hình dáng của đối tượng mà bỏ qua phần biểu bì (texture).
Do đó, độ chính xác của mạng đã được nâng lên. Nói cách khác, thông thường cùng
một đối tượng máy bay trong ảnh thật tuy có hình dạng giống nhau nhưng có thể
được sơn màu, và mang các trang bị, khác nhau. Việc đưa ảnh huấn luyện và kiểm
tra về dạng đường viền sẽ khiến mạng chỉ tập trung vào việc nhận dạng hình dáng
của đối tượng, do đó, việc học dựa trên ảnh mô phỏng được cải thiện.
(a) (b)
Hình 5. Ảnh tách biên của máy bay B2. (a) Ảnh mô phỏng tách biên.
(b) Ảnh thật được tách biên.
5. KẾT LUẬN
Có thể thấy, mô hình đề ra đã giải quyết tốt bài toán nhận dạng thông thường
(thử nghiệm 1) nhưng chưa tốt trong việc học trên ảnh mô phỏng (thử nghiệm 2).
Để cải thiện hiệu quả của việc học trên (hay nói cách khác, rút ngắn khoảng cách
giữa dữ liệu ảnh thật và ảnh ảo) nhóm nghiên cứu đã thử nghiệm tách biên dữ liệu,
tuy nhiên kết quả mới chỉ cải thiện được một phần nhỏ.
Mô hình được đề xuất ở trên tuy có phần nào cải thiện được hiệu quả nhận dạng
của mạng nơ-ron khi chỉ huấn luyện sử dụng ảnh mô phỏng nhưng kết quả nhận
dạng đó còn rất thấp để có thể đưa vào ứng dụng nhất định. Trong tương lai, nhóm
nghiên cứu sẽ tiếp tục tìm hiểu, bổ sung các phương pháp thu hẹp khoảng cách
giữa dữ liệu mô phỏng và dữ liệu thật.
TÀI LIỆU THAM KHẢO
[1]. Ashish Shrivastava, Tomas Pﬁster, Oncel Tuzel, Josh Susskind, Wenda Wang,
Russ Webb Apple Inc. “Learning from Simulated and Unsupervised Images
through Adversarial training”. 2016
[2]. Xi Zhang, Yanwei Fu, Andi Zang, Leonid Sigal, Gady Agam. “Learning
Classiﬁers from Synthetic Data Using a Multichannel Autoencoder”. 2015
Công nghệ thông tin
Đ. H. Minh, P. V. Lai, “Mô hình huấn luyện mạng nơ-ron dựa trên ảnh mô phỏng.” 270
[3]. Ruizhongtai (Charles) Qi Stanford University. “Learning 3D Object
Orientations From Synthetic Images”.
[4]. Xi Zhang, Yanwei Fu, Shanshan Jiang, Leonid Sigal and Gady Agam.
“Learning from Synthetic Data Using a Stacked Multichannel Autoencoder”.
[5]. Pierre Baldi. “Autoencoders, Unsupervised Learning, and Deep
Architectures”. 2012
[6]. Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. “Gradient-based learning
applied to document recognition.” 1998
[7]. Health Education Training Institute (HETI). “Simulation based education:
Professional entry student education and training”. 2014
[8]. IanJ.Goodfellow, JeanPouget-Abadie, MehdiMirza, BingXu, DavidWarde-
Farley, SherjilOzair, AaronCourville, YoshuaBengio. “Generative Adversarial
Nets”. 2014
[9]. Glorot, Xavier, Bordes, Antoine, and Bengio, Yoshua. “Deep sparse rectifier
neural networks”. 2011
ABSTRACT
STUDY OF LEARNING FROM SYNTHETIC DATA
Solving images classification problem using Deep learning has been
researched and deployed in more than decades. However, we did not witness
any breakthough until last recent years. This reality is addressed due to the
lack of data and calculation capability. Although all people have been using
GPU to solve calculation capability problems, lack of data problem stilll
remains. Therefore, during last few years, learning from synthetic data has
become a hot topic. In this paper, a model to help artificial neural network
learn from synthetic data is suggested.
Keywords: Deep learning; Neural networks; Convolution neural networks.
Nhận bài ngày 16 tháng 8 năm 2017
Hoàn thiện ngày 26 tháng 11 năm 2017
Chấp nhận đăng ngày 28 tháng 11 năm 2017
Địa chỉ: Viện CNTT/ Viện KHCNQS.
* Email: [email protected].

File đính kèm:

mo_hinh_huan_luyen_mang_no_ron_dua_tren_anh_mo_phong.pdf