Ảnh hưởng của hàm kích hoạt đến mô hình mạng nơron tích chập
Tóm tắt: Mạng nơron tích chập (CNN) ngày càng được sử dụng phổ biến
trong xử lý hình ảnh nói chung và phân lớp hình ảnh nói riêng. Để cải thiện
hiệu năng của mạng, việc tinh chỉnh các siêu tham số (hyper-parameters) là
cần thiết. Trong bài báo này, chúng tôi đề cập đến tầm quan trọng của việc lựa
chọn hàm kích hoạt phù hợp khi huấn luyện CNN. Chúng tôi so sánh các hàm
kích hoạt cơ bản và các hàm kích hoạt được đề xuất trong một số nghiên cứu
gần đây. Để đánh giá mức ảnh hưởng của chúng đến hiệu năng của CNN,
chúng tôi tiến hành các thí nghiệm với hai mô hình, một đơn giản một phức
tạp lần lượt trên hai tập dữ liệu hình ảnh phổ biến MNIST và CIFAR-10. Cách
thức tiến hành thực nghiệm và các tiêu chí đánh giá được tham khảo dựa trên
DAWNBench với một số thay đổi nhỏ. Kết quả cho thấy hàm kích hoạt ReLU
và các biến thể của nó đem lại độ chính xác cao sớm hơn các dạng hàm kích
hoạt khác, mặc dù ưu thế về tổng thời gian huấn luyện là không đáng kể.
Tóm tắt nội dung tài liệu: Ảnh hưởng của hàm kích hoạt đến mô hình mạng nơron tích chập
Tạp chí Khoa học, Trường Đại học Sư phạm, Đại học Huế ISSN 1859-1612, Số 03(51)/2019: tr. 125-134 Ngày nhận bài: 27/12/2018; Hoàn thành phản biện: 05/01/2019; Ngày nhận đăng: 28/12/2018 ẢNH HƯỞNG CỦA HÀM KÍCH HOẠT ĐẾN MÔ HÌNH MẠNG NƠRON TÍCH CHẬP VĨNH ANH NGHIÊM QUÂN, NGUYỄN LÊ TRUNG THÀNH ĐINH THỊ DIỆU MINH, TRẦN HOÀI NHÂN Khoa Tin học, Trường Đại học Sư phạm, Đại học Huế Tóm tắt: Mạng nơron tích chập (CNN) ngày càng được sử dụng phổ biến trong xử lý hình ảnh nói chung và phân lớp hình ảnh nói riêng. Để cải thiện hiệu năng của mạng, việc tinh chỉnh các siêu tham số (hyper-parameters) là cần thiết. Trong bài báo này, chúng tôi đề cập đến tầm quan trọng của việc lựa chọn hàm kích hoạt phù hợp khi huấn luyện CNN. Chúng tôi so sánh các hàm kích hoạt cơ bản và các hàm kích hoạt được đề xuất trong một số nghiên cứu gần đây. Để đánh giá mức ảnh hưởng của chúng đến hiệu năng của CNN, chúng tôi tiến hành các thí nghiệm với hai mô hình, một đơn giản một phức tạp lần lượt trên hai tập dữ liệu hình ảnh phổ biến MNIST và CIFAR-10. Cách thức tiến hành thực nghiệm và các tiêu chí đánh giá được tham khảo dựa trên DAWNBench với một số thay đổi nhỏ. Kết quả cho thấy hàm kích hoạt ReLU và các biến thể của nó đem lại độ chính xác cao sớm hơn các dạng hàm kích hoạt khác, mặc dù ưu thế về tổng thời gian huấn luyện là không đáng kể. Từ khóa: CNN, hàm kích hoạt. 1. MỞ ĐẦU Hiện nay, phương pháp học sâu (deep learning) là một trong những phương pháp nhận được nhiều sự quan tâm từ cộng đồng nghiên cứu về học máy (machine learning). Tuy học sâu không đồng nghĩa với mạng nơron nhân tạo (artificial neural networks – ANN) nhưng khi nhắc đến thuật toán học sâu, người ta chủ yếu quan tâm đến các mạng nơron nhân tạo được triển khai trên diện rộng, đặc biệt là trong các bài toán về nhận dạng hình ảnh. Kể từ năm 2012, sau thành công của mạng nơron tích chập (convolutional neural networks – CNN) trong các cuộc thi nhận dạng hình ảnh diện rộng, các mô hình mạng này ngày càng được nâng cấp để giải quyết các bài toán ngày một phức tạp hơn. Ngoài các hàm kích hoạt (activation function) cơ bản như hàm tiếp tuyến hyperbol tanh hay hàm logistic, ngày càng nhiều hàm kích hoạt mới được đề xuất như ReLU[1], LeakyReLU[2], PReLU[3], ELU[4], SELU[5]. Do số lượng nơron và các liên kết nơron trong các mô hình mạng nơron hiện đại dao động từ con số vài ngàn đến vài triệu, quá trình huấn luyện của các mạng này tiêu tốn rất nhiều thời gian cũng như đòi hỏi khá cao về cấu hình phần cứng. Việc tối ưu hóa cấu trúc mô hình mạng, mà điển hình là việc lựa chọn một hàm kích hoạt thích hợp, do đó là rất cần thiết. Tuy hiện nay đã có nhiều hàm kích hoạt mới để người xây dựng mô hình có thể chọn lựa, nhưng tính hiệu quả của các hàm này thường chỉ được minh chứng qua một mô hình đặc thù được đề cập đến trong bài báo của một nhóm nghiên cứu. Vì thiếu sự so sánh về hiệu 126 VĨNH ANH NGHIÊM QUÂN và cs. năng của các hàm kích hoạt này trong cùng một mô hình nên người xây dựng mô hình thường có xu hướng chọn một hàm kích hoạt ngẫu nhiên hoặc thử nhiều hàm kích hoạt khác nhau rồi chọn hàm giúp huấn luyện mô hình nhanh nhất. Điều này dẫn đến việc lãng phí thời gian và tài nguyên. Để khắc phục những hạn chế trên, trong nghiên cứu này, nhóm chúng tôi áp dụng các hàm kích hoạt đã nêu cho một số bài toán có sử dụng mô hình mạng nơron tích chập phổ biến nhất hiện nay, đồng thời so sánh ảnh hưởng của từng hàm kích hoạt đến hiệu năng của mô hình trong từng bài toán. Việc xác định được hàm kích hoạt phù hợp sẽ giúp người dùng có được cái nhìn bao quát hơn khi xây dựng mô hình giải quyết các bài toán tương tự. Cấu trúc tiếp theo của bài viết được trình bày như sau: mục 2 trình bày về các hàm kích hoạt; mục 3 về mô hình sẽ được khảo sát, mục 4 mô tả thực nghiệm và mục 5 là phần kết luận. 2. CÁC HÀM KÍCH HOẠT 2.1. Hàm ReLU Được đề xuất trong [2], Rectified Linear Unit (ReLU)[1] được định nghĩa: ReLU max 0,x x Hình 1. Hàm ReLU và đạo hàm Đây là hàm không tuyến tính và không có đạo hàm tại 0x . Tuy nhiên trong tính toán, đạo hàm của ReLU tại 0x được ngầm định bằng 0 hoặc 1. ReLU đơn giản về mặt tính toán hơn các hàm logistic / sigmoid hay tanh do không phải sử dụng các phép toán lũy thừa. Theo [1], ReLU có đạo hàm bằng 1 khi nơron được kích hoạt nên giúp tránh được hiện tượng vanishing gradient thường gặp trong các hàm sigmoid hay tanh. Tuy nhiên theo [2], nhược điểm của hàm này là khi nơron không được kích hoạt, gradient sẽ bằng 0. Điều này dẫn đến việc một nơron có nguy cơ không bao giờ được kích hoạt do các giải thuật tối ưu mạng nơron bằng gradient sẽ không điều chỉnh trọng số của một nơron nếu nơron đó không kích hoạt ngay từ đầu. -1 0 1 2 3 4 -3 -2 -1 0 1 2 3 -1 0 1 2 -3 -2 -1 0 1 2 3 ẢNH HƯỞNG CỦA HÀM KÍCH HOẠT ĐẾN MÔ HÌNH MẠNG NƠRON TÍCH CHẬP 127 2.2. Hàm Leaky ReLU Leaky Rectified Linear Unit (Leaky ReLU)[2] là một biến thể của ReLU. Leaky ReLU được định nghĩa như sau: 0 LeakyReLU .01 00 x x x x Dễ thấy hàm Leaky RELU thay thế phần âm của ReLU bằng một hàm tuyến tính với hệ số góc nhỏ cố định (0.01). Hình 2. Hàm Leaky ReLU và đạo hàm (trục Y của đạo hàm theo thang logarit) 2.3. Hàm PReLU Hàm PReLU hay còn gọi là Parametric ReLU[3] được định nghĩa: 0 P eLU 0 R a x x x x hay PReLU max(0, ) min(0, )x a x Đây là dạng tổng quát của hàm Leaky ReLU, hệ số góc a của phần âm có giá trị khởi điểm là 0.25 và được cập nhật trong quá trình huấn luyện mô hình. Khi a = 0.01, PReLU trở thành Leaky ReLU. Hình 3. Hàm PReLU và đạo hàm -0.0001 0.0009 0.0019 -0.01 -0.0075 -0.005 -0.0025 0 0.0025 0.01 0.1 1 -0.01 -0.005 0 0.005 0.01 -1 0 1 2 3 4 -3 -2 -1 0 1 2 3 0 1 2 -3 -2 -1 0 1 2 3 128 VĨNH ANH NGHIÊM QUÂN và cs. 2.4. Hàm ELU Hàm ELU (Exponential Linear Unit)[4] được định nghĩa như sau: ELU 0 0 x x x e x hay ( ) ( ) ( ))ELU max 0, min 0, xx x e Trong [4], tác giả lấy = 1. Từ đồ thị của ELU, dễ thấy phần dương là hàm đồng nhất như ReLU còn phần âm trơn dần về giá trị . Hình 4. Hàm ELU và đạo hàm 2.5. Hàm SELU Hàm SELU hay Scaled Exponential Linear Unit[5] được định nghĩa như sau: SELU 0 0 x x x x e Trong đó và là hai hằng số được xác định trước. 1.0507 và 1.67326 . Dễ thấy đây là một biến thể của hàm ELU. Giá trị của và được chọn để đảm bảo giá trị trung bình và phương sai của input được bảo toàn giữa hai lớp liên tiếp của mạng nơron. Hình 5. Hàm SeLU và đạo hàm -2 -1 0 1 2 3 4 -3 -2 -1 0 1 2 3 0 1 2 -3 -2 -1 0 1 2 3 -2 -1 0 1 2 3 4 -3 -2 -1 0 1 2 3 0 1 2 -3 -2 -1 0 1 2 3 ẢNH HƯỞNG CỦA HÀM KÍCH HOẠT ĐẾN MÔ HÌNH MẠNG NƠRON TÍCH CHẬP 129 3. MÔ HÌNH Trong bài báo này, chúng tôi sử dụng hai mô hình, một đơn giản và một phức tạp, tương ứng với hai tập dữ liệu nhỏ và lớn. Đối với tập dữ liệu nhỏ, chúng tôi sử dụng một mô hình với hai lớp tính chặp như sau: Bảng 1. Kiến trúc mô hình tích chập Layer (type) Output Shape Param # Conv2d [-1, 10, 24, 24] 260 MaxPool2d [-1, 10, 12, 12] 0 Conv2d [-1, 20, 8, 8] 5,020 Dropout2d [-1, 20, 8, 8] 0 MaxPool2d [-1, 20, 4, 4] 0 Linear [-1, 50] 16,050 Linear [-1, 10] 510 Tổng số tham số cần huấn luyện là 21,840. Về cơ bản, mô hình tương tự với LeNet-5. Ở đây, chúng tôi thêm vào lớp dropout để giảm hiện tượng overfitting. Đối với tập dữ liệu lớn hơn, chúng tôi sử dụng mô hình VGG (Visual Geometry Group)[10] cấu hình A (VGG-11) với 8 lớp tích chặp. Số tham số cần huấn luyện là 9,231,144. Bảng 2. Kiến trúc mô hình VGG-11 Layer (type) Output Shape Param # Conv2d [-1, 64, 32, 32] 1,792 BatchNorm2d [-1, 64, 32, 32] 128 MaxPool2d [-1, 64, 16, 16] 0 Conv2d [-1, 128, 16, 16] 73,856 BatchNorm2d [-1, 128, 16, 16] 256 MaxPool2d [-1, 128, 8, 8] 0 Conv2d [-1, 256, 8, 8] 295,168 BatchNorm2d [-1, 256, 8, 8] 512 Conv2d [-1, 256, 8, 8] 590,080 BatchNorm2d [-1, 256, 8, 8] 512 MaxPool2d [-1, 256, 4, 4] 0 Conv2d [-1, 512, 4, 4] 1,180,160 BatchNorm2d [-1, 512, 4, 4] 1,024 Conv2d [-1, 512, 4, 4] 2,359,808 BatchNorm2d [-1, 512, 4, 4] 1,024 MaxPool2d [-1, 512, 2, 2] 0 Conv2d [-1, 512, 2, 2] 2,359,808 BatchNorm2d [-1, 512, 2, 2] 1,024 Conv2d [-1, 512, 2, 2] 2,359,808 BatchNorm2d [-1, 512, 2, 2] 1,024 MaxPool2d [-1, 512, 1, 1] 0 AvgPool2d [-1, 512, 1, 1] 0 Linear [-1, 10] 5,130 130 VĨNH ANH NGHIÊM QUÂN và cs. Khi tiến hành khảo sát mô hình, chúng tôi lần lượt thay thế tất cả các hàm kích hoạt sau các lớp tích chặp lẫn lớp kết nối đầy đủ (fully-connected) bằng các hàm đã được đề cập ở mục 2. Trong phần tiếp theo, chúng tôi khảo sát sự ảnh hưởng của các hàm kích hoạt trên đến CNN. Các chi tiết của thực nghiệm như tập dữ liệu, thang đo (tiêu chí đánh giá) cũng sẽ được giải thích cụ thể. 4. THỰC NGHIỆM VÀ KẾT QUẢ 4.1. Tập dữ liệu Để đánh giá tác động của các hàm kích hoạt kể trên lên CNN trong bài toán phân lớp hình ảnh, chúng tôi sử dụng hai tập dữ liệu hình ảnh phổ biến là CIFAR-10 và MNIST. Tập dữ liệu MNIST (Modified National Institute of Standards and Technology)[6] là tập các chữ số viết tay từ 0-9 được số hóa. MNIST bao gồm 60,000 hình ảnh để huấn luyện và 10,000 hình ảnh để kiểm định. Mỗi phần tử của tập là một kí tự số theo hệ màu xám đơn sắc (grayscale) nằm chính giữa một khung hình có kích thước đã được chuẩn hóa (28x28). Nhãn của mỗi phần tử là kí tự số tương ứng trong hình ảnh của phần tử đó. Hình 6. Tập dữ liệu ký tự số MNIST Tập dữ liệu CIFAR-10 (Canadian Institute For Advanced Research)[7] bao gồm 60,000 phần tử thuộc 10 lớp khác nhau (mỗi lớp có 6,000 phần tử), trong đó 50,000 phần tử để huấn luyện và 10,000 phần tử để kiểm định. Mỗi phần tử là một hình ảnh màu đa sắc (RGB) có kích thước đã được chuẩn hóa (32x32). Nhãn của 10 lớp phần tử lần lượt là: máy bay, xe hơi, chim chóc, mèo, hươu nai, chó, ếch, ngựa, tàu thủy và xe tải. Hình 7. Các lớp phần tử của tập dữ liệu CIFAR-10 ẢNH HƯỞNG CỦA HÀM KÍCH HOẠT ĐẾN MÔ HÌNH MẠNG NƠRON TÍCH CHẬP 131 4.2. Thang đo DAWNBench[8] là một benchmark nhằm đánh giá hiệu năng của mạng nơron sâu. Theo [8], các bài benchmark khác thường chỉ tập trung lấy thời gian huấn luyện một minibatch dữ liệu làm tiêu chi chính mà bỏ qua độ chính xác của mô hình. Các tiêu chí của DAWNBench đảm bảo việc đánh giá một mô hình phải cân nhắc cả thời gian huấn luyện lẫn độ chính xác của mô hình đó. Để đánh giá ảnh hưởng của các hàm kích hoạt lên hiệu năng, chúng tôi dựa theo hai trong bốn tiêu chí được đề cập trong DAWNBench, bao gồm thời gian huấn luyện mô hình để đạt được một ngưỡng chính xác nhất định và thời gian suy diễn (inference time) hay trong trường hợp này là thời gian phân lớp một mẫu từ mô hình đó sau khi huấn luyện. Chúng tôi bỏ qua hai tiêu chí còn lại (chi phí thuê phần cứng để huấn luyện và suy diễn) do thực nghiệm được tiến hành trên phần cứng có sẵn. Ngoài ra, để có cái nhìn tổng quát hơn, chúng tôi cũng đưa thêm một số tiêu chí như tổng thời gian huấn luyện và tần suất lỗi sau khi huấn luyện xong. 4.3. Cấu hình phần cứng và tinh chỉnh mô hình Thực nghiệm được tiến hành trên máy trạm với cấu hình như sau: Ryzen 5 1600 3.8Ghz (6-core), 16GB RAM , NVIDIA GTX 1060 (6GB VRAM). Do giới hạn về phần cứng cùng độ phức tạp của mô hình, chúng tôi chỉ thực hiện đánh giá việc huấn luyện sau 10 chu kỳ (epoch) đối với tập MNIST và 50 chu kỳ với tập CIFAR-10. Trong [8], tác giả có đề xuất việc sử dụng thuật toán tối ưu SGD thay cho Adam[9] vì SGD với momentum cho độ chính xác cao hơn nếu số chu kỳ huấn luyện lớn (>100 chu kỳ). Tuy nhiên, điều này cũng đồng nghĩa với việc khi thực nghiệm được tiến hành với số chu kỳ nhỏ, Adam sẽ đem lại mức độ hội tụ ban đầu cao hơn đối với cả tập huấn luyện và kiểm thử. Do đó, chúng tôi quyết định lựa chọn thuật toán tối ưu Adam thay cho SGD. Ngoài ra, tác giả [8] cũng đưa ra hai kết luận sau về batch size. Thứ nhất, batch size quá lớn hay quá nhỏ đều ảnh hưởng đến độ hội tụ của thuật toán. Thứ hai, batch size lớn đem lại thông lượng (throughput: số lượng hình ảnh xử lý / đơn vị thời gian) tối ưu, giúp giảm thời gian huấn luyện. Cụ thể, trong [8], với batch size là 32, mô hình cần ít chu kỳ nhất để đạt độ chính xác tối đa; trong khi batch size là 256 cho độ chính xác tương đương (chênh lệch <0.5%) nhưng thời gian huấn luyện mô hình giảm đến 1.9 lần. Do batch size lớn cũng yêu cầu cao hơn về mặt phần cứng nên để cân bằng các yếu tố này, chúng tôi chọn batch size là 128. 4.4. Đánh giá kết quả thực nghiệm Căn cứ vào các kết quả thể hiện trong Hình 8, 9 và Bảng 3, 4; chúng tôi rút ra một số nhận xét sau: - Việc huấn luyện với PreLU và Leaky ReLU cho tần suất lỗi thấp (tương ứng với độ chính xác cao) khi kiểm thử, tuy nhiên thời gian huấn luyện của PreLU tương đối cao. 132 VĨNH ANH NGHIÊM QUÂN và cs. - Hàm Tanh đem lại tần suất lỗi lớn, thời gian huấn luyện và suy diễn thường cao hơn so với các hàm khác. Chúng tôi kiến nghị tránh sử dụng hàm này khi xử lý bài toán phân lớp với CNN. - Hàm ReLU, SELU và ELU cho tần suất lỗi tương đối thấp với thời gian huấn luyện vừa phải. - Hàm Leaky ReLU luôn cho thời gian huấn luyện để đạt ngưỡng chính xác xác định trước ngắn nhất, theo sau là ReLU. Lưu ý ở đây là tuy trong Bảng 3 (MNIST) hàm PReLU cho độ hội tụ tốt nhất, điều này lại không lặp lại trong Bảng 4 (CIFAR-10). Do tính thiếu ổn định này, chúng tôi cho rằng PReLU cần được kiểm chứng thêm bằng một số thực nghiệm khác. Hình 8. Độ chính xác và giá trị hàm lỗi của CNN huấn luyện trên tập MNIST Bảng 3. Kết quả thử nghiệm với tập MNIST (các kết quả tốt nhất của mỗi cột được highlight) Hàm Tổng thời gian huấn luyện Thời gian phân lớp một mẫu (ms) Chu kỳ kiểm thử đầu tiên đạt độ chính xác 98% Thời gian huấn luyện để đạt độ chính xác 98% Tần suất lỗi ReLU 0:01:48 0.14975 9 0:01:38 1.73% Tanh 0:01:50 0.15276 N/A N/A 2.09% SELU 0:01:48 0.14916 7 0:01:16 1.62% PReLU 0:01:51 0.14734 5 0:00:56 1.41% ELU 0:01:48 0.14927 8 0:01:26 1.63% Leaky ReLU 0:01:48 0.14856 7 0:01:16 1.50% Hình 9. Độ chính xác và giá trị hàm lỗi của mô hình VGG-11 huấn luyện trên tập CIFAR-10 0 0.5 1 1.5 0 5 10 15 20 25 30 35 40 45 50 L o ss Epoch ReLU Tanh 85 90 95 100 1 2 3 4 5 6 7 8 9 10 A c c u ra c y ( % ) Epoch ReLU Tanh 0 0.2 0.4 1 2 3 4 5 6 7 8 9 10 L o ss Epoch ReLU Tanh 50.00 70.00 90.00 110.00 0 5 10 15 20 25 30 35 40 45 50 A c c u ra c y ( % ) Epoch ReLU Tanh ẢNH HƯỞNG CỦA HÀM KÍCH HOẠT ĐẾN MÔ HÌNH MẠNG NƠRON TÍCH CHẬP 133 Bảng 4. Kết quả thử nghiệm với tập CIFAR-10 (các kết quả tốt nhất của mỗi cột được highlight) Hàm Tổng thời gian huấn luyện Thời gian phân lớp một mẫu (ms) Chu kỳ kiểm thử đầu tiên đạt độ chính xác 87% Thời gian huấn luyện để đạt độ chính xác 87% Tần suất lỗi ReLU 0:47:38 0.324384 15 0:14:28 9.91% Tanh 0:48:30 0.3282 35 0:33:47 12.58% SELU 0:48:35 0.325202 23 0:22:16 12.07% PReLU 0:49:25 0.327518 21 0:20:42 10.77% ELU 0:47:53 0.323012 21 0:20:11 11.07% Leaky ReLU 0:48:16 0.32579 14 0:13:39 9.57% 5. KẾT LUẬN Qua bài báo này, chúng tôi đã bước đầu đánh giá được tác động của hàm kích hoạt đến quá trình huấn luyện cũng như suy diễn của mạng nơron. Dựa vào kết quả thực nghiệm, chúng tôi rút ra một số kết luận về việc nên hay không nên sử dụng hàm kích hoạt nào tùy vào trường hợp người dùng muốn ưu tiên giảm thời gian huấn luyện, tăng độ chính xác của mô hình hay cân bằng giữa cả hai. Nhìn chung, hàm ReLU và các biến thể của nó đem lại hiệu năng tốt hơn hàm Tanh trong hầu hết mọi trường hợp. Ngoài ra, chúng tôi cũng trình bày một số điều chỉnh về siêu tham số và tiêu chí được đề cập trong DAWNBench khi tiến hành khảo sát mô hình trên máy tính cục bộ, bao gồm việc lược qua các tiêu chí đánh giá về chi phí huấn luyện và chi phí suy diễn. Việc triển khai các mô hình này và tiến hành thực nghiệm trên các nền tảng học sâu điện toán đám mây sẽ giúp việc đánh giá được hoàn thiện hơn. TÀI LIỆU THAM KHẢO [1] Nair, Vinod, and Geoffrey E. Hinton (2010). Rectified linear units improve restricted boltzmann machines. Proceedings of the 27th international conference on machine learning (ICML-10). [2] Maas, Andrew L., Awni Y. Hannun, and Andrew Y. Ng. "Rectifier nonlinearities improve neural network acoustic models." Proc. icml. Vol. 30. No. 1. 2013. [3] He, Kaiming, et al. (2015). Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. Proceedings of the IEEE international conference on computer vision. [4] Clevert, Djork-Arné, Thomas Unterthiner, and Sepp Hochreiter (2015). Fast and accurate deep network learning by exponential linear units (elus). arXiv preprint arXiv:1511.07289. [5] Klambauer, Günter, et al. (2017). Self-normalizing neural networks. Advances in Neural Information Processing Systems. [6] LeCun, Yann, Corinna Cortes, and C. J. Burges (2010). MNIST handwritten digit database. AT&T Labs [Online]. Available: lecun. com/exdb/mnist 2. [7] Krizhevsky, Alex, and Geoffrey Hinton (2009). Learning multiple layers of features from tiny images. Vol. 1. No. 4. Technical report, University of Toronto. 134 VĨNH ANH NGHIÊM QUÂN và cs. [8] Coleman, Cody, et al. (2017). DAWNBench: An End-to-End Deep Learning Benchmark and Competition." Training 100.101 (2017): 102. [9] Kingma, Diederik P., and Jimmy Ba (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980. [10] Simonyan, Karen, and Andrew Zisserman (2014). Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556. Title: IMPACT OF ACTIVATION FUNCTIONS IN CONVOLUTION NEURAL NETWORKS Abstract: Convolution neural networks (CNNs) are becoming more and more widely used in image processing in general and image classification in particular. To improve a CNN’s performance, hyperparameter tuning is required. In this paper, we discuss the importance of selecting an appropriate activation function for training CNNs. We compare some basic functions against those proposed in recent studies. To evaluate their impact on CNNs’ performance, we conduct various experiments with two CNN models, one simple and another complex in two popular image datasets MNIST and CIFAR-10, respectively. Experimental procedure and evaluation metrics are based on those proposed in DAWNBench with minor modifications. Our results show that ReLU and its variants offer high accuracy earlier than other types, despite having negligible advantage with regards to total training time. Keywords: CNN, activation function. VĨNH
File đính kèm:
- anh_huong_cua_ham_kich_hoat_den_mo_hinh_mang_noron_tich_chap.pdf