Ứng dụng mô hình kết hợp trong nhận dạng cảm xúc

Ngày nay, nhận dạng và phân loại cảm xúc ngày càng chi tiết và chính xác hơn nhờ vào

sự phát triển của các lĩnh vực như điện tử, cảm biến hay kỹ thuật máy tính. Các phương

pháp nhận dạng cảm xúc được nghiên cứu hiện nay sử dụng nhiều phương thức thu thập dữ

liệu khác nhau và một trong những phương thức mang lại hiệu quả là sử dụng cảm biến y

sinh. Phương thức này có thể cung cấp thông tin về các yếu tố sinh học chính xác, bền vững

ít bị ảnh hưởng bởi tác nhân gây nhiễu từ bên ngoài. Bài báo này mô tả phương pháp phân

loại và đánh giá cảm xúc dựa trên mô hình kết hợp sử dụng tín hiệu cảm biến y sinh và tín

hiệu video trên cơ sở học máy. Chúng tôi sẽ mô tả thiết kế của hệ thống thu thập tín hiệu y

sinh, qui trình thu thập thông tin và hệ thống xử lý được dùng để nhận dạng các thuộc tính

của cảm xúc. Nghiên cứu này đạt được hiệu suất nhận dạng với tỉ lệ chính xác là 83,2%

pdf 8 trang phuongnguyen 140
Bạn đang xem tài liệu "Ứng dụng mô hình kết hợp trong nhận dạng cảm xúc", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ứng dụng mô hình kết hợp trong nhận dạng cảm xúc

Ứng dụng mô hình kết hợp trong nhận dạng cảm xúc
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 57 (04/2020) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
17 
ỨNG DỤNG MÔ HÌNH KẾT HỢP TRONG NHẬN DẠNG CẢM XÚC 
APPLIED MULTIMODAL FOR EMOTION RECOGNITION 
Nguyễn Thị Khánh Hồng, Võ Thị Hương, Lê Hữu Duy 
Trường Đại học Sư phạm Kỹ thuật – Đại học Đà Nẵng, Việt Nam 
Ngày toà soạn nhận bài 12/11/2019, ngày phản biện đánh giá 21/11/2019, ngày chấp nhận đăng 9/12/2019. 
TÓM TẮT 
Ngày nay, nhận dạng và phân loại cảm xúc ngày càng chi tiết và chính xác hơn nhờ vào 
sự phát triển của các lĩnh vực như điện tử, cảm biến hay kỹ thuật máy tính. Các phương 
pháp nhận dạng cảm xúc được nghiên cứu hiện nay sử dụng nhiều phương thức thu thập dữ 
liệu khác nhau và một trong những phương thức mang lại hiệu quả là sử dụng cảm biến y 
sinh. Phương thức này có thể cung cấp thông tin về các yếu tố sinh học chính xác, bền vững 
ít bị ảnh hưởng bởi tác nhân gây nhiễu từ bên ngoài. Bài báo này mô tả phương pháp phân 
loại và đánh giá cảm xúc dựa trên mô hình kết hợp sử dụng tín hiệu cảm biến y sinh và tín 
hiệu video trên cơ sở học máy. Chúng tôi sẽ mô tả thiết kế của hệ thống thu thập tín hiệu y 
sinh, qui trình thu thập thông tin và hệ thống xử lý được dùng để nhận dạng các thuộc tính 
của cảm xúc. Nghiên cứu này đạt được hiệu suất nhận dạng với tỉ lệ chính xác là 83,2%. 
Từ khóa: Nhận dạng cảm xúc; cảm biến y sinh; máy học; mạng Nơ ron tích chập; máy học 
vectơ hỗ trợ. 
ABSTRACT 
Detecting and classifying emotions has currently become an important item of research 
and life. The more detailed and accurate emotion recognition system is due to the 
development of various fields such as electronics, sensors or computer engineering. Emotion 
recognition methods are studied using different data collection methods and one of the most 
popular and effective methods is physical – bio sensors. Physical – bio sensor based 
approaches can provide more accurate, sustainable biological information with external 
influences and interferences, especially when we compared with other approaches such as 
image processing, video processing. In this paper, a method of classifying and assessing 
emotions based on a combination of signals collected from physical – bio sensors, video 
collection and machine learning are supposed. Specifically, we will describe the platform of 
a physical – bio signal collection system, the process of collecting information and the 
information processing system used to identify how emotional behavior is characterized. We 
have also shown that a combination modals of physical – bio sensor acquisition systems, 
video processing based on machine learning methods can provide identification 
performance with an accuracy of 83.2% 
Keywords: Emotion Recognition; physical – bio sensor; machine learning; CNN; SVM. 
1. TỔNG QUAN 
Bài toán phân loại, đánh giá và nhận 
dạng cảm xúc của con người đang là một lĩnh 
vực nhận được nhiều sự quan tâm trong các 
nghiên cứu hiện nay. Bài toán nhận dạng cảm 
xúc được thực hiện dựa vào các thông tin đầu 
vào là các tính hiệu y sinh như nhịp tim, 
nồng độ oxy, huyết áp, hay các tín hiệu được 
thu thập từ hình ảnh, video, hay từ các đánh 
giá của bác sĩ, chuyên gia [1]. Kết quả sau 
khi xử lý các thông tin được thu thập là các 
kết luận về tình trạng và trạng thái cảm xúc 
như vui, buồn, tức giận Bài toán nhận dạng 
và phân loại cảm xúc là một bài toán phức 
tạp vì nhiều yếu tố khác nhau và phụ thuộc 
18 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 57 (04/2020) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
vào các thông tin đầu vào [2]. Ngoài ra sự 
đánh giá nhận dạng cảm xúc hầu hết dựa trên 
các suy luận logic từ các thông tin đầu vào, 
tuy nhiên cảm xúc lại hoạt động theo yếu tố 
phi logic [3]. Ví dụ như một người có cảm 
xúc cực kỳ tốt, cực kỳ thoải mái, vẫn không 
thể miêu tả được định nghĩa về cảm xúc tốt 
một cách đồng nhất với người khác. Vì vậy 
bài toán nhận dạng cảm xúc vẫn là một bài 
toán thách thức. 
Tuy gặp nhiều khó khăn và thách thức, 
bài toán phân loại và nhận dạng cảm xúc 
được tập trung nghiên cứu vì nhiều lý do 
khác nhau: 
• Bằng việc hiểu được cảm xúc của con 
người, các hệ thống thông tin hiện nay 
có thể tăng mức độ tương tác với con 
người, tạo trải nghiệm người dùng hoàn 
toàn mới. Ví dụ: Hệ thống âm thanh có 
thể giảm nhạc, giảm âm lượng trong thời 
gian con người đang căng thẳng tột độ 
hoặc sợ hãi, hoặc gợi ý những bộ phim 
phù hợp theo tâm trạng người xem. Máy 
tính và hệ thống giải trí cũng có thể nhận 
dạng được phản ứng của người sử dụng 
như thích thú, hay khó chịu khi một nội 
dung giải trí được trình chiếu ngẫu nhiên. 
Như vậy, hệ thống giải trí và thông tin 
dường như trở thành người bạn đồng 
hành hơn là những công cụ phục vụ cho 
con người hằng ngày [4]. 
• Đánh giá và nhận dạng cảm xúc còn có 
thể được sử dụng như một phương thức 
giám sát sinh học, nhằm bổ sung để tự 
đánh giá, giám sát các trạng thái cảm xúc 
của con người. Kết quả của việc giám sát 
sinh học có nhiều lợi ích chẳng hạn như 
một phương pháp để cải thiện khả năng 
giao tiếp, hoặc đánh giá các hành vi cảm 
xúc có thể gây những tác động không tích 
cực lên con người và xã hội. Từ đó có thể 
đưa ra những phản ứng và phương pháp 
phù hợp để hạn chế, hoặc cải thiện nó [5]. 
Như đã trình bày ở trên, có nhiều 
phương pháp được dùng để thu thập các 
thông tin tín hiệu cảm xúc như tín hiệu y sinh 
(nhịp tim, huyết áp,..) hay các yếu tố như nét 
mặt, nhịp điệu lời nói, cử chỉ, hay các đánh 
giá khách quan từ chuyên gia, bác sĩ [6]. Mỗi 
phương pháp thu thập các thông tin tín hiệu 
cảm xúc có những ưu nhược điểm khác nhau. 
Và trong bài báo này, chúng tôi sẽ tập trung 
vào phương pháp hiện nay đang được tập 
trung nghiên cứu. Đó là phương pháp sử 
dụng các loại cảm biến sinh học để thu thập 
các thông tin y sinh như: Điện cơ đồ 
(Electromyography-EMG); Điện tâm đồ 
(Electrocardiogram-ECG) và Độ điện dẫn 
của da (Electrodermal activity- EDA). 
Phương pháp sử dụng cảm biến y sinh học có 
nhiều ưu điểm nổi trội so với các phương 
pháp khác. Vì thế các thiết bị thu thập tín 
hiệu sử dụng cảm biến y sinh có thể được 
nhỏ gọn hơn nhờ vào công nghệ tích hợp như 
các thiết bị đeo trên người, thậm chí là trang 
sức, tạo cho người sử dụng cảm giác riêng tư 
hơn các phương pháp khác, khi người sử 
dụng phải chịu “giám sát” bởi camera hoặc 
các thiết bị ghi âm, ghi hình khác. Tuy nhiên, 
để tăng độ chính xác đối với dữ liệu thu thập 
được trong nhận dạng cảm xúc, bài báo đã sử 
dụng thêm kỹ thuật nhận dạng cảm xúc bằng 
hình ảnh và đề xuất mô hình kết hợp [7] [8]. 
Mục tiêu của chúng tôi là thu thập các 
tín hiệu y sinh của con người trong các điều 
kiện khác nhau của cuộc sống thực để tự 
động nhận dạng cảm xúc. Chúng tôi đề xuất 
một phương pháp để nhận dạng cảm xúc dựa 
trên mô hình kết hợp trong đó sử dụng các tín 
hiệu y sinh và tín hiệu video. Trong phần 2 
của bài báo này là những trích dẫn các 
phương pháp nghiên cứu nhằm tăng tỷ lệ 
nhận dạng cảm xúc dựa trên mô hình kết hợp. 
Tiếp đến phần 3, sẽ trình bày và giải thích tất 
cả các bước của phương pháp được đề xuất. 
Trong phần 4, so sánh giữa kết quả thu được 
là tỷ lệ nhận dạng cảm xúc dựa trên mô hình 
đơn và mô hình kết hợp cũng như với các mô 
hình nghiên cứu khác. Cuối cùng, kết luận và 
những nghiên cứu trong tương lai được mô tả 
trong phần 5. 
2. TỔNG QUAN TÌNH HÌNH NGHIÊN 
CỨU VỀ MÔ HÌNH NHẬN DẠNG 
CẢM XÚC 
Một hệ thống nhận dạng cảm xúc nhìn 
chung đều dựa trên ba bước cơ bản: 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 57 (04/2020) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
19 
• Thu nhận các tín hiệu, 
• Tính năng khai thác các thuộc tính, 
• Việc nhận dạng cảm xúc. 
Một số nghiên cứu đã tập trung vào việc 
nhận dạng cảm xúc bằng biểu cảm khuôn 
mặt, biểu cảm giọng nói hoặc tín hiệu sinh 
học [9], [10], [11]. Tuy nhiên, có ít nghiên 
cứu tập trung vào đề xuất mô hình kết hợp 
trong nhận dạng cảm xúc [12]. 
Ngoài ra, cách tiếp cận theo hướng sử 
dụng mô hình kết hợp không chỉ giúp tăng tỷ 
lệ nhận dạng mà còn tăng thêm độ tin cậy 
cho hệ thống khi có sự kết hợp đa dạng từ 
nhiều nguồn dữ liệu khác nhau trong các điều 
kiện môi trường khác nhau [13]. 
Về lý thuyết, có ba phương pháp [14] để 
hợp nhất các tín hiệu từ các cảm biến khác 
nhau: 
• Mô hình kết hợp các tín hiệu y sinh: 
được thực hiện trực tiếp trên dữ liệu thô 
từ mỗi cảm biến tín hiệu y sinh; nó chỉ 
có thể được áp dụng khi các tín hiệu y 
sinh này có bản chất tương tự và có cùng 
độ phân giải tín hiệu. Do đó, kỹ thuật 
này hiếm khi được sử dụng vì khó hợp 
nhất các tín hiệu với nhau và dễ bị nhiễu 
do phụ thuộc vào độ nhạy các cảm biến. 
• Mô hình kết hợp các thuộc tính [15]: 
phương pháp này thường được sử dụng 
nhằm mục đích hình thành một vector đa 
thức từ các vector thuộc tính được trích 
xuất từ mỗi cảm biến. Phương pháp này 
có lợi thế là chỉ cần một giai đoạn học 
tập duy nhất và kết quả của vector thuộc 
tính là vector đa thức. 
• Mô hình kết hợp các thuộc tính và mức 
độ ra quyết định nhận dạng [16]: sau khi 
được phân loại riêng biệt từ mỗi tín hiệu 
cảm biến, đây là cách hợp nhất các quyết 
định nhận dạng khác nhau để có được 
kết quả nhận dạng cảm xúc cuối cùng. 
Trong phạm vi bài báo này, chúng tôi 
trình bày một phương pháp nhận dạng cảm 
xúc theo mô hình kết hợp các thuộc tính và 
tự động nhận dạng dựa trên sự kết hợp của 
các mức độ ra quyết định nhận dạng như nói 
trên và gọi chung là mô hình kết hợp trong 
nhận dạng cảm xúc. 
3. PHƯƠNG PHÁP NGHIÊN CỨU 
Trong phần này, chúng tôi đề xuất mô 
hình kết hợp trong nhận dạng cảm xúc. 
Nghiên cứu này gồm có 2 phần chính là: 
• Phần huấn luyện cảm xúc. 
• Phần nhận dạng cảm xúc. 
3.1 Phần huấn luyện cảm xúc 
Phần huấn luyện cảm xúc này có 3 khối 
xử lý chính như mô tả ở Hình 1. 
• Khối tiền xử lý. 
• Khối trích thuộc tính. 
• Khối huấn luyện dữ liệu. 
Kết quả của phần huấn luyện cảm xúc sẽ 
được sử dụng để tự động nhận dạng được 
cảm xúc trong phần nhận dạng cảm xúc. 
Hình 1. Những khối cơ bản của phần huấn 
luyện cảm xúc 
3.1.1. Khối tiền xử lý 
Đây là khối thu thập tín hiệu y sinh thô 
đầu vào và được lưu trữ trong cơ sở dữ liệu 
UTE-EMOTICA của nhóm nghiên cứu 
Trường Đại học Sư phạm Kỹ thuật – Đại học 
Đà Nẵng. Chúng tôi tách tín hiệu thô này 
theo chu kỳ của mỗi loại tín hiệu cảm xúc. 
Tiếp đến, tín hiệu này sẽ được lọc nhiễu bằng 
cách sử dụng bộ lọc Hanning. 
3.1.2. Khối trích thuộc tính 
Tín hiệu sau khi qua khối tiền xử lý sẽ 
tiếp tục được xác định giá trị đỉnh của tín 
hiệu bằng cách tính toán độ dốc của tín hiệu 
và sau đó tìm thấy các dấu hiệu thay đổi của 
độ dốc. Để phát hiện và tách một đỉnh, 
phương pháp được sử dụng ở đây là tính toán 
một vector thuộc tính bao gồm năm thuộc 
tính đó là: giá trị trung bình, phương sai, giá 
trị trung bình của tín hiệu được lọc, phương 
sai của tín hiệu được lọc và biên độ của đỉnh. 
20 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 57 (04/2020) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
Đối với tín hiệu video, quá trình trích 
thuộc tính cảm xúc dựa trên thông tin khuôn 
mặt bao gồm 3 bước chính. Bước đầu tiên là 
bước nhận dạng khuôn mặt từ ảnh đầu vào 
trích từ tín hiệu video đã quay, sau đó thực 
hiện các phép biến đổi và cân chỉnh khuôn 
mặt sử dụng phương pháp Facial Landmark ở 
bước 2. Và cuối cùng đưa qua một mô hình 
để trích xuất dữ liệu. 
Hai bước đầu tiên là nhận dạng khuôn 
mặt và cân chỉnh khuôn mặt đóng vai trò 
quan trọng cho bước cuối cùng. 
Ở bước 1, chúng tôi sử dụng mô hình 
MTCNN (Multi-Task Cascaded 
Convolutional Neural Network) [17] là mô 
hình cho kết quả tốt nhất trong bài toán nhận 
dạng khuôn mặt. Mô hình MTCNN bao gồm 
3 mạng CNN là: P-Net, R-Net và O-Net như 
trong Hình 2. Kết quả đầu ra bao gồm hình 
chữ nhật (còn gọi là bounding box) chứa vị 
trí khuôn mặt và 10 điểm nhận dạng (còn gọi 
là landmark) của khuôn mặt. Chúng tôi chỉ 
sử dụng kết quả bounding box cho bước tiếp 
theo. 
Hình 2. Mạng Nơ ron tích chập đa nhiệm 
Ở bước tiếp theo, sau khi nhận dạng 
khuôn mặt, cân chỉnh khuôn mặt được sử 
dụng trước khi dữ liệu được đi qua bước trích 
thuộc tính ở bước cuối cùng. Hệ thống trích 
xuất thông tin trên khuôn mặt phụ thuộc rất 
lớn vào góc nhìn của người đối với camera, 
vì thế bước cân chỉnh khuôn mặt này rất 
quan trọng [18] là thực hiện cân chỉnh khuôn 
mặt như nhìn trực diện vào camera. Bước 
này sẽ trích ra 194 điểm landmark trên vị trí 
khuôn mặt, nhưng chỉ chọn ra 10 điểm 
landmark. Tuy nhiên, chúng tôi không sử 
dụng kết quả landmark được tạo ra bởi mạng 
MTCNN. 
Hình 3. Kiến trúc mạng CNN trích thuộc 
tính cảm xúc 
Ở bước cuối cùng, vector 128 chiều 
được trích ra từ dữ liệu đã được cân chỉnh và 
làm thuộc tính của dữ liệu khuôn mặt. Để 
trích thuộc tính một mạng CNN 6 lớp được 
sử dụng và đã được huấn luyện với cơ sỡ dữ 
liệu về cảm xúc Kaggle như Hình 3. 
3.1.3. Khối nhận dạng cảm xúc 
Nghiên cứu này được thực hiện thu thập 
dữ liệu dựa trên 7 loại cảm xúc được gán 
nhãn là (0=Angry, 1=Disgust, 2=Fear, 
3=Happy, 4=Sad, 5=Surprise, 6=Neutral). 
Chúng tôi chọn 280 mẫu tín hiệu của 7 loại 
cảm xúc nêu trên trong cơ sở dữ liệu 
UTE-EMOTICA. 
Tại từng frame, 5 thuộc tính được trích 
ra từ 1 tín hiệu y sinh. Như vậy có tổng cộng 
15 thuộc tính được trích xuất từ 3 loại dữ liệu 
y sinh. Kết hợp với thuộc tính 128 chiều từ 
dữ liệu video, chúng tôi có vector 143 chiều 
và sẽ được sử dụng để huấn luyện hay nhận 
dạng. 
Sau khi trích thuộc tính, giải thuật SVM 
(Support Vector Machine) tuyến tính được sử 
dụng để huấn luyện mô hình. SVM được sử 
dụng rộng rãi trong bài toán nhận dạng và 
phân loại. 
Phương pháp SVM phân các lớp dữ liệu 
với mục tiêu là tìm mặt phân cách sao cho 
48x48x3 Input
2x(Conv 3x3x64, stride =1 )
Maxpooling 2x2, stride =2
3x(Conv 3x3x128, stride =1) 
Maxpooling 2x2, stride =2
Flatten
FullConnected(128)
3x(Conv 3x3x256, stride =1) 
Maxpooling 2x2, stride =2
3x(Conv 3x3x512, stride =1) 
Maxpooling 2x2, stride =2
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 57 (04/2020) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
21 
biên (còn gọi là margin) tìm được là lớn nhất, 
đồng nghĩa với việc các điểm dữ liệu an toàn 
nhất so với mặt phân cách [19] [20]. 
3.2 Phần nhận dạng cảm xúc 
Trong bước nhận dạng, vector thuộc tính 
được trích xuất từ các dữ liệu tín hiệu y sinh 
đầu vào và tín hiệu video được trích xuất. 
Những tín hiệu này đã được phân loại bằng 
mô hình SVM và đã được học trước đó. Kết 
quả trả lại của quá trình phân loại là nhãn của 
trạng thái cảm xúc tương ứng. 
4. KẾT QUẢ NGHIÊN CỨU 
4.1 Cơ sở dữ liệu UTE-EMOTICA 
Trong cơ sở dữ liệu này, chúng tôi đã 
xây dựng như sau: 
• Sử dụng 3 cảm biến y sinh là: EMG, 
ECG, EDA và các tín hiệu video ghi lại 
khuôn mặt người bằng camera. 
• 7 cảm xúc được đo là "Angry, Disgust, 
Fear, Happy, Sad, Surprise, Neutral". 
• Độ dài của mỗi mẫu tín hiệu cảm xúc 
được thu thập trong năm phút mỗi ngày 
của mỗi người. 
• Tiến hành đo trên 20 người, độ tuổi là 
21-23, giới tính nam. 
• Thời gian tiến hành đo liên tục trong 6 
ngày (từ thứ Hai đến thứ Bảy). 
Trong quá trình chọn lọc từ các mẫu tín 
hiệu thu được, chúng tôi đã chọn ra 280 mẫu 
có chất lượng tốt để thực hiện việc huấn 
luyện và nhận dạng cảm xúc. 
Hệ thống phần cứng sử dụng để thực đo 
lấy số liệu được thực hiện theo sơ đồ sau: 
Hình 4. Sơ đồ hệ thống phần cứng để thu 
thập dữ liệu. 
4.2 Kết quả đạt được 
Các kết quả được mô tả trên biểu đồ bên 
dưới (Hình 5) bằng cách sử dụng các mô 
hình đơn của từng loại cảm xúc. Cách tiếp 
cận này cho phép có tỷ lệ nhận dạng trung 
bình là 63,52%. 
Hình 5. Tỷ lệ nhận dạng tín hiệu cảm xúc 
của mô hình đơn 
Từ phân tích dữ liệu trong Hình 5 cho 
thấy một số cảm xúc nhất định được nhận 
dạng tốt hơn với mỗi loại cảm biến y sinh 
nhất định so với các loại cảm biến khác khác. 
Thật vậy, phương thức sử dụng EMG cho 
phép nhận dạng tốt hơn với các cảm xúc " 
Angry" và "Disgust", trong khi phương 
thức sử dụng ECG nhận dạng tốt hơn các 
cảm xúc “Disgust” và “Surprise”. Phương 
thức sử dụng EDA lại cho phép nhận dạng tốt 
hơn những cảm xúc “Angry” và "Fear". 
Những đặc điểm này là rất quan trọng bởi 
điều này sẽ giúp chúng ta lựa chọn phương 
thức nhận dạng cảm xúc phù hợp nhằm mục 
đích nhận dạng và phân biệt cảm xúc hiệu 
quả hơn. 
Bên cạnh đó, để cải thiện tỷ lệ nhận dạng 
tín hiệu cảm xúc trung bình so với mô hình 
đơn. Chúng tôi đề xuất 2 mô hình là: 
Mô hình 1: có hai tín hiệu y sinh học 
(EMG và ECG) và tín hiệu video trích xuất 
khuôn mặt. 
Mô hình 2: có ba tín hiệu y sinh học: 
EMG, ECG và EDA và tín hiệu video trích 
xuất khuôn mặt. 
Sau đó, để tăng tỷ lệ nhận dạng cảm xúc 
chúng tôi áp dụng mô hình kết hợp (như 
được trình bày trong phần 2). Thật vậy, cách 
22 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 57 (04/2020) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
tiếp cận sử dụng mô hình kết hợp này cho 
phép có tỷ lệ nhận dạng trung bình là 74,3% 
với mô hình 1 và 83,2% với mô hình 2. Đây 
là một sự cải thiện đáng kể về tỷ lệ nhận 
dạng so với phương pháp không theo mô 
hình kết hợp có tỷ lệ nhận dạng trung bình 
chỉ đạt 63,52 %. Kết quả so sánh hai mô hình 
này được biểu diễn chi tiết hơn trong Bảng 1. 
Bảng 1. Tỷ lệ nhận dạng của hai mô hình 
Loại tín hiệu 
cảm xúc 
Tỷ lệ nhận dạng tín hiệu cảm xúc 
Mô hình 1 Mô hình 2 
Angry 86.02 94.11 
Disgust 77.63 89.89 
Fear 62.4 73.2 
Happy 69.6 80.3 
Sad 71.67 77.45 
Surprise 80.2 87.4 
Neural 72.6 79.89 
Các kết quả được trình bày trong Bảng 1, 
cho thấy tỷ lệ nhận dạng trung bình của từng 
loại cảm xúc trong số bảy cảm xúc nêu trên 
với mức thấp nhất là 62,4% thu được cho 
cảm xúc "Fear" và tối đa cho cảm xúc 
"Angry" đạt được tỷ lệ nhận dạng là 94,11%. 
Trong một số các kết quả nghiên cứu khác: 
tác giả Imen [21] đã sử dụng 4 loại cảm biến 
y sinh là EMG, RESP (Respiratory - đo nhịp 
thở), BVP (Blood Volume Pulse – đo thể tích 
máu), GSR (Galvanic skin response – độ dẫn 
điện của da) đã đạt được kết quả nhận dạng 
cảm xúc là 71 % trong nhận dạng 5 loại cảm 
xúc là “neutral, pleasure, unpleasant, joy, 
reviviscence”. Bên cạnh đó, trong nghiên cứu 
của Chaka Koné và đồng tác giả [22] đã sử 
dụng mô hình kết hợp 4 loại cảm biến EMG, 
RESP, GSR, BVP đạt được 81.69 % cho 
nhận dạng 8 loại cảm xúc là "no emotion, 
anger, hate, grief, platonic love, romantic 
love, joy and reverence”. Nghiên cứu của tác 
giả Santamaria-Granados và các đồng tác giả 
sử dụng 3 loại cảm biến kết hợp là ECG và 
GSR để nhận dạng 2 cảm xúc là “arousal” và 
“ valence” có tỷ lệ nhận dạng là 76%. Bảng 2 
sẽ thể hiện sự so sánh với các kết quả nghiên 
cứu khác trong nhận dạng cảm xúc. 
Bảng 1. Độ chính xác các mô hình kết hợp 
Phương pháp nghiên cứu 
Tỷ lệ nhận dạng 
tín hiệu cảm xúc 
(%) 
Nghiên cứu của tác giả 
Santamaria-Granados và 
đồng tác giả [23] 
76 
Mô hình kết hợp sử dụng 4 
loại tín hiệu y sinh [21] 
71 
Nghiên cứu của Chaka Koné 
và đồng tác giả [22] 
81.69 
Mô hình kết hợp đề xuất (mô 
hình 2) sử dụng cơ sở dữ liệu 
UTE-Emotica 
83.2 
5. KẾT LUẬN VÀ HƯỚNG PHÁT 
TRIỂN CỦA ĐỀ TÀI 
Chúng tôi đề xuất một phương pháp cải 
thiện tỷ lệ nhận dạng cảm xúc trung bình 
theo mô hình kết hợp dựa vào mức độ ra 
quyết định trong đó sử dụng các tín hiệu y 
sinh và tín hiệu video. Những tín hiệu của hai 
mô hình 1 và 2 này đã được áp dụng để nhận 
biết 7 cảm xúc cơ bản (Angry, Disgust, Fear, 
Happy, Sad, Surprise, Neutral). Mô hình đề 
xuất của chúng tôi đã thực hiện nhận dạng 
dựa trên thuật toán máy học. Các kết quả so 
với các nghiên cứu khác nhau thể hiện một 
sự cải thiện đáng kể trong tỷ lệ nhận dạng 
cảm xúc trung bình. Trong tương lai, chúng 
tôi sẽ tăng số lượng mẫu tín hiệu cho cơ sở 
dữ liệu UTE-EMOTICA sử dụng các loại tín 
hiệu (gồm tín hiệu y sinh và tín hiệu video). 
Đồng thời, chúng tôi sẽ cải thiện thuật toán 
nhận dạng cảm xúc nhằm tăng tỷ lệ nhận 
dạng cảm xúc trung bình của hệ thống. 
LỜI CẢM ƠN 
“Nghiên cứu này được tài trợ bởi Quỹ 
Phát triển khoa học và công nghệ Đại học Đà 
Nẵng trong đề tài có mã số B2017-ĐN06-03” 
“Nghiên cứu này được tài trợ bởi Quỹ 
Phát triển khoa học và công nghệ Trường Đại 
học Sư phạm Kỹ thuật – Đại học Đà Nẵng 
trong đề tài có mã số T2018-06-86” 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 57 (04/2020) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
23 
TÀI LIỆU THAM KHẢO 
[1] Rangaraj M. Rangayyan, Biomedical Signal Analysis – A Case-Study Approach, IEEE 
Press 2002. 
[2] Barreto A., Heimer M., and Garcia M., Characterization of Photoplehtysmographic 
Blood Volume Pulse Waveforms for Exercise Evalution, Proceedings 14th Southern 
Biomedical Engineering Conference, Shreveport, Louisiana, April, 1995, pp. 220-223. 
[3] Christie, Israel C, Multivariate Discrimination of Emotion-specific Autonomic Nervous 
System Activity, Master Thesis in Science of Psychology, Virginia. 
[4] Picard R.W., Toward computers that recognize and respond to user emotion, IBM 
Systems Journal; Vol 39, Nos 3&4, 2000. 
[5] Healy J. and Picard R., Digital processing of Affective Signals, ICASSP 98. 
[6] Cowie R., Describing the emotional states expressed in speech, ISCA workshop on speech 
and emotion, Belfast 2000. 
[7] Juang B.H & Soong F.K., Hands-free Telecommunications, HSC 2001, pp.5-10; Kyoto, 
Japan. 
[8] Pentland A., Perceptual Intelligence, Communications of the ACM; Volume 43, Number 
3 (2000), Pages 35-44. 
[9] E. Monte-Moreno, M. Chetouani, M. Faundez-Zanuy and J. SoleCasals, Maximum 
likelihood linear programming data fusion for speaker recognition, Speech 
Communication, 51(9):820–830, 2009. 68. 
[10] A. Mahdhaoui and M. Chetouani, Emotional speech classification based on multi view 
characterization, IAPR International Conference on Pattern Recognition, ICPR, 2010. 51. 
[11] Ammar Mahdhaoui, Analyse de Signaux Sociaux pour la Modélisation de l'interaction 
face à face. Traitement du signal et de l'image, Université Pierre et Marie Curie - Paris 
VI, 2010. French. . 
[12] Sebe, Nicu, et al, Bimodal emotion recognition. Proceedings of the 5th International 
Conference on Methods and Techniques in Behavioral Research. 2005. 
[13] Caifeng Shan, Shaogang Gong, Peter W. McOwan, Facial expression recognition based 
on Local Binary Patterns: A comprehensive study, Image and Vision Computing 27 
(2009) 803–816. 
[14] E. Monte-Moreno, M. Chetouani, M. Faundez-Zanuy et J. SoleCasals, Maximum 
likelihood linear programming data fusion for speaker recognition, Speech 
Communication, 51(9):820–830, 2009. 68. 
[15] Hamza Hamdi, Plate-forme multimodale pour la reconnaissance d’émotions via l’analyse 
de signaux physiologiques: Application à la simulation d’entretiens d’embauche, 
Modeling and Simulation. Université d’Angers, 2012. French. . 
[16] R. Sharma, V.I. Pavlovic, and T.S. Huang, Toward multimodal human-computer 
interface. Proceedings of the IEEE, 86(5):853–869, 1998. 29, 30, 32, 167. 
[17] Kaipeng Z., Zhanpeng Z., Zhifeng L., Yu Q., Joint Face Detection and Alignment using 
Multi-task Cascaded Convolutional Networks, IEEE Signal Processing Letters, vol. 23, 
pp. 1499-1503 (2019). 
[18] Vahid K., Josephine S., One Millisecond Face Alignment with an Ensemble of 
Regression Trees, CVPR IEEE Conference on Computer Vision and Pattern Recognition, 
pp. 1867-1874 (2014). 
[19] Chen, Jun-Cheng, Vishal M. Patel, and Rama Chellappa., Unconstrained face verification 
using deep cnn features. IEEE winter conference on applications of computer vision 
(WACV). IEEE, 2016. 
[20] Hsu C.W., Lin C.J., A comparison of methods for multiclass support vector machines, 
IEEE Trans Neural Network 13(2):415–425 (2002). 
24 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 57 (04/2020) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
[21] Imen Tayari Meftah, Modélisation, détection et annotation des états émotionnels à l’aide 
d’un espace vectoriel multidimensionnel, Artificial Intelligence, Université Nice Sophia 
Antipolis, 2013. French. . . 
[22] Koné C., Tayari I.M., Le-Thanh N., Belleudy C., Multimodal Recognition of Emotions 
Using Physiological Signals with the Method of Decision-Level Fusion, Healthcare 
Applications. Inclusive Smart Cities and e-Health. ICOST 2015. Lecture Notes in 
Computer Science, vol 9102. Springer. 
[23] Santamaria-Granados, Luz, et al., Using deep convolutional neural network for emotion 
detection on a physiological signals dataset (AMIGOS). IEEE Access 7 (2018): 57-67. 
Tác giả chịu trách nhiệm bài viết: 
Nguyễn Thị Khánh Hồng 
Trường Đại học Sư phạm Kỹ thuật – Đại học Đà Nẵng 
Email: [email protected] 

File đính kèm:

  • pdfung_dung_mo_hinh_ket_hop_trong_nhan_dang_cam_xuc.pdf