Nhận dạng tiếng nói bền vững sử dụng kỹ thuật thừa số hóa ma trận không âm kết hợp với kỹ thuật về độ không đảm bảo của các đặc trưng âm học

Tóm tắt: Trong hệ thống nhận dạng tiếng nói kỹ thuật thừa số hóa ma trận

không âm có thể được sử dụng trong khâu tiền xử lý để loại bỏ nhiễu, nâng cao chất

lượng tiếng nói cần nhận dạng và do đó có thể tăng chất lượng của hệ thống nhận

dạng tiếng nói trong môi trường nhiễu. Tuy nhiên, tín hiệu sau khi nâng cao thường

vẫn còn chứa một phần nhiễu. Thông tin sai khác giữa tín hiệu nâng cao và tín hiệu

sạch, hay gọi là độ không đảm bảo, có thể là thông tin hữu ích cho quá trình giải

mã của hệ thống nhận dạng tiếng nói. Trong bài báo này, chúng tôi trình bày một

phương pháp nâng cao chất lượng hệ thống nhận dạng tiếng nói dựa trên kỹ thuật

thừa số hóa ma trận không âm kết hợp với kỹ thuật giải mã sử dụng thông tin về độ

không đảm bảo của vec-tơ đặc trưng. Chúng tôi đã đánh giá phương pháp kết hợp

này trong hệ thống nhận dạng tiếng nói tiếng Việt. Các kết quả cho thấy phương

pháp kết hợp đã nâng cao độ chính xác của hệ thống nhận dạng hơn so với việc chỉ

sử dụng kỹ thuật thừa số hóa ma trận không âm trong hệ thống nhận dạng tiếng nói

pdf 9 trang phuongnguyen 5400
Bạn đang xem tài liệu "Nhận dạng tiếng nói bền vững sử dụng kỹ thuật thừa số hóa ma trận không âm kết hợp với kỹ thuật về độ không đảm bảo của các đặc trưng âm học", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Nhận dạng tiếng nói bền vững sử dụng kỹ thuật thừa số hóa ma trận không âm kết hợp với kỹ thuật về độ không đảm bảo của các đặc trưng âm học

Nhận dạng tiếng nói bền vững sử dụng kỹ thuật thừa số hóa ma trận không âm kết hợp với kỹ thuật về độ không đảm bảo của các đặc trưng âm học
Kỹ thuật điều khiển & Điện tử 
N. H. Bình, P. T. N. Yến, N. Q. Cường, “Nhận dạng tiếng nói các đặc trưng âm học.” 54 
 NHẬN DẠNG TIẾNG NÓI BỀN VỮNG SỬ DỤNG KỸ THUẬT 
THỪA SỐ HÓA MA TRẬN KHÔNG ÂM KẾT HỢP VỚI KỸ THUẬT 
VỀ ĐỘ KHÔNG ĐẢM BẢO CỦA CÁC ĐẶC TRƯNG ÂM HỌC 
Nguyễn Hữu Bình1, Phạm Thị Ngọc Yến1,2, Nguyễn Quốc Cường1,2* 
Tóm tắt: Trong hệ thống nhận dạng tiếng nói kỹ thuật thừa số hóa ma trận 
không âm có thể được sử dụng trong khâu tiền xử lý để loại bỏ nhiễu, nâng cao chất 
lượng tiếng nói cần nhận dạng và do đó có thể tăng chất lượng của hệ thống nhận 
dạng tiếng nói trong môi trường nhiễu. Tuy nhiên, tín hiệu sau khi nâng cao thường 
vẫn còn chứa một phần nhiễu. Thông tin sai khác giữa tín hiệu nâng cao và tín hiệu 
sạch, hay gọi là độ không đảm bảo, có thể là thông tin hữu ích cho quá trình giải 
mã của hệ thống nhận dạng tiếng nói. Trong bài báo này, chúng tôi trình bày một 
phương pháp nâng cao chất lượng hệ thống nhận dạng tiếng nói dựa trên kỹ thuật 
thừa số hóa ma trận không âm kết hợp với kỹ thuật giải mã sử dụng thông tin về độ 
không đảm bảo của vec-tơ đặc trưng. Chúng tôi đã đánh giá phương pháp kết hợp 
này trong hệ thống nhận dạng tiếng nói tiếng Việt. Các kết quả cho thấy phương 
pháp kết hợp đã nâng cao độ chính xác của hệ thống nhận dạng hơn so với việc chỉ 
sử dụng kỹ thuật thừa số hóa ma trận không âm trong hệ thống nhận dạng tiếng nói. 
Từ khóa: Nhận dạng tiếng nói, Thừa số hóa ma trận không âm, Ước lượng độ không đảm bảo. 
1. ĐẶT VẤN ĐỀ 
Nhận dạng tiếng nói tự động (ASR: Automatic Speech Recognition) là lĩnh vực 
thu hút sự quan tâm của nhiều nhà nghiên cứu trong các ứng dụng về tương tác 
người máy và dịch tiếng nói tự động. Kết quả nhận dạng trong môi trường không 
nhiễu đạt tỷ lệ khá cao, hơn 90%. Tuy nhiên, trong môi trường ứng dụng thực tế có 
nhiễu thì chất lượng nhận dạng giảm đáng kể do có sự sai khác giữa cơ sở dữ liệu 
dùng để huấn luyện mô hình nhận dạng, thường được thu âm trong môi trường 
không nhiễu, và dữ liệu cần nhận dạng, thường có nhiễu môi trường. Để nâng cao 
tính bền vững của hệ thống ASR trong môi trường nhiễu, một thuật toán nâng cao 
chất lượng tiếng nói thường được tích hợp vào trong hệ thống ASR với mục đích 
loại bỏ nhiễu để tín hiệu tiếng nói đưa vào nhận dạng giống với tín hiệu tiếng nói 
dùng để huấn luyện mô hình. Các thuật toán nâng cao chất lượng tiếng nói có thể 
phân thành hai nhóm: nhóm các thuật toán sử dụng một microphone và nhóm các 
thuật toán sử dụng nhiều microhone [1]. Nhóm các thuật toán sử dụng nhiều 
microphone thường cho chất lượng tốt hơn trong môi trường nhiễu do có nhiều 
thông tin về tiếng nói cần nhận dạng cũng như thông tin về nhiễu cần loại bỏ. Tuy 
nhiên, việc triển khai hệ thống nhiều microphone thường khó khăn trong các ứng 
dụng thực tế do vấn đề về chi phí cũng như kích thước của mảng microphone. 
Trong khi đó, nhóm thuật toán sử dụng một microphone cho phép triển khai đơn 
giản và chi phí thấp trong tất cả các hệ thống nhận dạng tiếng nói. Các phương 
pháp sử dụng một microphone có thể kể đến là: phương pháp trừ phổ [2], phương 
pháp lọc Wiener [3]. Điểm chung là các phương pháp này thường yêu cầu tín hiệu 
nhiễu cần loại bỏ là tín hiệu ngẫu nhiên dừng [4]. Điều kiện này trong thực tế 
thường khó đảm bảo. 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 44, 08 - 2016 55
Một trong các hướng nghiên cứu nâng cao chất lượng tiếng nói sử dụng một 
microphone đang được các nhà nghiên cứu quan tâm là kỹ thuật tách nguồn sử 
dụng phương pháp thừa số hóa ma trận không âm (NMF: Nonnegative Matrix 
Factorization). Phương pháp NMF sau khi được Lee và Seung đề xuất trong [5] đã 
được áp dụng rộng rãi cho nhiều lớp bài toán ứng dụng: phân tích văn bản, xử lý 
ảnh, xử lý âm thanh. Trong nâng cao chất lượng tiếng nói ưu điểm của NMF so với 
các phương pháp trừ phổ hoặc phương pháp lọc Wiener là có thể áp dụng cho 
trường hợp nhiễu không dừng [4], [6]. 
Phương pháp NMF có thể được sử dụng như là bước tiền xử lý tín hiệu tiếng 
nói có nhiễu tại đầu vào của hệ thống ASR trước khi đưa vào giải mã. Tuy nhiên, 
tín hiệu tiếng nói ước lượng vẫn có sự sai khác so với tín hiệu tiếng nói sạch. Để 
nâng cao chất lượng nhận dạng một kỹ thuật giải mã có thể được áp dụng trong 
ASR đó là kỹ thuật giải mã dựa trên thông tin về độ không đảm bảo (UD: 
Uncertainty decoding) hay phương sai của tín hiệu tiếng nói [7-8]. Trong hệ thống 
ASR sử dụng HMM phương sai hay độ không đảm bảo được sử dụng để thích nghi 
mô hình âm học tại mỗi khung thời gian trong quá trình giải mã của ASR. 
Đóng góp chính của bài báo này là giới thiệu một hệ thống ASR trong đó NMF 
được áp dụng để loại bỏ nhiễu trong tiếng nói cần nhận dạng. Độ không đảm bảo 
của tiếng nói được ước lượng và được lan truyền đến miền đặc trưng MFCC (Mel 
Frequency Cepstral Coeficient). Sau đó, một bộ giải mã có sử dụng thông tin về độ 
không đảm bảo dựa trên mô hình Markov ẩn HMM (Hidden Markov Model) được 
sử dụng. Hệ thống ASR được đánh giá trên một cơ sở dữ liệu tiếng nói mô phỏng 
với các tỷ số tín hiệu trên nhiễu khác nhau. 
Bài báo này được tổ chức như sau: Mục 2 sẽ trình bày cơ sở thuật toán NMF. 
Ước lượng độ không đảm bảo và thủ tục lan truyền độ không đảm bảo từ miền phổ 
sang miền đặc trưng MFCC sẽ được mô tả trong mục 3. Kết quả thí nghiệm về 
nhận dạng của hệ thống ASR được trình bày ở mục 4 và kết luận ở mục 5. 
2. NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI SỬ DỤNG NMF 
2.1. Thuật toán thừa số hóa ma trận không âm NMF 
Cho một ma trận không âm V, cần tìm các ma trận không âm W và H sao cho: 
 V W H (1) 
Để tìm được một xấp xỉ tốt cho (1), trước tiên cần định nghĩa hàm mục tiêu 
 D V WH thể hiện sự sai khác giữa V và WH. Ma trận W và H được lựa chọn 
sao cho hàm mục tiêu là cực tiểu 
0, 0
min D
 W H
V WH (2) 
Các hàm mục tiêu thường được sử dụng là sai khác Ơ-clit[5], sai khác 
Kullback-Leibler[5] hay sai khác Itakuar-Saito[9]. 
Do hàm mục tiêu (2) thường không phải là hàm lồi cho cả hai biến W và H, do 
đó việc tìm cực tiểu toàn cục là không khả thi. Thay vào đó có nhiều kỹ thuật tối 
ưu hóa bằng phương pháp số để tìm W và H tại cực tiểu địa phương [10]. 
2.2. Nâng cao chất lượng tiếng nói sử dụng NMF 
Cho tín hiệu tiếng nói có nhiễu v , hay còn gọi là tín hiệu trộn, gồm tín hiệu tiếng 
Kỹ thuật điều khiển & Điện tử 
N. H. Bình, P. T. N. Yến, N. Q. Cường, “Nhận dạng tiếng nói các đặc trưng âm học.” 56 
nói sạch x và nhiễu y. Ký hiệu F N V , F N X và F N Y là ma trận các hệ 
số biến đổi Fourier thời gian ngắn (STFT) của tín hiệu trộn, tín hiệu tiếng nói và 
nhiễu, với F là số điểm tần số và N là số khung cửa sổ thời gian. 
Giả thiết phổ biên độ của tín hiệu trộn: 
 V X + Y (3) 
Mục tiêu bài toán nâng cao chất lượng tiếng nói là khôi phục X từ V . 
Sử dụng NMF, F N V có thể được phân tách thành hai ma trận không âm 
F K 
 W và 
K N 
 H . Trong đó, W được xem là các đặc trưng phổ của V với 
K là số vec-tơ phổ cơ sở. Ma trận H thể hiện thời điểm kích hoạt các đặc trưng phổ 
cơ sở trong tín hiệu. Kỹ thuật NMF cho nâng cao chất lượng tiếng nói thường dựa 
trên NMF có giám sát [6], [11], bao gồm hai pha: pha huấn luyện và pha đánh giá. 
Trong pha huấn luyện, từ phổ biên độ tín hiệu tiếng nói XV và nhiễu YV cho 
trước, tiến hành ước lượng ma trận XW và YW dựa trên việc tối ưu hóa theo tiêu 
chuẩn (2). Ma trận W của V nhận được bởi: 
  X YW = W W (4) 
Trong pha đánh giá (quá trình nâng cao chất lượng tiếng nói), dựa trên W nhận 
được từ pha huấn luyện, phổ biên độ V được phân tích theo NMF thành: 
  X YV = W W H (5) 
Với ma trận H sau đó cũng được phân tách thành hai khối: 
 X
Y
H
H =
H
 (6) 
Trong đó, XH là ma trận kích hoạt ứng với tiếng nói X còn YH ứng với nhiễu Y . 
Ước lượng của phổ tín hiệu tiếng nói không nhiễu Xˆ được tính theo dạng lọc 
Wiener [12] 
 ˆ X X
X X Y Y
W H
X V
W H + W H
 (7) 
với  ký hiệu cho phép nhân từng phần tử. 
Tín hiệu tiếng nói trong miền thời gian có thể được khôi phục lại sử dụng biến 
đổi FFT ngược và phương pháp OLA (Overlap-Add) [13]. 
3. ƯỚC LƯỢNG VÀ LAN TRUYỀN ĐỘ KHÔNG ĐẢM BẢO 
Trong phần này, chúng tôi sẽ mô tả ước lượng độ không đảm bảo của phổ tín 
hiệu thu được từ thuật toán nâng cao chất lượng tiếng nói và sự lan truyền từ miền 
phổ qua miền vec-tơ đặc trưng MFCC. 
3.1. Ước lượng độ không đảm bảo 
Ký hiệu ˆ kmX và kmV là phổ của tín hiệu tiếng nói ước lượng và tín hiệu trộn tại 
điểm tần số k và khung thời gian m, với 0 k F và 1 m N . 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 44, 08 - 2016 57
Độ không đảm bảo được xác định dựa trên sai lệch giữa tín hiệu được ước 
lượng và tín hiệu trộn [14]. 
2
ˆ
km km kmX V (8) 
3.2. Lan truyền độ không đảm bảo 
Giá trị ước lượng ˆ kmX và độ không đảm bảo hay phương sai km cần được lan 
truyền đến miền đặc trưng và sau đó sử dụng bởi bộ giải mã của ASR. Chúng tôi 
sử dụng thuật toán được đề xuất trong [15] để lan truyền độ không đảm bảo của 
phổ biên độ vào miền MFCC. 
Hình 1. Sơ đồ khối lan truyền độ không đảm bảo cho đặc trưng MFCC[15]. 
Hình 1 trình bày các bước thực hiện việc lan truyền độ không đảm bảo từ miền 
phổ qua miền MFCC. Đầu vào của quá trình lan truyền là mật độ phân bố xác suất 
hậu nghiệm của phổ biên độ tiếng nói sạch kmX khi biết kmV , được giả thiết là 
phân bố Rice với ước lượng là ˆ kmX và phương sai là km . Đầu ra của quá trình lan 
truyền là hàm mật độ phân bố xác suất hậu nghiệm của hệ số cepstra kmC khi biết 
kmV , là phân bố Gauss với trung bình là 
CEPS
im và phương sai là 
CEPS
iim . 
3.2.1. Lan truyền qua STSA (Short Time Spectral Amplitude) 
Trung bình của độ không đảm bảo STSA được tính như sau: 
2
1
2
ˆ| |
(1.5) L ( )STSA kmkm km
km
X
 

  (9) 
Với  là hàm gamma và 1
2
L là đa thức Laguerre. 
Nếu xem xét các hệ số Fourier của phổ tín hiệu là độc lập thống kê thì ma trận 
hiệp phương sai của các hệ số phổ trong một khung thời gian là ma trận đường 
chéo, do đó phương sai của độ không đảm bảo STSA được tính 
2 2ˆ| | ( )STSA STSAkkm km km kmX  (10) 
3.2.2. Lan truyền qua bộ lọc thang Mel 
Khi qua J bộ lọc Mel, trung bình Melm và hiệp phương sai 
Mel
m của các đặc 
trưng được tính: 
1
Mel STSA
jm jk m
F
k
k
M 
  (11) 
Kỹ thuật điều khiển & Điện tử 
N. H. Bình, P. T. N. Yến, N. Q. Cường, “Nhận dạng tiếng nói các đặc trưng âm học.” 58 
1
F
Mel STSA
jj m jk j k kkm
k
M M 
  (12) 
Với 1 , 'j j J và jkM là hệ số bộ lọc Mel thứ j tại điểm tần số k. 
3.2.3. Lan truyền qua tính toán loga 
2 1
1
log( )
J
LOG
jm i ji
i
W S
  (13) 
2 1
2
log( ) log( )( ) ( )
J
LOG LOG LOG
jj m i ji jm j i j m
i
W S S 
    (14) 
1
1
1
 for {2 1}
2( )
MEL
m
MEL MEL
i m m
i
MEL MEL
i J m m
i
i
W
J
S
S J
S J
W i J
J





  
  
μ
μ Σ
μ Σ

 (15) 
Với ký hiệu ( )i tương ứng với hàng thứ i của ma trận và 3 J . 
3.2.4. Lan truyền qua biến đổi Cosine rời rạc 
1
J
CEPS LOG
im ij jm
j
T 
  (16) 
1 1
J J
CEPS LOG
iim ij ij jj m
j j
T T 
  (17) 
với T là ma trận biến đổi cosine rời rạc DCT. 
3.3. Giải mã sử dụng độ không đảm bảo 
Trong hệ thống ASR sử dụng HMM, mỗi trạng thái q được mô hình bởi một 
hàm mật độ phân bố xác suất ; ,m mp q  c c , hàm này nhận được từ pha 
huấn luyện dựa trên các vec-tơ đặc trưng mc trích ra từ cơ sở dữ liệu huấn luyện 
cho trước. Trong pha nhận dạng, cho một quan sát mz , cần tính likelihood 
 mp qz . Khi tiếng nói cần nhận dạng sai khác với tiếng nói huấn luyện do nhiễu, 
likelihood mp qz có thể được tính như sau[7]: 
m
m m m
m m m
m
p p
p q p q d
p
 c
c z z
z c c
c
 (18) 
Nếu sự sai khác giữa mc và mz là không lớn thì có thể gần đúng: 
m
m m m m mp q p p q d cz c z c c (19) 
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 44, 08 - 2016 59
Nếu giả thiết , ˆˆ;m m m m mp  c cc z c cũng là phân bố Gauss thì likelihood 
trong (19) có thể được tính: 
 ˆˆ ; ,m m mp q     c cz (20) 
Với vec-tơ đặc trưng là MFCC, m mp c z được xác định từ quá trình lan truyền 
độ không đảm bảo của phổ tiếng nói như mô tả ở mục 3.2. 
4. THỬ NGHIỆM 
Để đánh giá phương pháp nhận dạng tiếng nói trong môi trường nhiễu, chúng 
tôi xây dựng một hệ thống ASR cho tiếng Việt. Các mô hình âm học là các mô 
hình âm ba (tri-phone) sử dụng HMM với 5 trạng thái, trong đó mỗi trạng thái 
được mô hình bởi mô hình trộn Gauss GMM (Gaussian Mixture Model) và được 
huấn luyện từ cơ sở dữ liệu gồm các đoạn văn, các từ rời rạc và các số rời rạc. Dữ 
liệu huấn luyện được thu âm trong môi trường không nhiễu, gồm tiếng nói giọng 
miền Bắc của 7 nam và 5 nữ. Tổng số có 16309 file thu âm các chữ số rời rạc, các 
từ rời rạc, các câu và các đoạn văn ngắn, với thời lượng khoảng 10 giờ tiếng nói. 
Do thuật toán nâng cao chất lượng tiếng nói và giải mã sử dụng thông tin về độ 
không đảm bảo tác động trực tiếp vào tín hiệu và mô hình âm học, vì vậy, chúng 
tôi xây dựng hệ thống nhận dạng chỉ các chữ số tiếng Việt. Điều này để tránh ảnh 
hưởng của mô hình ngôn ngữ. 
Trong thí nghiệm thứ nhất, cơ sở dữ liệu đánh giá gồm 828 file, khoảng 1 giờ 
tiếng nói, chứa các số điện thoại được thu âm trong môi trường không nhiễu với 
giọng của 7 nam và 5 nữ, cũng là các giọng được sử dụng làm cơ sở dữ liệu huấn 
luyện. Mục đích của thí nghiệm này là để tạo kết quả tham chiếu cho các thí 
nghiệm đánh giá thuật toán nâng cao chất lượng tiếng nói và thuật toán giải mã sử 
dụng thông tin về độ không đảm bảo. 
Trong thí nghiệm thứ hai, cơ sở dữ liệu tiếng nói đánh giá được trộn với âm 
thanh lấy từ các bản nhạc không lời. Tỷ số tín hiệu trên nhiễu SNR được trộn với 3 
mức khác nhau là +5dB, 0dB và -5dB. 
Chúng tôi sử dụng công cụ của Virtanen1 cho thuật toán NMF được mô tả trong 
[16] cho hệ thống nâng cao chất lượng tiếng nói. Cơ sở dữ liệu dùng để huấn luyện 
cho mô hình NMF nhằm xác định ma trận W ở biểu thức (4) gồm: tiếng nói các 
đoạn văn được lấy ra từ tập huấn luyện mô hình HMM và một đoạn nhạc không lời 
khác với đoạn nhạc dùng làm nhiễu trong cơ sở dữ liệu đánh giá trong thí nghiệm 
thứ hai. Các tham số được chọn cho mô hình NMF là: số điểm tần số F = 960; số 
vec-tơ cơ sở K = 384 trong đó số vec-tơ cơ sở cho tiếng nói là 256 và cho nhiễu là 
128; cửa sổ thời gian là Hamming 60ms với thời gian trượt giữa hai cửa sổ liên tiếp 
là 15ms; hàm mục tiêu sử dụng sai khác Kullback-Leibler. 
Cho hệ thống ASR cơ sở, chúng tôi sử dụng công cụ Hidden Markov Toolkit 
3.4.1, với vec-tơ đặc trưng 39 chiều bao gồm 13 hệ số MFCC , 13 hệ số delta và 13 
hệ số delta-delta MFCC. Mô hình âm học là mô hình âm ba được huấn luyện sử 
dụng cơ sở dữ liệu tiếng nói sạch. 
1  
Kỹ thuật điều khiển & Điện tử 
N. H. Bình, P. T. N. Yến, N. Q. Cường, “Nhận dạng tiếng nói các đặc trưng âm học.” 60 
Bảng 1 trình bày kết quả của hệ thống ASR, trong đó: “Hệ thống cơ sở” là hệ 
thống nhận dạng tiếng Việt cơ sở, với mỗi trạng thái của HMM sử dụng 6 GMM; 
NMF+ASR là Hệ thống cơ sở với tín hiệu tiếng nói được loại bỏ nhiễu sử dụng 
thuật toán NMF; NMF+UP+UD_ASR là Hệ thống cơ sở với tín hiệu tiếng nói 
được loại bỏ nhiễu sử dụng NMF sau đó độ không đảm bảo của tín hiệu được lan 
truyền đến miền đặc trưng MFCC sử dụng thuật toán đề xuất trong[15] và bộ giải 
mã sử dụng HVite của HTK có sửa đổi do Astudillo2 viết cài đặt phương pháp giải 
mã với thông tin về độ không đảm bảo của vec-tơ đặc trưng. Với tín hiệu tiếng nói 
sạch, độ chính xác có thể đạt 97,96%. Tuy nhiên, khi tỷ số SNR thấp, độ chính xác 
giảm xuống rất nhanh. Nếu sử dụng thuật toán NMF nâng cao chất lượng tiếng nói, 
độ chính xác có thể nâng cao từ 2% đến 16% tùy vào mức SNR. Nếu kết hợp thêm 
thông tin về độ không đảm bảo thì độ chính xác có thể tăng thêm gần 1% so với 
chỉ áp dụng NMF nâng cao chất lượng tiếng nói. Trong các Bảng 2 và Bảng 3, khi 
cấu hình các trạng thái của HMM với số GMM lần lượt là 8 và 10, chúng ta cũng 
có kết quả tương tự. Kết quả của hệ thống ASR có kết hợp sử dụng thông tin về độ 
không đảm bảo của vec-tơ đặc trưng luôn cao hơn so với trường hợp hệ thống ASR 
chỉ sử dụng nâng cao chất lượng tiếng nói. 
Bảng 1. Độ chính xác nhận dạng của hệ thống ASR 
sử dụng 6 GMM cho một trạng thái HMM (%). 
Bảng 2. Độ chính xác nhận dạng của hệ thống ASR 
 sử dụng 8 GMM cho một trạng thái HMM (%). 
Bảng 3. Độ chính xác nhận dạng của hệ thống ASR 
sử dụng 10 GMM cho một trạng thái HMM (%). 
5. KẾT LUẬN 
Trong bài báo này chúng tôi đã đề xuất ước lượng độ không đảm bảo của tín 
hiệu nâng cao chất lượng tiếng nói sử dụng NMF, sau đó, áp dụng kỹ thuật giải mã 
dựa trên thông tin độ không đảm bảo và vec-tơ đặc trưng MFCC cho hệ thống 
2  
Nghiên cứu khoa học công nghệ 
Tạp chí Nghiên cứu KH&CN quân sự, Số 44, 08 - 2016 61
ASR. Kết quả cho thấy với việc áp dụng nâng cao chất lượng tiếng nói sử dụng 
NMF trước khi đưa vào hệ thống nhận dạng đã nâng cao độ chính xác của hệ thống 
lên đáng kể khi tỷ số SNR thấp. Bên cạnh đó việc áp dụng thuật toán giải mã sử 
dụng thông tin về độ không đảm bảo của vec-tơ đặc trưng luôn làm tăng độ chính 
xác nhận dạng của hệ thống. Tuy nhiên, việc tăng độ chính xác chưa thực sự tốt. 
Điều này có thể do phương pháp ước lượng độ không đảm bảo của vec-tơ đặc 
trưng chưa tốt. Trong thời gian tới chúng tôi sẽ nghiên cứu phương pháp ước lượng 
độ không đảm bảo tốt hơn để từ đó có thể áp dụng nâng cao chất lượng của hệ 
thống nhận dạng tiếng nói bền vững. Đồng thời chúng tôi sẽ xây dựng cơ sở dữ 
liệu tiếng nói lớn hơn để tăng độ tin cậy của các kết quả đánh giá. 
TÀI LIỆU THAM KHẢO 
[1]. J. Benesty, J. Chen, and E. A. P. Habets, "Speech Enhancement in the STFT 
Domain." Berlin, Heidelberg: Springer Berlin Heidelberg, 2012. 
[2]. S. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” 
Acoust. Speech Signal Process. IEEE Trans. On, vol. 27, no. 2, pp. 113–120. 
[3]. Jae Lim and A. Oppenheim, “All-pole modeling of degraded speech,” IEEE 
Trans. Acoust. Speech Signal Process., vol. 26, no. 3, Jun. 1978, pp. 197–210. 
[4]. K. W. Wilson, B. Raj, P. Smaragdis, and A. Divakaran, “Speech denoising 
using nonnegative matrix factorization with priors,” in IEEE ICASSP, 2008, 
pp. 4029–4032. 
[5]. D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative 
matrix factorization,” Nature, vol. 401, no. 6755, Oct. 1999, pp. 788–791. 
[6]. P. Smaragdis, B. Raj, and M. Shashanka, “Supervised and Semi-supervised 
Separation of Sounds from Single-Channel Mixtures,” in Independent 
Component Analysis and Signal Separation, vol. 4666, M. E. Davies, C. J. 
James, S. A. Abdallah, and M. D. Plumbley, Eds. Berlin, Heidelberg: Springer 
Berlin Heidelberg, 2007, pp. 414–421. 
[7]. Li Deng, J. Droppo, and A. Acero, “Dynamic compensation of HMM 
variances using the feature enhancement uncertainty computed from a 
parametric model of speech distortion,” IEEE Trans. Speech Audio Process., 
vol. 13, no. 3, May 2005, pp. 412–421. 
[8]. R. F. Astudillo and D. Kolossa, “Uncertainty Propagation,” in Robust Speech 
Recognition of Uncertain or Missing Data, D. Kolossa and R. Häb-Umbach, 
Eds. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011, pp. 35–64. 
[9]. A. Lefèvre, F. Bach, and C. Févotte, “Itakura-Saito nonnegative matrix 
factorization with group sparsity,” in IEEE ICASSP, 2011, pp. 21–24. 
[10]. D. D. Lee and H. S. Seung, “Algorithms for Non-negative Matrix 
Factorization,” in Advances in Neural Information Processing Systems 13, T. 
K. Leen, T. G. Dietterich, and V. Tresp, Eds. MIT Press, 2001, pp. 556–562. 
[11]. D. L. Sun and G. J. Mysore, “Universal speech models for speaker 
independent single channel source separation,” in IEEE ICASSP, 2013, pp. 
141–145. 
Kỹ thuật điều khiển & Điện tử 
N. H. Bình, P. T. N. Yến, N. Q. Cường, “Nhận dạng tiếng nói các đặc trưng âm học.” 62 
[12]. B. Raj, T. Virtanen, S. Chaudhuri, and R. Singh, “Non-negative matrix 
factorization based compensation of music for automatic speech recognition,” 
in Proc. of Interspeech. Makuhari, 2010. 
[13]. J. B. Allen and L. R. Rabiner, “A unified approach to short-time Fourier 
analysis and synthesis,” Proc. IEEE, vol. 65, no. 11, pp. 1558–1564, 1977. 
[14]. D. Kolossa, R. Fernandez Astudillo, E. Hoffmann, and R. Orglmeister, 
“Independent Component Analysis and Time-Frequency Masking for Speech 
Recognition in Multitalker Conditions,” EURASIP J. Audio Speech Music 
Process., vol. 2010, pp. 1–13, 2010. 
[15]. Fernández Astudillo, Ramón, “Integration of Short-Time Fourier Domain 
Speech Enhancement and Observation Uncertainty Techniques for Robust 
Automatic Speech Recognition,” 2010. 
[16].T. Virtanen, B. Raj, J. F. Gemmeke, and H. V. hamme, “Active-set newton 
algorithm for non-negative sparse coding of audio,” in IEEE ICASSP, 2014, 
pp. 3092–3096. 
ABSTRACT 
ROBUST ASR BASED ON THE NONNEGATIVE MATRIX FACTORIZATION 
AND THE UNCERTAINTY-OF-OBSERVATION TECHNIQUE 
In this paper, an improvement for the robustness of automatic speech 
recognition (ASR) based on the nonnegative matrix factorization (NMF) 
and uncertainty-of-observation technique is presented. While NMF 
technique could greatly improve the robustness of ASR however the 
processed signal always contains some residual noise or uncertainty. The 
uncertainty could be estimated and it could be used usefully for decoding 
in ASR. We evaluated this combination in the Vietnamese ASR system. The 
experiment results show that our combination method can be further 
improved the performance of ASR compared to NMF technique only in a 
very high nonstationary noise. 
Keywords: Automatic speech recognition, Nonnegative matrix factorization, Uncertainty estimation. 
Nhận bài ngày 15 tháng 07 năm 2016 
Hoàn thiện ngày 15 tháng 08 năm 2016 
Chấp nhận đăng ngày 17 tháng 08 năm 2016 
Địa chỉ: 1 Viện Điện – trường Đại học Bách khoa Hà Nội; 
 2 Viện nghiên cứu quốc tế MICA – trường Đại học Bách khoa Hà Nội. 
 * Email: cuong.nguyenquoc@hust.edu.vn 

File đính kèm:

  • pdfnhan_dang_tieng_noi_ben_vung_su_dung_ky_thuat_thua_so_hoa_ma.pdf