Tổng hợp tiếng nói trên thiết bị giám sát hành trình

TÓM TẮT

Bài báo này trình bày quá trình thiết kế và thi công thiết bị giám sát hành trình có tích

hợp giải thuật tổng hợp tiếng nói bằng phương pháp ghép nối để giúp cho người sử dụng có thể

giám sát, quản lý phương tiện của mình một cách trực quan. Đồng thời, người sử dụng có thể

truyền thông tin xuống lái xe để phát thông báo. Tổng hợp tiếng nói bằng phương pháp ghép

nối-lựa chọn đơn vị các từ, cụm từ hoặc câu làm cho tiếng nói sau khi tổng hợp đạt được chất

lượng về mức độ tự nhiên và mức độ dễ nghe. Văn bản đầu vào cần được chuẩn hóa thành dạng

chữ hoa trước khi tiến hành tổng hợp ghép nối các đơn vị âm thanh bằng các ngữ cảnh thích

hợp. Ngoài ra, thiết bị giám sát hành trình này cũng có đầy đủ các tính năng theo quy chuẩn

QCVN 31:2014/BGTVT của Bộ Giao thông vận tải

pdf 5 trang phuongnguyen 4900
Bạn đang xem tài liệu "Tổng hợp tiếng nói trên thiết bị giám sát hành trình", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Tổng hợp tiếng nói trên thiết bị giám sát hành trình

Tổng hợp tiếng nói trên thiết bị giám sát hành trình
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 35B (3/2016)
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 25
TỔNG HỢP TIẾNG NÓI TRÊN THIẾT BỊ GIÁM SÁT HÀNH TRÌNH
SPEECH SYNTHESIS ON THE TRACKING SURVEILLANCE DEVICE
Trần Thu Hà1, Phạm Minh Dương2
1 Trường Đại học Sư phạm Kỹ thuật TP. Hồ Chí Minh
2 Trung tâm Nghiên cứu và Đào tạo Thiết kế Vi mạch (ICDREC)
Ngày tòa soạn nhận bài 06/11/2015, ngày phản biện đánh giá 30/11/2015, ngày chấp nhận đăng 17/12/2015.
TÓM TẮT
Bài báo này trình bày quá trình thiết kế và thi công thiết bị giám sát hành trình có tích 
hợp giải thuật tổng hợp tiếng nói bằng phương pháp ghép nối để giúp cho người sử dụng có thể 
giám sát, quản lý phương tiện của mình một cách trực quan. Đồng thời, người sử dụng có thể 
truyền thông tin xuống lái xe để phát thông báo. Tổng hợp tiếng nói bằng phương pháp ghép 
nối-lựa chọn đơn vị các từ, cụm từ hoặc câu làm cho tiếng nói sau khi tổng hợp đạt được chất 
lượng về mức độ tự nhiên và mức độ dễ nghe. Văn bản đầu vào cần được chuẩn hóa thành dạng 
chữ hoa trước khi tiến hành tổng hợp ghép nối các đơn vị âm thanh bằng các ngữ cảnh thích 
hợp. Ngoài ra, thiết bị giám sát hành trình này cũng có đầy đủ các tính năng theo quy chuẩn 
QCVN 31:2014/BGTVT của Bộ Giao thông vận tải.
Từ khóa: Thiết bị giám sát hành trình; giải thuật tổng hợp tiếng nói; lựa chọn đơn vị; 
phương pháp ghép nối; Bộ Giao thông vận tải.
ABSTRACT
This paper presents the design and fabrication of the tracking surveillance device with 
speech synthesis algorithm by pairing method in which the users can monitor and manage 
their vehicles intuitively. At the same time, users can transmit the information to the driver to 
broadcast notifications. The speech by the unit selection-pairing synthetic method with words, 
phrases or sentences made speech after synthesis achieved high quality of natural level and 
easy listening level. The input text must be standardized into uppercase before processing the 
pairing synthesis with audio units by approriate context. Besides, the tracking surveillance de-
vice also has fully complicant features of QCVN 31:2014 BGTVT, the standard of the Ministry 
of Transport.
Keywords: The tracking surveillance device; speech synthesis algorithm; unit selection; 
pairing method.
1. GIỚI THIỆU
Hiện nay thiết bị giám sát hành trình 
(TBGSHT) ở nước ta đang phát triển rất 
nhanh, nhất là từ khi Nghị định 08 của Bộ 
Giao thông vận tải số: 08/2011/TT-BGTVT 
ban hành. Ngoài các tính năng mà Nghị định 
đưa ra, TBGSHT còn có thêm một số tính 
năng mở rộng để đáp ứng nhu cầu sử dụng 
của khách hàng. Đặc biệt là các tính năng này 
có thể được tích hợp cùng với TBGSHT nhằm 
tăng tính tiện ích và giảm chi phí cho người sử 
dụng. Chẳng hạn các tính năng đó là: máy tính 
cước taxi, thông báo thông tin từ trung tâm 
điều hành, rao trạm xe buýt, thanh toán tiền tự 
động bằng RFID, v.v.
Đề tài sẽ thực hiện tổng hợp tiếng nói 
tiếng Việt [2, 4, 10] và lập trình nhúng vào 
TBGSHT để phát thông báo bằng cách truyền 
thông tin văn bản từ máy chủ xuống TBG-
SHT qua giao thức TCP/IP hoặc bằng tin nhắn 
SMS, đề tài này có thể ứng dụng thay thế cho 
bộ đàm trong taxi, rao trạm xe buýt, v.v. tùy 
vào ứng dụng cụ thể mà phát triển thêm.
2. MÔ TẢ THIẾT BỊ
Hình 1 mô tả toàn bộ sơ đồ khối của TB-
GSHT có tích hợp thuật toán tổng hợp tiếng 
nói bằng phương pháp ghép nối – lựa chọn 
đơn vị.
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 35B (3/2016)
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh26
Hình 1. Sơ đồ khối của TBGSHT có tích hợp 
TTS
Chức năng mỗi khối được mô tả như sau:
-	 Khối MPU: vi xử lý AT91SAM9260, 
tốc độ 180 MHz.
-	 Khối SDRAM, NAND FLASH: 64 MB 
SDRAM và 256 MB NAND Flash.
-	 Khối Power Supply: hỗ trợ nguồn cấp 
DC từ 8V – 36V, cung cấp nguồn cho 
các khối chức năng hoạt động. 
- Khối GSM: giao tiếp với MPU để truyền 
nhận dữ liệu lên trung tâm điều khiển 
qua giao thức TCP/IP, giao thức HTTP 
hoặc giao thức FTP.
-	 Khối GPS: phân tích các thành phần 
dữ liệu được nhận từ module GPS, ta 
có được các thông số như: kinh độ, vĩ 
độ, vận tốc di chuyển, hướng di chuyển, 
thời gian thực, v.v.
-	 Khối LED trạng thái và Buzzer: hiển thị 
và thông báo các trạng thái của TBG-
SHT.
-	 Khối SD Card: lưu trữ cơ sở dữ liệu âm 
thanh và các thông tin hoạt động của 
TBGSHT.
-	 Khối Accessory Port: khối này dùng để 
giao tiếp với các tín hiệu của xe như: 
khóa xe, cửa xe, máy điều hòa, vận tốc 
cơ của xe, nhiên liệu, nút nhấn SOS, v.v.
-	 Khối IC Temperature Sensor: dùng IC 
số để cảm biến nhiệt độ xe, hoặc các 
ứng dụng có nhiệt độ từ 0 đến 100 độ C.
-	 Khối RS232 Interface: giao tiếp với 
phần mềm phân tích dữ liệu TBGSHT 
của Tổng cục Đường bộ Việt Nam theo 
QCVN 31:2014/BGTVT của Bộ Giao 
thông vận tải.
-	 Khối RS485 Interface: dùng để mở 
rộng giao tiếp với các ngoại vi khác như 
Camera, RFID, và một số ngoại vi theo 
yêu cầu của khách hàng.
-	 Khối TTS database: lưu trữ thư viện âm 
thanh để ứng dụng đọc văn bản.
-	 Khối Audio: giải mã và phát âm thanh 
cho ứng dụng TTS.
3. PHƯƠNG PHÁP TỔNG HỢP 
TIẾNG NÓI
Kiến trúc tổng quát của hệ thống tổng 
hợp tiếng nói tiếng Việt bằng phương pháp 
ghép nối – lựa chọn đơn vị được mô tả như 
hình 2, gồm 4 thành phần chính, mỗi thành 
phần đóng vai trò xử lý riêng:
Hình 2. Kiến trúc tổng quát của hệ thống 
tổng hợp tiếng nói
-	 Bộ tổ chức dữ liệu: thực hiện quản lý 
dữ liệu âm thanh, và phân đoạn chúng 
thành các đơn vị cơ sở.
-	 Bộ tổng hợp: thực hiện chuyển văn bản 
sang tiếng nói thông qua hai bước chính 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 35B (3/2016)
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 27
là chuẩn hóa văn bản và tổng hợp ghép 
nối. Trong bước chuẩn hóa văn bản, các 
dạng chữ thường, chữ hoa, số, từ viết 
tắt, tên địa danh tiếng nước ngoài, các 
ký hiệu đặc biệt v.v. sẽ được chuyển 
thành dạng chuẩn chữ hoa mà phần tổng 
hợp ghép nối có thể sử dụng để tạo âm 
thanh tương ứng.
-	 Bộ từ viết tắt: chuyển đổi các từ viết tắt 
thông dụng thành dạng chữ hoàn chỉnh 
của tiếng Việt.
-	 Bộ phiên âm từ nước ngoài: chuyển từ 
nước ngoài sang cách đọc tiếng Việt 
chính xác nhất có thể.
Tổng hợp tiếng nói bằng phương pháp 
ghép nối – lựa chọn đơn vị được mô tả như 
hình 3, sau khi văn bản đầu vào được chuẩn 
hóa, ta tiến hành tách văn bản thành các đơn 
vị (Unit) như: câu, cụm từ hoặc từ, rồi mã 
hóa các đơn vị này thành từng mã SHA-1 [1] 
tương ứng, thực hiện so sánh ngữ cảnh trái và 
phải của từng mã SHA-1 và chọn mã SHA-1 
thích hợp nhất trong cơ sở dữ liệu, ghép nối 
các đoạn âm thanh của từng đơn vị lại với 
nhau, sau đó phát âm thanh được tổng hợp ra 
hệ thống.
Hình 3. Quy trình thực hiện phương pháp 
ghép nối – lựa chọn đơn vị
4. HOẠT ĐỘNG HỆ THỐNG
Trong hình 4, TBGSHT có hai chức 
năng chính cần xử lý: chức năng thứ nhất là 
TBGSHT phải thực hiện đầy đủ các tính năng 
theo Nghị định của Bộ Giao thông vận tải, 
chức năng thứ hai là tổng hợp tiếng nói bằng 
phương pháp ghép nối – lựa chọn đơn vị.
Trong chức năng thứ nhất, TBGSHT thu 
thập dữ liệu thời gian, vận tốc, tọa độ, v.v. từ 
vệ tinh, thu thập các tín hiệu từ xe, xử lý thông 
tin cần thiết để truyền đến trung tâm giám sát 
qua GPRS.
Trong chức năng thứ hai, TBGSHT 
nhận văn bản từ SMS hoặc từ máy chủ qua 
giao thức TCP/IP để tổng hợp tiếng nói. Văn 
bản cần tổng hợp được lưu vào bộ nhớ của 
thiết bị, sau đó văn bản sẽ được chuẩn hóa và 
đưa vào cơ sở dữ liệu để so sánh, tổng hợp và 
phát ra âm thanh.
Hình 4. Sơ đồ hoạt động tổng quan của 
TBGHST
Các thông tin của TBGSHT được gửi 
lên máy chủ và được xử lý hiển thị trên bản 
đồ số giúp cho người quản lý có thể quan sát 
phương tiện trực quan. Hình 5 biểu diễn hành 
trình của xe trên bản đồ số.
Hình 5. Bản đồ số giám sát TBGSHT
Nội dung văn bản cần tổng hợp tiếng nói 
có thể được truyền bằng tin nhắn SMS hoặc 
bằng máy chủ qua giao thức TCP/IP được mô 
tả như hình 6.
Hình 6. Văn bản tổng hợp được truyền bằng 
SMS hoặc TCP/IP
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 35B (3/2016)
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh28
Bảng 1 mô tả một vài ví dụ đánh giá mức độ tổng hợp tiếng nói về mức độ tự nhiên và 
mức độ dễ nghe.
Bảng 1. Đánh giá một số ví dụ về mức độ tổng hợp tiếng nói
Nội dung
Số ký 
tự
Đánh giá mức độ 
tự nhiên và mức độ 
dễ nghe (%)
Máy chủ (Server)
Cú pháp: $MTTSNội_dung
Cấu trúc có tối đa 1024 byte, mỗi ký tự có dấu thay đổi từ 1 đến 3 byte. Vậy trung bình nội 
dung có tối đa khoảng 512 ký tự.
Xin chào bạn. 13 97
Chào mừng các bạn tân sinh viên năm 2015. 41 96
Chào mừng các bạn sinh viên trường ĐH Sư Phạm Kỹ Thuật 
TPHCM.
61 98
Chương trình tổng hợp tiếng nói trên TBGSHT. 44 98
Theo nhiều chuyên gia, Khoa học Máy tính là một chuyên 
ngành khó vì nó thiên về lý thuyết, học thuật.
101 95
Facebook công bố kế hoạch phóng vệ tinh cung cấp đường 
truyền Internet cho các khu vực hẻo lánh của châu Phi.
109 97
Tin nhắn SMS
Cú pháp: C4321VMTTSNội_dung
Cấu trúc có tối đa 134 byte, mỗi ký tự có dấu là 2 byte, nội dung có tối đa 67 ký tự.
Xin chào bạn. 13 97
Chào mừng các bạn tân sinh viên năm 2015. 41 96
Chương trình tổng hợp tiếng nói trên TBGSHT. 44 98
5. KẾT LUẬN 
Đề tài đã hoàn thành các vấn đề đặt ra 
và được đánh giá như sau:
Tổng hợp tiếng nói tiếng Việt và lập 
trình nhúng vào TBGSHT:
- Chuẩn hóa văn bản đầu vào, tổng hợp 
tiếng nói bằng phương pháp ghép nối – 
lựa chọn đơn vị.
- Viết chương trình tổng hợp tiếng nói 
trên máy tính có hệ điều hành Linux và 
trên thiết bị giám sát hành trình.
- Viết chương trình cho TBGSHT đáp 
ứng đầy đủ các tính năng theo Nghị định 
của Bộ Giao thông vận tải.
- Tích hợp hệ thống tổng hợp tiếng nói 
tiếng Việt vào TBGSHT.
- Truyền nội dung văn bản cần tổng hợp 
bằng tin nhắn SMS hoặc bằng máy chủ 
qua giao thức TCP/IP.
- So sánh kết quả tổng hợp tiếng nói tiếng 
Việt trên thiết bị TBGSHT với trên máy 
tính, thì trên TBGSHT tốc độ chậm hơn 
trong việc chuyển văn bản thành tệp tin 
âm thanh, nhưng âm thanh được đọc 
phát ra là tương đương nhau. Phần cơ sở 
dữ liệu có thể được đánh giá là lớn hơn 
so với các phương pháp tổng hợp For-
mant hay phương pháp ghép nối dùng 
các diphone.
- Phương pháp này cho chất lượng tiếng 
nói tốt hơn, với lại kho dữ liệu âm thanh 
được lưu trong SD card (4GB), và thuận 
lợi ứng dụng trên thiết bị giám sát hành 
trình xe ô tô. Tổng hợp tiếng nói được 
ứng dụng thực tế trên thiết bị giám sát 
hành trình, xử lý được các từ viết tắt, số, 
tên riêng và một số địa danh tiếng nước 
ngoài mà các thuật toán tổng hợp trước 
đây còn hạn chế [5, 9].
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 35B (3/2016)
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 29
Thiết bị có chức năng giám sát hoạt 
động của xe: 
Thông báo trạng thái hoạt động của thiết 
bị bằng đèn, còi và có cơ chế tự kiểm tra các 
trạng thái xe; Nhận dạng, thay đổi lái xe sử 
dụng công nghệ thẻ RFID, chuẩn ISO/IEC 
15693; Cảnh báo lái xe khi xe đang chạy: quá 
tốc độ, đăng nhập, đăng xuất; Giám sát thời 
gian lái xe liên tục, lái xe trong ngày và cảnh 
báo khi lái xe vượt quá thời gian qui định; 
Đếm số lần, thời gian đóng mở cửa; Đếm số 
lần, thời gian dừng đỗ; Giao tiếp với phần 
mềm phân tích dữ liệu của BGTVT qua cổng 
COM; Hiển thị trạng thái tín hiệu GPS, GSM, 
kết nối server, thẻ SD-card, lái xe và nguồn 
cấp; Hỗ trợ đo số km đi được (sai số đơn vị: 
0.001km).
Thiết bị có chức năng hỗ trợ cho 
người quản lý và người sử dụng: SOS khi 
cần sự trợ giúp nhanh; Chế độ chống trộm khi 
xe đỗ/nghỉ; Kiểm tra tài khoản trong SIM và 
tự động cảnh báo khi tài khoản sắp hết; Kiểm 
tra trạng thái máy điều hòa của xe; Thay đổi 
các thông số hoạt động của TBGSHT bằng 
SMS theo cú pháp định sẵn.
LỜI CẢM ƠN
Xin chân thành gửi lời cảm ơn đến Ban 
lãnh đạo Trung tâm Nghiên cứu và Đào tạo 
Thiết kế Vi mạch (ICDREC) đã tạo điều kiện 
cho nhóm tác giả hoàn thành tốt luận văn thạc 
sĩ này.
Xin chân thành gửi lời cảm ơn đến toàn 
thể quý thầy cô Trường Đại học Sư phạm Kỹ 
thuật TP. Hồ Chí Minh đã giảng dạy, hướng 
dẫn, truyền đạt kiến thức, kinh nghiệm quý 
báu và tạo mọi điều kiện học tập tốt cho tác 
giả.
TÀI LIỆU THAM KHẢO
[1] D. Eastlake, P. Jones, US Secure Hash Algorithm 1 (SHA1), RFC, 2001.
[2] DO Van Thao, TRAN Do Dat, NGUYEN Thi Thu Trang, Non-uniform unit selection in 
Vietnamese Speech Synthesis, Proceedings of the 2nd SoICT 2011, tr. 165-171, 2011.
[3] Nguyễn Thị Thanh Mai, Nghiên cứu các phương pháp nâng cao chất luợng tổng hợp 
tiếng Việt và thử nghiệm cho phần mềm VnVoice, LVThS Truờng Ðại học Công nghệ, Ðại 
học Quốc gia Hà Nội, 2007.
[4] Phan Thanh Sơn, Phùng Trung Nghĩa, Một số vấn đề về tổng hợp hợp tiếng nói tiếng Việt, 
Hội thảo Quốc gia về Điện tử, Truyền thông và Công nghệ Thông tin, REV-ECIT2014, 
2014.
[5] Phan Thanh Tài, Tổng hợp tiếng nói tiếng Việt sử dụng mô hình tổng hợp tiếng nói For-
mant, LVThS Trường Đại học Sư phạm Kỹ thuật TP.HCM, 2009.
[6] Qian, Yao và các cộng sự, A fast table lookup based, statistical model driven non-uniform 
unit selection TTS, Proc. in ICASSP2013, Vancouver, Canada, 2013.
[7] Sakti, Sakriani và các cộng sự, The Asian Network-based Speech-to-Speech Translation 
System, Proc. in Automatic Speech Recognition & Understanding (ASRU), Merano, Ita-
ly, tr. 507-512, 2009.
[8] Trung-Nghia Phung; Chi-Mai Luong và Masato Akagi, A Hybrid TTS between Unit Se-
lection and HMM-based TTS under limited data conditions, Proc. in 8th ISCA Speech 
Synthesis Workshop, Barcelona, Spain, 2013.
[9] Võ Văn Nguyên, Tổng hợp tiếng nói sử dụng giải thuật TD_PSOLA, LVThS Trường Đại 
học Sư phạm Kỹ thuật TP.HCM, 2013.
[10] Vũ Hải Quân và Cao Xuân Nam, Tổng hợp tiếng nói tiếng Việt theo phương pháp ghép 
nối cụm từ, Tạp chí CNTT và TT, Tập V-1(1), tr. 70-76, 2009.

File đính kèm:

  • pdftong_hop_tieng_noi_tren_thiet_bi_giam_sat_hanh_trinh.pdf