Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản
Abstract. In this paper, the automatic diacritization of a language is modeled as a statistical syntaxbased machine translation problem with the source undiacritized text and the target diacritized text
of the same languaget. The grammatical inference technique ABL proposed in [2] is extended for
learning a probabilistic synchronous context-free grammar from training corpus containing plain
diacritized sentences only. The diacritization is to parse input sentences by the probabilistic CKY
parsing algorithm for received grammar. This method is applied to Vietnamese with high quality
result. As language independent building way, it can be applied to the other languages.
Bạn đang xem tài liệu "Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
File đính kèm:
- cach_tiep_can_dich_may_thong_ke_dua_tren_cu_phap_giai_bai_to.pdf