Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản

Abstract. In this paper, the automatic diacritization of a language is modeled as a statistical syntaxbased machine translation problem with the source undiacritized text and the target diacritized text

of the same languaget. The grammatical inference technique ABL proposed in [2] is extended for

learning a probabilistic synchronous context-free grammar from training corpus containing plain

diacritized sentences only. The diacritization is to parse input sentences by the probabilistic CKY

parsing algorithm for received grammar. This method is applied to Vietnamese with high quality

result. As language independent building way, it can be applied to the other languages.

pdf 10 trang phuongnguyen 11280
Bạn đang xem tài liệu "Cách tiếp cận dịch máy thống kê dựa trên cú pháp giải bài toán tự động khôi phục dấu cho văn bản", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfcach_tiep_can_dich_may_thong_ke_dua_tren_cu_phap_giai_bai_to.pdf