Ứng dụng mô hình đồ thị trong tóm tắt đa văn bản Tiếng Việt

TÓM TẮT - Tóm tắt đa văn bản được mở rộng từ tóm tắt đơn văn bản với mục đích tổng hợp thông tin cô đọng nhất từ

nhiều nguồn văn bản khác nhau. Trong bài báo này, chúng tôi trình bày một phương pháp tóm tắt đa văn bản dựa trên cách tiếp

cận mô hình đồ thị. Trọng số của mỗi câu được thể hiện tại các nút của đồ thị và độ tương tự giữa các câu là trọng số các nhánh

của đồ thị. Đánh giá tóm tắt sử dụng độ đo ROUGE với 200 cụm văn bản tiếng Việt, kết quả cho thấy rằng, phương pháp chúng tôi

đề xuất thực sự có hiệu quả và có thể dễ dàng triển khai thành những ứng dụng thực tế.

pdf 9 trang phuongnguyen 2440
Bạn đang xem tài liệu "Ứng dụng mô hình đồ thị trong tóm tắt đa văn bản Tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ứng dụng mô hình đồ thị trong tóm tắt đa văn bản Tiếng Việt

Ứng dụng mô hình đồ thị trong tóm tắt đa văn bản Tiếng Việt
Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 
DOI: 10.15625/vap.2015.000215 
ỨNG DỤNG MÔ HÌNH ĐỒ THỊ TRONG TÓM TẮT 
ĐA VĂN BẢN TIẾNG VIỆT 
Nguyễn Thị Ngọc Tú1, Nguyễn Thị Thu Hà 1, Lê Thanh Hương2, Hồ Ngọc Vinh3, 
Đào Thanh Tĩnh4, Nguyễn Ngọc Cương5 
1 Khoa CNTT, Đại học Điện lực, 235 Hoàng Quốc Việt, Từ Liêm, Hà Nội 
{ hantt, tuntn}@epu.edu.vn 
2Viện CNTT và TT, Đại học Bách Khoa Hà Nội 
huonglt@soict.hut.edu.vn 
3Khoa CNTT, Trường Đại học Sư phạm Kỹ thuật Vinh 
hnvinh.skv@moet.edu.vn 
4Khoa CNTT, Học viện Kỹ thuật quân sự 
tinhdt@mta.edu.vn 
5Khoa Công nghệ và An ninh thông tin, Học viện An ninh nhân dân 
Cuongnn.hvan@gmail.com 
TÓM TẮT - Tóm tắt đa văn bản được mở rộng từ tóm tắt đơn văn bản với mục đích tổng hợp thông tin cô đọng nhất từ 
nhiều nguồn văn bản khác nhau. Trong bài báo này, chúng tôi trình bày một phương pháp tóm tắt đa văn bản dựa trên cách tiếp 
cận mô hình đồ thị. Trọng số của mỗi câu được thể hiện tại các nút của đồ thị và độ tương tự giữa các câu là trọng số các nhánh 
của đồ thị. Đánh giá tóm tắt sử dụng độ đo ROUGE với 200 cụm văn bản tiếng Việt, kết quả cho thấy rằng, phương pháp chúng tôi 
đề xuất thực sự có hiệu quả và có thể dễ dàng triển khai thành những ứng dụng thực tế. 
Từ khóa: tóm tắt đa văn bản, mô hình đồ thị, giảm chiều đặc trưng, mô hình chủ đề, tiếng Việt. 
I. GIỚI THIỆU 
Sự phát triển của công nghệ thông tin đã biến thế giới ngày nay thành một thế giới thông tin hoàn hảo (perfect 
information world). Cùng với sự gia tăng nhanh chóng của lượng dữ liệu trên Internet, các công cụ khai phá dữ liệu 
cũng được xây dựng nhằm khai phá tri thức từ những trang tin này như phân loại văn bản, tra cứu văn bản, tìm kiếm, 
và tóm tắt văn bản, Trong đó, tóm tắt văn bản là một trong những hướng nghiên cứu được các nhà nghiên cứu quan 
tâm trong thời gian gần đây, nó làm rút gọn đi những nội dung thông tin dư thừa trong văn bản để lại văn bản tóm tắt ở 
trạng thái cô đọng nhất [19]. 
Trong suốt hơn 50 năm phát triển của tóm tắt văn bản, đã có rất nhiều các phương pháp được đề xuất nhằm mục 
đích xây dựng các hệ thống tóm tắt văn bản tự động thỏa mãn yêu cầu của người dùng. Các nghiên cứu về tóm tắt văn 
bản tập trung vào hai cách tiếp cận chính là cách tiếp cận dựa trên trích xuất (extraction) và tóm lược (abstractions). 
Trong đó, cách tiếp cận dựa trên trích xuất là phổ biến hơn cả, bởi độ phức tạp không quá lớn và vẫn đảm bảo được yêu 
cầu của một văn bản tóm tắt cần đạt được [22][30]. Mặt khác, đối với ngôn ngữ tiếng Việt, một số công cụ hỗ trợ trong 
việc xây dựng cách biểu diễn ngôn ngữ như VietwordNet chưa được xây dựng hoàn chỉnh, rất khó khăn trong việc xây 
dựng cách biểu diễn tương đương hoặc đồng nghĩa. 
Phương pháp tóm tắt văn bản sử dụng mô hình đồ thị vô hướng có trọng số đã được R.Mihalcea sử dụng trong 
tóm tắt văn bản tiếng Anh từ năm 2004 [17]. Trong báo cáo này văn bản được biểu diễn dưới dạng đồ thị, mỗi đỉnh 
trong đồ thị biểu diễn một câu trong văn bản, các cạnh nối giữa hai đỉnh biểu diễn độ tương đồng ngữ nghĩa giữa hai 
câu tương ứng với hai đỉnh đó. Đối với tóm tắt văn bản tiếng Việt nhóm tác giả Trương Quốc Định, đã đề xuất một 
phương pháp tương tự trong đó có sử dụng 3 thuật toán thống kê dựa trên từ vựng để tính toán độ tương tự giữa các câu 
là Jaro, Contrast Model và Jaccard. Để tính độ quan trọng câu được tính theo thuật toán PageRank[1]. Trong các 
phương pháp sử dụng mô hình đồ thị để tạo ra các bản tóm tắt tự động thường chỉ đề cập đến độ tương đồng ngữ nghĩa 
của câu, nhưng đối với xử lý ngôn ngữ tự nhiên có rất nhiều các đặc trưng vì vậy việc lựa chọn các đặc trưng để tính 
toán có ảnh hưởng rất lớn đến chất lượng của tóm tắt. Trong bài báo này chúng tôi sử dụng mô hình đồ thị có trọng số 
nhưng thêm vào đó là trọng số của câu tại mỗi nút. Ngoài ra chúng tôi còn giảm chiều đặc trưng bằng mô hình chủ đề 
theo phương pháp tiếp cận dựa trên mô hình xác suất có điều kiện [11]. 
Đối với tiếng Việt, hiện nay cũng có nhiều phương pháp được đề xuất, tuy nhiên các đề xuất này thường sử 
dụng lại các phương pháp đã áp dụng cho tiếng Anh [25]. Một số các khác biệt về ngôn ngữ đều được xử lý thông qua 
các công cụ xử lý tách từ, nhận dạng từ, [25]. Chúng tôi cũng nghiên cứu đặc điểm của ngôn ngữ tiếng Việt và nhận 
thấy rằng, tiếng Việt là ngôn ngữ đơn âm tiết, khó khăn khi tách từ, bởi các từ trong tiếng Việt không dựa trên khoảng 
trắng. Ví dụ các từ: chuẩn_bị, xử_lý, là những từ ghép, cần phải nhận dạng và dùng các công cụ tách từ phù hợp khi 
xử lý. Chính vì điều này, xử lý ngôn ngữ tự nhiên tiếng Việt là một thách thức cần được giải quyết. Trong bài báo này, 
chúng tôi đã sử dụng một phương pháp cải tiến bài toán tóm tắt văn bản tiếng Việt so với phương pháp thông thường 
bằng cách sử dụng tập từ chủ đề tiếng Việt [11]. Tại pha tóm tắt, không cần sử dụng công cụ tách và gán nhãn từ để xử 
lý văn bản đầu vào, nhờ vậy pha tóm tắt sẽ giảm bớt độ phức tạp tính toán về mặt thời gian (Hình 1). 
Nguyễn Thị Ngọc Tú, Nguyễn Thị Thu Hà, Lê Thanh Hương, Hồ Ngọc Vinh, Đào Thanh Tĩnh, Nguyễn Ngọc Cương 747 
Hình 1. Quy trình tóm tắt văn bản tiếng Việt. 
Phần còn lại của bài báo này được cấu trúc như sau: Phần II giới thiệu các nghiên cứu liên quan trong lĩnh vực 
tóm tắt văn bản trong và ngoài nước. Phần III giới thiệu phương pháp xây dựng mô hình chủ đề có tác dụng giảm bớt 
độ phức tạp tính toán về mặt thời gian và phương pháp tóm tắt văn bản tiếng Việt dựa trên mô hình đồ thị. Kết quả 
thực nghiệm đánh giá bằng độ đo chính xác ROUGE được trình bày trong phần IV và cuối cùng là kết luận. 
II. CÁC NGHIÊN CỨU LIÊN QUAN 
Tóm tắt đa văn bản được mở rộng từ tóm tắt đơn văn bản với mục đích tổng hợp thông tin cô đọng nhất từ nhiều 
nguồn văn bản khác nhau. Do vậy thường các phương pháp tóm tắt đa văn bản được xây dựng từ các phương pháp tóm 
tắt đơn văn bản. Trong số các phương pháp hiện có thì các thuật toán học dựa trên đồ thị đã có hiệu quả tốt trong các 
truy vấn câu. Cụ thể một đồ thị có trọng số được xây dựng, mỗi câu được mô phỏng là một nút, mối quan hệ giữa các 
câu được mô hình hóa như một cạnh có hướng hoặc vô hướng [28][32][33]. Mô hình đồ thị phân lớp câu trong truy vấn 
tóm tắt đa văn bản cũng đã được Furu Wei và các cộng sự đề xuất trong báo cáo của mình năm 2008. Trong báo cáo 
này một đồ thị có trọng số được đề xuất để xác định những ảnh hưởng của các câu trong nội văn bản và liên văn bản, từ 
đó tạo ra một phân lớp các câu trong tóm tắt đa văn bản [29]. 
Các mô hình chủ đề [6] cung cấp một cách tiếp cận hiệu quả trong tóm tắt văn bản bằng cách cung cấp các chỉ 
dẫn xác suất rõ ràng và nghiêm ngặt hơn các phương pháp khác [15]. Đến nay, mô hình chủ đề đã được khai thác rộng 
rãi trong lĩnh vực tóm tắt bằng cách khai thác các chủ đề tiềm ẩn trong tập văn bản [31]. 
Một sự kết hợp giữa mô hình chủ đề và học bán giám sát dựa trên đồ thị cho các truy vấn trong tóm tắt đa văn 
bản được nhóm tác giả Yanran Li và Sujian Li đề xuất năm 2014[15]. Một mô hình đồ thị hai lớp (lớp câu và lớp chủ 
đề) được đưa ra với cách tiếp cận là mô hình quan hệ giữa các chủ đề và câu. 
Đối với các nghiên cứu về tóm tắt tự động văn bản tiếng Việt gần đây cũng đã có một số công trình công bố: 
Nguyễn Lê Minh tóm tắt văn bản tiếng Việt bằng vector hỗ trợ SVM (Support Vector Machine) [20]. Đỗ Phúc và các 
cộng sự rút trích nội dung chính của khối thông điệp bằng phương pháp gom cụm đồ thị [2]. Nguyễn Hoàng Anh Tú với 
phương pháp sử dụng mô hình đồ thị trong tóm tắt văn bản tiếng Việt [26]. Ngoài ra còn có sự góp mặt của nhóm tác giả 
Lê Thanh Hương sử dụng cấu trúc ngôn ngữ tiếng Việt đối với hệ thống tóm tắt tự động [4]. Gần đây trong một báo cáo 
về “ giải pháp tóm tắt văn bản tiếng Việt tự động” nhóm tác giả Trương Quốc Định và Nguyễn Quang Dũng cũng đã đề 
cập đến phương pháp dựa trên mô hình đồ thị có trọng số. Mỗi đỉnh của đồ thị biểu diễn một câu, cạnh nối hai câu có gán 
trọng số thể hiện độ tương đồng ngữ nghĩa của chúng và cuối cùng một giải thuật PageRank dựa trên đồ thị được tùy biến 
để tích hợp độ tương tự câu. Sau cùng các câu quan trọng nhất sẽ được trích rút trong văn bản tóm tắt [1]. 
III. TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH ĐỒ THỊ 
A. Xây dựng mô hình chủ đề 
Các tri thức hiện nay vẫn đang được số hóa và lưu trữ trong các trang tin tức, blog, bài báo khoa học, các trang 
web và các mạng xã hội,... quá nhiều thông tin lưu trữ, do đó sẽ rất khó khăn để tìm kiếm và tổ chức dữ liệu, cũng như 
định nghĩa một dữ liệu cụ thể. Do vậy, chúng ta cần những công cụ tính toán mới giúp tổ chức, tìm kiếm và hiểu những 
lượng lớn thông tin. 
Trong học máy và xử lý ngôn ngữ tự nhiên, mô hình chủ đề là một loại mô hình thống kê để phát hiện ra các 
"chủ đề" trừu tượng xảy ra trong một bộ sưu tập các tài liệu. Giả sử, cho rằng một tài liệu nói về một chủ đề cụ thể, 
người ta sẽ kỳ vọng từ đặc biệt để xuất hiện trong các tài liệu nhiều hơn hoặc ít hơn: "dog" và "bone" sẽ xuất hiện 
thường xuyên hơn trong các tài liệu về những con chó, "cat" và "meow" sẽ xuất hiện trong các tài liệu về những con 
748 ỨNG DỤNG MÔ HÌNH ĐỒ THỊ TRONG TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT 
mèo và "the", "is" sẽ xuất hiện như nhau trong cả hai. Một mô hình chủ đề sử dụng mô hình toán học, cho phép kiểm 
tra một tập tài liệu và phát hiện, dựa trên số liệu thống kê của các từ trong mỗi tài liệu, dựa vào đó có thể dự đoán được 
chủ đề của văn bản là gì. 
Bảng 1. Các từ chủ đề trong tập mô tả của Andrews năm 2009. 
Theatre 
Stage 
Arts 
Play 
Dance 
Opera 
Cast 
Music 
Band 
Rock 
Song 
Record 
Pop 
Dance 
League 
Cup 
Season 
Team 
Game 
Match 
Division 
Prison 
Years 
Sentence 
Jail 
Home 
Prisoner 
serving 
Rate 
Cent 
Inflation 
Recession 
Recovery 
Economy 
Cut 
Pub 
Guinness 
Beer 
Drink 
Bar 
Dringking 
alcohol 
Market 
Stock 
Exchange 
Demand 
Share 
Group 
news 
Railway 
Train 
Station 
Steam 
Rail 
Engine 
track 
Air 
Aircraft 
Flying 
Flight 
Plane 
Airport 
Pilot 
Trong nghiên cứu gần đây nhất về xây dựng mô hình chủ đề cho tiếng Việt, nhóm nghiên cứu Ha Nguyen Thi 
Thu đã xây dựng mô hình chủ đề dành cho tiếng Việt dựa trên tập từ lõi và xác suất điều kiện. Trong đó, từ lõi được 
coi là từ có tần suất xuất hiện lớn nhất trong chủ đề đó. Để xây dựng mô hình chủ đề này, các văn bản được đưa vào 
tập huấn luyện và được gán nhãn trước, sau đó họ tách thành tập các danh từ và sau đó dựa trên xác suất điều kiện để 
xây dựng tập thuật ngữ đối với mỗi chủ đề. Với cách tiếp cận này, họ đã giảm được chi phí về mặt thời gian khi xây 
dựng những hệ thống ứng dụng thực tế hơn so với phương pháp truyền thống [11] và cũng giảm được chi phí xử lý so 
với một số các công bố trước đây của họ [9]. 
Hình 2 dưới đây mô tả thuật toán xây dựng mô hình chủ đề. 
THUẬT TOÁN XÂY DỰNG MÔ HÌNH CHỦ ĐỀ 
Đầu vào: 
 - D: Tập văn bản huấn luyện đã được gán nhãn tương ứng với các chủ đề C; 
 - VnTagger: Công cụ nhận dạng, tách từ; 
 - C: Tập các chủ đề 
Đầu ra: 
 - T: Tập các từ được gán nhãn tương ứng với mỗi C. 
Khởi tạo: 
V= ; 
n=count(S); n’=count(S’); 
G= ;G’= ; 
1. For each di in Ck do 
1.1 Vk Vntagger(di); 
2. For each Ck do 
2.1.1 If w(j) Vk then 
2.1.1.1 n(j) n(j) +1; // đếm số lần xuất hiện w(j) trong mỗi chủ đề Ck 
2.1.1.2 Nk=argmax(n(j)); // Lấy tần suất lớn nhất của từ wj trong mỗi chủ đề Ck 
3. For each Ck do 
3.1 For all w in V 
3.1.1 if Pr(w(i)|Nk) 0 then Vk w(i); // cho các từ w(i) vào tập Vk của Ck 
Hình 2. Thuật toán xây dựng mô hình chủ đề 
B. Tóm tắt văn bản tiếng Việt dựa trên mô hình đồ thị 
1. Trọng số câu 
Giả sử D={d1, d2, ..., dn} là một tập các văn bản, D được biểu diễn thành tập các câu như sau: 
ܦ ൌ ሼ ଵܵ, ܵଶ,  , ܵ௠ሽ. Với Si là các câu được tách ra từ tập văn bản D. 
Mỗi câu Si được gán giá trị trọng số thông qua các tính trọng số của câu, có nghĩa là , với mỗi câu Si 
tương ứng có một trọng số Wi tương ứng. Lúc này D được biểu diễn lại như sau: 
ܦ ൌ ሼ൏ ଵܵ, ଵܹ ൐, ൏ ܵଶ, ଶܹ ൐,  , ൏ ܵ௠, ௠ܹ ൐ሽ. 
Các nghiên cứu từ trước thường áp dụng tính trọng số của câu dựa trên phương pháp tần suất từ, tần suất nghịch 
đảo văn bản tf*idf. Trong bài báo sử dụng cách tiếp cận dựa trên thuật ngữ. Do đó phương pháp tính trọng số thuật ngữ 
được áp dụng như sau: 
Ф௧೔ ൌ
୒೟೔
∑ ୒೟೔೘ೕసభ
 (1) 
Trong đó: 
φ
φ φ
←
∈
←
←
Nguyễn Thị Ngọc Tú, Nguyễn Thị Thu Hà, Lê Thanh Hương, Hồ Ngọc Vinh, Đào Thanh Tĩnh, Nguyễn Ngọc Cương 749 
- : Là trọng số của thuật ngữ ti trong câu. 
- : Là số lần xuất hiện của thuật ngữ ti trong tập văn bản. 
-∑ ௧ܰ೔௠௝ୀଵ : Tổng số lần xuất hiện của tất cả các thuật ngữ trong văn bản. 
Trọng số của câu được tính bằng tổng trọng số của tất cả các thuật ngữ trong câu. 
W௜ ൌ ∑ ݐ௜௠௞௠ୀଵ (2) 
Với Wi là trọng số của câu i trong tập văn bản. Các tim là các thuật ngữ trong câu thứ i. 
2. Độ tương ₫ồng câu 
Trong bài báo này chúng tôi tính độ tương đồng giữa hai câu dựa trên tổng các độ đo tương tự của từng cặp từ 
được đối sánh. 
Độ tương tự của từ: 
Về mặt cấu trúc, một đoạn văn bản gồm nhiều câu, mỗi câu được tạo thành bởi một chuỗi các từ mang các 
thông tin cần thiết. Phương pháp này được thực hiện dựa vào thông tin về ngữ nghĩa và cú pháp của các từ trong câu. 
Với một câu Si được trích rút ra tập các thuật ngữ như sau: 
௜ܶ ൌ ሼݐଵ, ݐଶ,  , ݐ௡ሽ 
Biểu thức trên được viết lại bổ sung thêm vị trí từ trong câu: 
௜ܶ ൌ ሼ൏ ݐଵ, ݒଵ ൐, ൏ ݐଶ, ݒଶ ൐,  , ൏ ݐ௡, ݒ௡ ൐ሽ 
Giả sử ta có hai câu T1, T2: 
ଵܶ ൌ ሼ൏ ݐଵଵ, ݒଵଵ ൐, ൏ ݐଵଶ, ݒଵଶ ൐,  , ൏ ݐଵ௡, ݒଵ௡ ൐ሽ 
ଶܶ ൌ ሼ൏ ݐଶଵ, ݒଶଵ ൐, ൏ ݐଶଶ, ݒଶଶ ൐,  , ൏ ݐଶ௠, ݒଶ௠ ൐ሽ 
Trong đó: 
- t1,i là từ chủ đề thứ i trong câu T1. 
- t2,j là từ chủ đề thứ j trong câu T2. 
Do tiếng Việt chưa có hệ thống Wordnet để tính toán độ tương tự giữa hai từ, do đó, trong công thức này chúng 
tôi sử dụng độ đo đã được đề xuất bởi Church and Hanks (1990). Độ đo này được gọi là độ tương hỗ giữa các từ 
Pointwise Mutual Information (PMI): 
ܲܯܫሺ ଵܹ ൌ ݓଵ, ଶܹ ൌ ݓଶሻ ൌ ݈݋݃ଶ ௉ሺ௪భ,௪మሻ௉ሺ௪భሻ.௉ሺ௪మሻ (3) 
Trong đó: 
- P(W1,W2): là xác suất xuất hiện đồng thời 2 từ W1 và W2 trong tập văn bản huấn luyện. 
- P(W1): là xác suất xuất hiện từ W1 trong tập văn bản huấn luyện. 
- P(W1): là xác suất xuất hiện từ W2 trong tập văn bản huấn luyện. 
Độ tương đồng giữa các câu 
Độ tương đồng ngữ nghĩa giữa hai câu được tính theo công thức sau: 
ܵ௦௘௡௧௘௡௖௘௦ ൌ ∑ ܲܯܫሺݓ௜,௞,௡௞ୀଵ,௠ୀଵ ݓ௝,௠ሻ (4) 
Trong đó: 
- Ssentences: độ tương đồng giữa các câu si, sj. 
- Wi, k: từ thứ k trong câu i. 
- Wj, m: từ thứ m trong câu j. 
3. Xây dựng ₫ồ thị tóm tắt văn bản 
Chúng tôi sử dụng mô hình đồ thị vô hướng có trọng số với các đỉnh biểu diễn các câu cùng với trọng số của 
câu. Mặt khác các cạnh nối giữa hai câu có gán trọng số, trọng số này chính là độ tương đồng ngữ nghĩa giữa hai câu 
được kết nối bởi cạnh đó. Sau khi đã tính toán được trọng số câu và độ tương tự giữa các câu, ta dựng mô hình đồ thị 
ứng dụng trong tóm tắt văn bản như sau: 
it
φ
it
N
7
B
B
B
B
V
r
c
c
b
A
p
d
50 
ước 1: Khởi 
- Mỗi
- Mỗi
ước 2: Sắp x
- Duy
ước 3: Xác đ
- Dựa
ước 4: Lựa c
Dựa tr
trọng 
thừa th
- Đ
- K
- T
lo
- T
í dụ 1: Giả sử
Sau kh
 = 30%. Theo
ao >0.5, do đ
họn tiếp câu t
ản tóm tắt cu
. Một số h
Để phát
háp đã được 
iện người dùn
tạo đồ thị 
 đỉnh biểu diễ
 cạnh biểu diễ
ếp thứ tự ưu t
ệt các đỉnh củ
ịnh chiều dài 
 trên tỉ lệ tóm
họn thông tin 
ên yêu cầu ch
số cao đồng t
ông tin. Thủ 
ầu tiên lựa ch
iểm tra lại ch
ính toán độ tư
ại bỏ câu này
iếp tục các bư
 tập văn bản 
i xây dựng đư
 tính toán trên
ó, xét câu tiếp
hứ 3. Kiểm tr
ối cùng bao g
ình ảnh hệ th
 triển hệ thốn
đề xuất. Nhữ
g. Dưới đây l
n các câu và t
n trọng số là 
iên 
a đồ thị, các đ
văn bản tóm t
 tắt r với ݎ ൌ
trong văn bản
iều dài văn b
hời những câ
tục lựa chọn 
ọn câu có trọn
iều dài văn bả
ơng đồng giữ
 và lựa chọn c
ớc lựa chọn n
D gồm có 6 c
Hình 3.
ợc mô hình 
 đồ thị, câu 1
 theo lựa chọ
a lại chiều dà
ồm câu 1 và c
ống tóm tắt 
g tóm tắt đa v
ng kết quả ba
à một số hình
 ỨNG 
rọng số của n
độ tương tự g
ỉnh có trọng 
ắt 
௖௛௜௘௨ ௗ௔௜ ௩௔௡ ௕
௖௛௜௘௨ ௗ௔௜ ௩௔௡
 tóm tắt 
ản tóm tắt. X
u có độ tươn
thông tin như 
g số cao nhấ
n tóm tắt, nếu
a hai câu đã 
âu có trọng s
ày, cho tới kh
âu như hình 4
 Mô hình đồ th
đồ thị bắt đầ
 và câu 5 sẽ đ
n câu thứ 4, t
i văn bản tóm
âu 3. 
IV. K
đa văn bản ti
ăn bản tiếng 
n đầu khá kh
 ảnh của hệ th
DỤNG MÔ HÌN
ó. 
iữa các cặp đỉ
số cao được ư
௔௡ ௧௢௠ ௧௔௧
 ௕௔௡ ௚௢௖ %. 
ác định các câ
g đồng cao sẽ
sau: 
t trong đồ thị.
 chưa đủ thì l
lựa chọn, nếu
ố cao tiếp theo
i chiều dài vă
 sau. Tóm tắt 
ị trong tóm tắt v
u xử lý tóm 
ược lựa chọn
uy nhiên độ tư
 tắt, cho thấy 
ẾT QUẢ TH
ếng Việt dựa
Việt, chúng tô
ả quan. Thời
ống thực ngh
H ĐỒ THỊ TRON
nh trong đồ th
u tiên. 
u được trích c
 được loại bỏ
ựa chọn câu t
 độ tương đồn
. 
n bản tóm tắt
đa văn bản vớ
ăn bản tiếng V
tắt, giả sử tó
. Tuy nhiên, d
ơng đồng giữ
rằng, chiều d
ỰC NGHIỆM
 trên mô hìn
i đã xây dựng
 gian xử lý tó
iệm: 
G TÓM TẮT Đ
ị. 
họn ra từ văn
 để thay thế 
iếp theo có trọ
g lớn hơn mộ
 đúng với tỉ lệ
i σ >0.5 và 
iệt. 
m tắt các văn
o độ tương đ
a câu 1 và câ
ài văn bản tóm
h đồ thị 
 hệ thống ứn
m tắt nhanh 
A VĂN BẢN T
 bản gốc. Vớ
bằng câu khá
ng số cao thứ
t ngưỡng σ
 yêu cầu thì d
tỉ lệ tóm tắt r=
 bản gốc trê
ồng giữa câu 
u 4 vẫn >0.5
 tắt đã đủ. D
g dụng dựa tr
và phản hồi t
IẾNG VIỆT 
i điều kiện 
c tránh dư 
 2. 
, tiến hành 
ừng lại. 
30%. 
n với tỉ lệ 
1 và câu 5 
, do đó lựa 
o vậy, văn 
ên phương 
rở lại giao 
N
B
v
C
đ
m
v
guyễn Thị Ngọc
. Kết quả t
Trong b
ăn bản huấn 
húng tôi sử d
ược tạo sẵn. 
Ngoài r
Trong đ
ô hình. 
Trong đ
ậy kết quả so
 Tú, Nguyễn Thị 
hử nghiệm 
ài báo này, đ
luyện do nhóm
ụng 3 tập dữ
a, chúng tôi đ
ó - Countmat
- Count(n-
- i, j nhận 
- wn nhận 
ánh giá kết q
 với các công 
Thu Hà, Lê Than
H
Hì
ể đánh giá kế
 tác giả Lê T
 liệu, tổng số 
ã sử dụng độ 
ܥ௡ ൌ
∑஼∈ሼெ
∑
ܰ݃
ch(n-gram) là 
gram) là số n
các giá trị từ 
giá trị 1/(j-i+
uả, chúng tôi
bố của tác giả
h Hương, Hồ Ng
ình 4. Giao diệ
nh 5. Ma trận h
t quả của phư
hanh Hương
gồm 200 cụm
đo ROUGE [
∑௡௢ௗ௘௟ ௎௡௜௧௦ሽ
஼∈ሼெ௢ௗ௘௟ ௎௡௜௧ሽ
ݎܽ݉ሺ݅, ݆ሻ ൌ
số lớn nhất c
-gram trong m
1-4. 
1). 
 chỉ xét Ngram
 Lê Thanh H
ọc Vinh, Đào Th
n chọn tập văn
iển thị kết quả
ơng pháp tóm
 xây dựng là 
 văn bản dùn
34] để đánh g
ܥ݋ݑି௚௥௔௠∈஼
∑ ܥ݋௡ି௚௥௔௠∈஼
ܤܤ ∙ ݁ݔ݌ ቌ෍
௝
௡ୀ
ủa n-gram đồ
ột mô hình.
 với các từ c
ương [3] có sự
anh Tĩnh, Nguyễ
 bản tóm tắt 
 thực nghiệm 
 tắt đa văn b
kết quả của đ
g cho thử ngh
iá kết quả đạt 
݊ݐ௠௔௧௖௛ሺ݊ െ ݃
ݑ݊ݐሺ݊ െ ݃ݎܽ
ݓ௡
௜
݈݋݃ܥ௡ቍ
ng thời trong
hủ đề đã đượ
 khác nhau.
n Ngọc Cương 
ản đã đề xuất
ề tài cấp Bộ 
iệm và một t
được theo cô
ݎܽ݉ሻ
݉ሻ 
 bản tóm tắt đ
c xây dựng tr
. Chúng tôi s
Giáo dục năm
ập văn bản tó
ng thức sau: 
ược xem xét
ong mô hình 
751 
ử dụng tập 
 2013 [3]. 
m tắt mẫu 
trong một 
chủ đề, do 
7
đ
R
c
b
h
c
p
b
R
g
52 
Kết quả
Trong bả
ược thử nghi
OUGE-1, RO
Xử lý tó
hỉ là một văn 
ản tiếng Việt
ình chủ đề tiế
Với nhữ
ủa chúng tôi 
hát triển thàn
Chúng 
ộ Giáo dục nă
OUGE. Chún
ia Hà Nội đã 
 thử nghiệm đ
Tậ
ng 2, tập dữ 
ệm và đánh 
UGE-2, ROU
m tắt đa văn 
bản mà là nhi
 dựa trên cách
ng Việt. 
ng kết quả b
đề xuất có th
h những hệ th
tôi trân trọng 
m 2013 đã h
g tôi cũng cả
đóng góp ý ki
ược cho theo
p dữ liệu 
#1 
#2 
#3 
liệu thử nghiệ
giá với Gram
GE-N trên 3
bản có độ phứ
ều văn bản kh
 tiếp cận mô
an đầu đạt đư
ời gian xử lý 
ống tóm tắt đ
gửi lời cảm ơ
ỗ trợ chúng tô
m ơn các chu
ến cho việc x
 ỨNG 
Hình 6. Tậ
 bảng 2. dưới
Bảng 2.
ROUGE
0.392
0.381
0.472
m gồm 3 tập
-1, Gram-2 v
 tập dữ liệu tr
c tạp hơn so 
ác nhau. Tro
 hình đồ thị c
ợc dựa trên t
nhanh, văn b
a văn bản tiến
n tới nhóm tá
i trong việc c
yên gia về xử
ử lý ngôn ngữ
DỤNG MÔ HÌN
p dữ liệu thử n
 đây 
Kết quả thử ngh
RO
-1 RO
0
 (#1, #2, #3) 
à Gram-N ( 
ong khoảng 0
V. KẾT LU
với xử lý tóm
ng bài báo này
ó sử dụng kế
hực nghiệm t
ản tóm tắt có
g Việt trong t
VI. LỜI CẢ
c giả Lê Than
ung cấp kho n
 lý ngôn ngữ 
 tiếng Việt m
H ĐỒ THỊ TRON
ghiệm 
iệm 
UGE 
UGE-2 
0.28 
0.46 
.623 
đã được phân
với N=4). K
.3 đến 0.6. 
ẬN 
 tắt đơn văn b
, chúng tôi đ
t hợp giảm ch
ập văn bản tiế
kết quả chấp
ương lai. 
M ƠN 
h Hương, Hà
gữ liệu và cô
tự nhiên thuộ
ột cách hiệu q
G TÓM TẮT Đ
ROUGE-N 
0.4268 
0.247 
0.26860 
 theo các chủ
ết quả được 
ản bởi nguồn
ã đề xuất phư
iều đặc trưng
ng Việt cho 
 nhận được v
 Quang Thụy
ng cụ đánh gi
c Đại học Cô
uả nhất. 
A VĂN BẢN T
 đề, các tập d
thể hiện tươn
 văn bản đầu 
ơng pháp tóm
 bằng cách sử
thấy rằng, ph
à thực sự có 
, Vũ Đức Thi
á dựa trên ph
ng nghệ - Đại
IẾNG VIỆT 
ữ liệu này 
g ứng với 
vào không 
 tắt đa văn 
 dụng mô 
ương pháp 
ý nghĩa để 
 đề tài cấp 
ương pháp 
 học Quốc 
Nguyễn Thị Ngọc Tú, Nguyễn Thị Thu Hà, Lê Thanh Hương, Hồ Ngọc Vinh, Đào Thanh Tĩnh, Nguyễn Ngọc Cương 753 
VII. TÀI LIỆU THAM KHẢO 
[1] Trương Quốc Định, Nguyễn Quang Dũng “Một giải pháp tóm tắt văn bản tiếng Việt tự động” Hội thảo quốc gia lần 
thứ XV: một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông Hà Nội 03-04/12/2012. 
[2] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng, “Gom cụm đồ thị và ứng dụng vào việc rút trích nội dung 
chính của khối thông điệp trên diễn đàn thảo luận”, Tạp chí Phát triển Khoa học Công nghệ, Tập 11, Số 05 - 2008, 
pp. 21-32, 2008. 
[3] Lê Thanh Hương, Nghiên cứu một số phương pháp tóm tắt văn bản tự động trên máy tính áp dụng cho tiếng Việt, 
Đề tài Bộ Giáo dục, 2012-2014. 
[4] Nguyễn Trọng Phúc, Lê Thanh Hương, Tóm tắt văn bản sử dụng cấu trúc diễn ngôn, Proc of ICTrda08, 2008. 
[5] Mark Andrews, Gabriella Vigliocco, The Hidden Markov Topic Model: A Probabilistic Model of Semantic 
Representation, Topics in Cognitive Science 2 101–113, 2010. 
[6] David Blei, Andrew Ng and Micheal Jordan. Latent dirichlet allocation. In The Journal of Machine Learning 
Research, 2003. 
[7] Dipanjan Das, Andre F. T. Martins, A Survey on Automatic Text Summarization, November 21, 2007. 
[8] Ha. N. T. T, Quynh. N. H, Tao. N. Q, A new method for calculating weight of sentence based on amount of 
information and linguistic score, International Journal of Advanced Computer Engineering, Vol.4 No.2, pp. 91-95, 
2011. 
[9] Ha. N. T. T, Quynh. N. H, Khanh N. T. H, Hung L. M, Optimization for Vietnamese Text classification problem by 
reducing feature set, Proc of 6th International Conference on New Trends in Information Science, Service Science 
and Data Mining, pp. 209-212, 2012. 
[10] Ha. N. T. T, Quynh. N. H, Tu. N. N, A Supervised Learning Method Combine with Dimensionality Reduction in 
Vietnamese Text Summarization, Proc IEEE of Computer, communication and application 2013, pp. 69-73, 2013. 
[11] Ha Nguyen Thi Thu, Tinh Dao Thanh, Thanh Nguyen Hai, Vinh Ho Ngoc, “'Building Vietnamese Topic 
Modeling Based on Core Terms and Applying in Text Classification”, Proc. of Fifth IEEE International 
Conference on Communication Systems and Network Technologies, pp. 1284-1288, DOI 10.1109/CSNT.2015.22, 
2015. 
[12] Makoto Hirohata, Yousuke Shinnaka, Koji Iwano and Sadaoki Furui, Sentence extraction – based presentation 
summarization techniques and evaluation metrics, ICASSP 2005, pp. I – 1065- I – 1068, 2005. 
[13] Karel Jezek, Josef Steinberger, Automatic Text Summarization (The state of the art 2007 and new challenges), 
Znalosti ,2008, ISBN 978-80-227-2827-0. 
[14] Daniel Jurafsky & James, Speech and Language Processing: An introduction to natural language processing, 
computational linguistics, and speech recognition, Prentice Hall, 2008. 
[15] Yanran Li and Sujian Li, Query-focused Multi-Document Summarization: Combining a Topic Model with Graph-
based Semi-supervised Learning. Proceedings of COLING 2014, the 25th International Conference on 
Computational Linguistics: Technical Papers, pages 1197–1207, Dublin, Ireland, August 23-29 2014. 
[16] C. Lopez, V. Prince, and M. Roche, Text titling applica-tion (demonstration session, to appear), in Proceedings of 
EKAW’10, 2010. 
[17] Mihalcea, R., “Graph-based ranking algorithms for sentence extraction, applied to text summarization”, ACL 2004 
on Interactive poster and demonstration sessions, Association for Computational Linguistics, Morristown, NJ, 
USA, pp. 181–184, 2004 
[18] Nenkova, A. Automatic text summarization of newswire: Lessons learned from the document understanding 
conference. In Proceedings of AAAI 2005, Pittsburgh, USA. 
[19] A. Nenkova and K. McKeown, Automatic Summarization, Foundations and Trends® in Information Retrieval 
Vol. 5, Nos. 2–3 (2011) 103–233. 
[20] M. L. Nguyen, Shimazu, Akira, Xuan, Hieu Phan, Tu, Bao Ho, Horiguchi, Susumu, Sentence Extraction with 
Support Vector Machine Ensemble, Proceedings of the First World Congress of the International Federation for 
Systems Research : The New Roles of Systems Sciences For a Knowledge-based Society 2005-11. 
[21] Seonggi Ryang, Takeshi Abekawa, Framework of Automatic Text Summarization Using Reinforcement Learning, 
Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and 
Computational Natural Language Learning, pages 256–265, Jeju Island, Korea, 12–14 July 2012. 
[22] Horacio Saggion (2013) Proceedings of NAACL-HLT 2013, Atlanta, Georgia, 9–14 June 2013, pages 270–279; 
754 ỨNG DỤNG MÔ HÌNH ĐỒ THỊ TRONG TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT 
[23] MARIA SOLEDAD PERA, YIU-KAI NG, A Naïve Bayes Classify for web document summaries created by using 
word similariy and significant factor, International Journal on Artificial Intelligence Tools, Vol. 19, No. 4 pp. 465–
486, 2010. 
[24] Svore, K., Vanderwende, L., and Burges, C. Enhancing single-document summarization by combining RankNet 
and third-party sources. In Proceedings of the EMNLP-CoNLL, pages 448-457, 2007. 
[25] Thanh, Le Ha; Quyet, Thang Huynh; Chi, Mai Luong, A Primary Study on Summarization of Documents in 
Vietnamese, Proceedings of the First World Congress of the International Federation for Systems Research : The 
New Roles of Systems Sciences For a Knowledge-based Society 2005-11. 
[26] Tu-Anh Nguyen-Hoang, Hoang Khai Nguyen, and Quang Vinh Tran (2010), “An efficient Vietnamese text 
summarization approach base on graph model”. . RIVF, page 1-6. IEEE, (2010). 
[27] Dingding Wang, Shenghuo Zhu, Tao Li, Yihong GongMulti-Document Summarization using Sentence-based 
Topic Models, Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, pages 297–300, Suntec, 
Singapore, 4 August 2009. 2009. 
[28] Xiaojun Wan, Jianwu Yang and Jianguo Xiao. Manifold-ranking based topic-focused multi-document sum-
marization. In Proceedings of International Joint Conference on Artificial Intelligence, 2007. 
[29] Furu Wei, Wenjie Li, Qin Lu, and Yanxiang He A Cluster-Sensitive Graph Model for Query-Oriented Multi-
document Summarization, 2008. 
[30] Kam-Fai Wong, Mingli Wu and Wenjie Li (2008), “Extractive Summarization Using Supervised and Semi-
supervised Learning”, Proceedings of the 22nd International Conference on Computational Linguistics, 
Manchester, August 2008,pp. 985–992 
[31] Jean-Yves Delort and Enrique Alfonseca. DualSum: a topic-model based approach for update summarization. In 
Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics., 
2012). 
[32] Dengzhong Zhou, Jason Weston, Arthur Gretton, Olivier Bousquet and Bernhard Schlkopf. Ranking on Data 
Manifolds. In Proceedings of the Conference on Advances in Neural Information Processing Systems., 2003. 
[33] Dengyou Zhou, Olivier Bousquet, Thomas Navin and JasonWeston. Learning with Local and Global Con-
sistency. In Proceedings of Advances in neural information processing systems, 2004. 
[34] Chin-Yew Lin and Eduard Hovy (2003), “Automatic Evaluation of Summaries Using N-gram Co-Occurrence 
Statistics”, Proceedings of the Human Technology Conference 2003 (HLT-NAACL-2003), May 27 - June 1, 2003, 
Edmonton, Canada. 
[35]  
APPLY GRAPHICAL MODEL FOR VIETNAMESE MULTI-DOCUMENT 
SUMMARIZATION 
Nguyen Thi Ngoc Tu, Nguyen Thi Thu Ha, Le Thanh Huong, Ho Ngoc Vinh, 
Dao Thanh Tinh, Nguyen Ngoc Cuong 
ABSTRACT - Multi-document summarization is expanded from single-document summarization in order to compile the most 
important information from different sources of document. In this paper, we present a Vietnamese multi-document summarization 
method based on graphical model. Weighting of each sentence is represented as a node of the graph and the similarity score among 
sentences is on the edges of the graph. For evaluation, we used ROUGE method with 200 Vietnamese text clusters and the results 
shown that the method proposed is really effective and can be developed into practical applications. 

File đính kèm:

  • pdfung_dung_mo_hinh_do_thi_trong_tom_tat_da_van_ban_tieng_viet.pdf