Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 5: Nghĩa từ vựng và phân giải nhập nhằng từ - Lê Thanh Hương

Từ đồng âm

z Từ đồng âm (Homonymy): là những từ trùng

nhau về hình thức ngữ âm nhưng khác nhau về

nghĩa

z Từ đồng âm, đồng tự (Homograph) : các từ với cùng

cách viết nhưng có nghĩa khác nhau. Ví dụ:

z dove - di i hi bi d ve into water, white bird

z saw

z Từ đồng âm, không đồng tự (Homophone): các từ có

cách viết khác nhau nhưng có cùng âm. Ví dụ:

z see, sea; meat, meet

pdf 7 trang phuongnguyen 5020
Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 5: Nghĩa từ vựng và phân giải nhập nhằng từ - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 5: Nghĩa từ vựng và phân giải nhập nhằng từ - Lê Thanh Hương

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 5: Nghĩa từ vựng và phân giải nhập nhằng từ - Lê Thanh Hương
1Nghĩa từ vựng và phân 
giải nhập nhằng từ
Lê Thanh Hương
1
Bộ môn Hệ thống Thông tin
Viện CNTT &TT – Trường ĐHBKHN
Email: huonglt-fit@mail.hut.edu.vn
Từ đồng âm
z Từ đồng âm (Homonymy): là những từ trùng 
nhau về hình thức ngữ âm nhưng khác nhau về 
nghĩa
z Từ đồng âm, đồng tự (Homograph) : các từ với cùng 
cách viết nhưng có nghĩa khác nhau. Ví dụ: 
d di i hi bi dz ove - ve nto water, w te r
z saw
z Từ đồng âm, không đồng tự (Homophone): các từ có 
cách viết khác nhau nhưng có cùng âm. Ví dụ: 
z see, sea; meat, meet
2
Phân loại từ đồng âm tiếng Việt
z Đồng âm từ với từ, gồm:
z Đồng âm từ vựng: Tất cả các từ đều thuộc cùng một từ loại. Ví dụ:
z đường1 (đắp đường) - đường2 (đường phèn).
z đường kính1 (đường để ăn) - đường kính2 (của đường tròn).
z cất1 (cất vó) - cất2 (cất tiền vào tủ) - cất3 (cất hàng) - cất4 (cất rượu)
ồ ồz Đ ng âm từ vựng-ngữ pháp: Các từ trong nhóm đ ng âm với nhau chỉ 
khác nhau về từ loại. Ví dụ:
z chỉ1 (cuộn chỉ) - chỉ2 (chỉ tay năm ngón) - chỉ3 (chỉ còn có dăm đồng).
z câu1 (nói vài câu) - câu2 (rau câu) - câu3 (chim câu) - câu4 (câu cá)
z Đồng âm từ với tiếng: các đơn vị khác nhau về cấp độ; kích 
thước ngữ âm của chúng đều không vượt quá một tiếng. Ví dụ:
z Con trai Văn Cốc lên dốc bắn cò, đứng lăm le cười khanh khách. Con gái 
Bát Chàng bán hàng thịt ếch ngồi châu chẫu nói ương ương.
3
Từ đa nghĩa, đồng nghĩa
z Từ đa nghĩa (Polysemy): một từ nhiều nghĩa, 
biểu thị những đặc điểm, thuộc tính khác nhau 
của một đối tượng, hoặc biểu thị những đối 
tượng khác nhau của thực tại. Ví dụ
z đi chỉ việc dịch chuyển bằng hai chi dưới hoặc chỉ 
ột ời à đó đã hếtm ngư n o c
z Đồng nghĩa (Synonymy): là những từ tương 
đồng với nhau về nghĩa, khác nhau về âm 
thanh. Ví dụ
z cố, gắng 
z car, automobile
4
Nghĩa từ vựng
z Ngữ nghĩa nghiên cứu ý nghĩa của các phát biểu dạng 
ngôn ngữ
z Nghĩa từ vựng (Lexical semantics) nghiên cứu:
z (quan hệ từ vựng) sự liên hệ về mặt ngữ nghĩa giữa các từ
z (ràng buộc về lựa chọn) cấu trúc liên hệ ngữ nghĩa bên 
trong của từng từ
z bao gồm lý thuyết về phân loại và phân rã nghĩa của từ, sự 
giống và khác trong cấu trúc từ vựng – ngữ nghĩa giữa các 
ngôn ngữ, và quan hệ nghĩa của từ với cú pháp và ngữ 
nghĩa của câu.
5
Ràng buộc về lựa chọn: Mã hóa 
ngữ nghĩa trong văn phạm
z Vị từ biểu diễn các ràng buộc qua tham số
z read (human subject, textual object)
z eat (animate subject)
z kill (animate object) 
z Sử dụng vị từ để phân giải nhập nhằng
z Ví dụ "dish":
z cái đĩa để ăn
z món ăn
z phương tiện liên lạc
6
2Ví dụ về từ “dish”
z Not unexpectedly, wives, whether working or non-
working, did by far the most - about 80% of the shopping, 
laundry and cooking, and about two-thirds of 
housecleaning, washing dishes, child care, and family 
paper work.
z In her tiny kitchen at home, Ms. Chen works efficiently, 
stir-frying several simple dishes, including braised pig's 
ears and chicken livers with green peppers.
z Installation of satellite dishes, TVs and videocassette 
equipment will cost the company about $20,000 per 
school, Mr Whittle said.
7
Ràng buộc lựa chọn
z VPPNC có thể đưa vào các ràng buộc lựa chọn
z tạo ontology (ví dụ, người, động vật)
z ràng buộc về luật
z vd. VP → VgiếtNPđộng vật
z ràng buộc về dịch nghĩa
z vd. ăn([sinh vật sống], [thức ăn])
z Nhược điểm: Cách viết này không tổng quát
z không đủ thông tin
z không sử dụng được với các trường hợp không liệt kê 
trong văn phạm
8
Khai thác quan hệ từ vựng
Xác định quan hệ từ vựng giữa các từ trong 
đoạn sau
Tôi yêu động vật nuôi trong nhà. Tôi đặc biệt 
thích mèo vì chúng là loài động vật rất độc 
lập. Ngược lại, chó thì khá lắm nhu cầu. Ví 
dụ, bạn phải dắt chúng đi dạo hàng ngày. 
9
Khai thác quan hệ từ vựng
z Từ điển đồng nghĩa:
z gồm từ đồng nghĩa (Synonyms) và trái nghĩa 
(Antonyms)
z Wordnet:
z Từ đồng nghĩa và trái nghĩa 
z Từ lớp cha và từ lớp con
z 
10
Nhập nhằng và các ràng buộc 
lựa chọn
z Nhập nhằng: 
z Các vị từ khác nhau ứng với các nghĩa khác nhau
z wash the dishes (theme : washable-thing)
z Tham số cũng có thể giải quyết nhập nhằng cho vị từ
serve vegetarian dishes (theme : food-type)
Phân tích ngữ nghĩaz :
z Luật có gắn thông tin ngữ nghĩa được sử dụng với các câu đã 
được phân tích cú pháp
“I wanna eat somewhere close to CSSE”
Ngoại động từ: VÆ eat {theme:food-type} (VP --> V 
NP)
Nội động từ: VÆ eat (VP --> V)
z Xung đột ràng buộc lựa chọn: loại trừ cú pháp
11
z Vấn đề:
z Đôi khi ràng buộc lựa chọn không đủ chặt (khi 1 từ 
có nhiều nghĩa)
z Đôi khi ràng buộc quá chặt – khi vị từ sử dụng 
phép ẩn dụ. Vd, I’ll eat my hat!
12
3CSDL từ vựng
z Lấy ý tưởng từ lý thuyết về tâm lý ngôn ngữ về khả năng 
nhớ từ vựng của con người
Xâ d ột khổ lồ á từ à hệ từ
WordNet: Giới thiệu
z y ựng m mạng ng c c vựng v quan 
vựng
z Wordnet tiếng Anh
z 4 lớp: danh từ, động từ, tính từ, trạng từ
z Danh từ: 120,000; Động từ: 22,000; Tính từ: 30,000; 
Trạng từ: 6,000
13
CSDL từ vựng
z Wordnet cho các ngôn ngữ khác 
[www.globalwordnet.org]
WordNet: Giới thiệu
z Có wordnet cho các ngôn ngữ: Tây Ban Nha, Tiệp, Hà 
Lan, Pháp, Đức, Ý, Bồ Đào Nha, Thụy Điển, Basque, 
Estonian 
z Wordnets đang được làm cho các tiếng: Bulgary, Đan 
mạch, Hy lạp, Hebrew, Hindi, Cannada, Latvian, 
Moldavy, Romany, Nga, Slovenian, Tamil, Thái lan, Thổ 
Nhĩ Kỳ, Ireland, Nauy, Ba tư, Iran
14
Tập từ đồng nghĩa
Synonym Sets - Synsets
z Từ có nhập nhằng
z Các nút trong Wordnet biểu diễn tập từ đồng 
nghĩa “synonym sets”, hoặc synsets. Ví dụ:
z Fool: 1 người dễ bị lợi dụng 
z {chump, fish, fool, gull, mark, patsy, fall guy, sucker, 
schlemiel, shlemiel, soft touch, mug} 
z Synset = tập khái niệm
15
Các quan hệ khác trong WordNet
•Các từ nối theo chiều dọc biểu diễn quan hệ rộng (holonymy) -
hẹp (hypernymy), theo chiều ngang biểu diễn quan hệ bộ phận 
meronymy (part_of) và holonymy (has_part) . 
•Mỗi nghĩa của từ được biểu diễn bằng 1 số synset
 16
Phân giải nhập nhằng sử dụng 
quan hệ từ vựng
Supplement Vitamin_Pill
Publication Dietary 
Pill
SENSE OF WORD
KIND-OF (HYPONYMY)
HAS-PART (HOLONYMY)
PART-OF (MERONYMY)
Nutriment
Nutriment
Medicine
Textual 
Matter
WordNet Similarity Metrics:
 18
4Đo quan hệ từ vựng
z Đếm số cạnh/đỉnh trên đồ thị:
z khoảng cách giữa 2 từ tỉ lệ nghịch với quan hệ ngữ nghĩa 
giữa chúng
z Nếu giữa 2 từ có nhiều đường đi, chọn đường ngắn nhất
số cạnh = 3
số nút = 4
19
Cặp từ nào gần nhau hơn?
z cá heo và cá?
z cá và cá hồi?
WordNet Similarity Metrics:
20
21 22
Phân giải nhập nhằng và đếm cạnh
z whale#n#1
z 1 người rất lớn (về kích thước hoặc phẩm chất)
z fish#n#3
z (thiên văn học) người được sinh khi mặt trời ở vì 
sao Pisces 
person
Pisces (fish)
Giant (whale)
tall/large person
Path Length = 4
23
Phân giải nhập nhằng và đếm cạnh
vertebrate
fish
aquatic 
vertebratemammal
placental
aquatic 
whale
animal
cetacean
Path length = 8
24
5Nhược điểm của WordNet trong tính 
quan hệ ngữ nghĩa 
z Độ đo quan hệ ngữ nghĩa WordNet dựa trên các giả 
thiết sau:
z Mọi cạnh trong đồ thị có độ dài bằng nhau
z Các nhánh trong đồ thị có cùng độ đậm đặc
z Tồn tại tất cả các quan hệ ngoại động từ
¾ không đáng tin cậy
25
Cách tiếp cận dựa trên từ điển
z Các từ điển điện tử (Lesk ‘86)
z Cho biết ý nghĩa của các từ trong ngữ cảnh cụ thể nội 
dung (vd., I’ve often caught bass while out at sea)
z So sánh sự chồng chéo của các định nghĩa về nghĩa 
của từ (bass2: a type of fish that lives in the sea)
z Chọn nghĩa trùng nhau nhiều nhất
z Hạn chế: đường dẫn đến từ ngắn Æ mở rộng 
cho các từ liên quan
26
Cách tiếp cận học máy
z Học việc phân loại để gán từ với một trong các 
nghĩa của nó
z Tích lũy tri thức từ tập ngữ liệu có hoặc không gán nhãn
z Con người chỉ can thiệp vào tập ngữ liệu gán nhãn và lựa 
ử ấchọn tập đặc trưng s dụng trong việc hu n luyện
z Vào: vectơ đặc trưng
z đích (từ cần phân giải nhập nhằng)
z nội dung (các đặc trưng có thể dùng để tiên đoán nghĩa 
đúng)
z Ra: các luật phân loại cho văn bản mới
27
Các đặc trưng sử dụng trong 
WSD
z Các thẻ POS của từ và các từ lân cận
z Các từ lân cận (có thể lấy gốc từ hoặc không)
z Dấu chấm, viết hoa, định dạng
z PTCP bộ phận để xác định vai trò ngữ pháp và quan 
hệ giữa chúng
z Các thông tin về đồng xuất hiện: 
z Từ và các từ lân cận của nó có thường đồng xuất hiện không
z Đồng xuất hiện của các từ láng giềng 
z Ví dụ: sea có thường xuyên xuất hiện với bass không
28
Ví dụ
Tôi ăn cơm với cá. 
z DT ĐgT DT GT DT
z (C (CN (ĐaT Tôi)) (VN (ĐgN (ĐgN (ĐgT ăn) (DT cơm)) (GN (GT 
với) (DT cá)))))
Em bé chỉ thích ăn kẹo thôi.
z DT TT TT ĐgT DT PT
z (C (CN (DT Em bé)) (VN (TN (TN (TT chỉ) (TN (TT thích) (ĐgN (ĐgT 
ăn) (DT kẹo)))) (PT thôi))))
Nó ăn nhiều hoa hồng quá.
z ĐaT ĐgT TT DT TT
z (C (CN (ĐaT Nó)) (VN (ĐgN (ĐgN (ĐgT ăn) (TT nhiều) (DT hoa 
hồng)) (TT quá))))
z Tôi tên là Hoa.
29
Các kiểu phân loại
z Naïve Bayes: Nghĩa tốt nhất là nghĩa có khả năng xảy ra 
nhất với 1 đầu vào cho trước
z ŝ = p(s|V), hoặc 
z trong đó s là 1 trong các nghĩa và V là vector đầu vào của các 
đặc trưng
)(
)()|(maxarg
Vp
spsVp
Ss∈
maxarg
Ss∈
z Chỉ có ít dữ liệu có thông tin vector kết hợp với nghĩa
z Giả sử các đặc trưng là độc lập, p(V|s) là tích xác suất của các 
đặc trưng
z p(V) là giống nhau với mọi ŝ (không ảnh hưởng đến xếp hạng 
cuối cùng)
)|
1
()|( s
n
j
v jpsVp ∏=
=
30
6Các kiểu phân loại
z Naïve Bayes: : Nghĩa tốt nhất là nghĩa có khả 
năng xảy ra nhất với 1 đầu vào cho trước
z Khi đó
)|()(maxargˆ s
n
v jpsps ∏=
z P(s) là xác suất tiền nghiệm của mỗi nghĩa = xác 
suất của mỗi nghĩa trong tập dữ liệu gán nhãn
z P(v,s) = đếm số lần xuất hiện của bass đi với sea
1jSs =∈
31
WSD và IR
z IR (Information Retrieval) : tìm kiếm thông tin
z Motivation
z Đồng âm = Bank (ngân hàng, sông)
z Đa nghĩa = Bat ((câu lạc bộ chơi cricket), (cây vợt nhỏ có tay 
cầm dài để chơi bóng )) 
z Đồng nghĩa = doctor, doc, physician, MD, medico
z Những vấn đề trên ảnh hưởng đến IR như thế nào? 
z Đồng âm và đa nghĩa có xu hướng giảm độ chính xác
z Đồng nghĩa: giảm độ phủ
32
2 ứng dụng của WSD trong IR
z Tìm kiếm dựa trên câu truy vấn (Voorhees, 1998):
z Sử dụng WSD để mở rộng câu truy vấn: phân giải nhập nhằng câu 
query và bổ sung vào các từ có nghĩa rộng hơn.
z Sử dụng WSD để đánh chỉ số khái niệm: phân giải nhập nhằng tập tài 
liệu và xây dựng chỉ số cho tập synset thay vì cho tập từ gốc
z Mô hình không gian vector: tìm độ tương đồng cosin giữa câu truy vấn 
ỗvà m i vector tài liệu
z Đánh chỉ số khái niệm
z Trong các thí nghiệm, vector dựa trên nghĩa thực hiện kém hơn vector 
dựa trên từ gốc
z Lý do: lỗi phân giải nhập nhằng
z trong thu thập văn bản, và
z các câu query ngắn do thiếu nội dung
33
2 ứng dụng của WSD trong IR
z Mở rộng query
z Không khả quan
z Nhưng, phân giải nhập nhằng và mở rộng truy vấn thủ 
công đem lại kết quả tốt
z Ví dụ: 
z furniture: table, chair, board, refectory(specialisations) 
z “Chỉ có một vài từ vựng liên quan là có ích trong việc 
mở rộng câu truy vấn, vì đường dẫn lớp cha giữa các 
từ trong WordNet không phải lúc nào cũng đem lại 1 
mở rộng truy vấn 1 cách hữu ích
34
Độ chính xác của WSD và IR
z Tập dữ liệu đánh giá WSD: SensEval và SemCor
z Cách khác để tạo ra dữ liệu gán nhãn: Pseudowords
z Lấy 2 từ (ngẫu nhiên) có cùng từ loại, và thay thế cả 2 bằng 1 từ 
nhân tạo. Ví dụ, 'door' và 'banana' có thể thay thế trong tập ngữ 
liệu bằng từ 'donana' .
z Độ chính xác của WSD: xác định được mỗi trường hợp của 
donana cụ thể là 'door‘ hay 'banana'. (Yarowsky, 1993)
z (Sanderson, 1997) công bố: thêm nhập nhằng vào các 
query và kết quả ít có ảnh hưởng đến độ chính xác của 
việc tìm kiếm so với ảnh hưởng của lỗi phân giải nhập 
nhằng trong tập kết quả
z chỉ có lỗi phân giải nhập nhằng mức thấp ( < 10%) mới tốt hơn 
phiên bản IR đơn giản dựa trên từ gốc. 35
Độ chính xác của WSD và IR
z Tại sao đa nghĩa/đồng âm không phải vấn đề lớn như ta 
nghĩ:
z Tác động của sự đồng xuất hiện từ truy vấn: các từ trong 
câu truy vấn tự nó đã phân giải nhập nhằng
S hâ bố ữ hĩ á d h á iề ứ dz ự p n ng ng a: p ụng c o c c m n ng ụng 
cụ thể
36
7Độ chính xác của WSD và IR
z Từ đồng nghĩa có ảnh hưởng lớn hơn:
z Gonzalo et al. (1998; 1999): sử dụng SemCor (tập ngữ liệu 
Brown với các thẻ nghĩa của WordNet) cho thấy nếu phân 
giải nhập nhằng có độ cx = 100%
z Đánh chỉ số nghĩa (vd synset number) có độ cx IR = 62% 
z Đánh chỉ số nghĩa của từ (vd canine1) có độ cx IR = 53.2%
z Đánh chỉ số từ gốc có độ cx IR = 48%
z Gonzalo et al. cho thấy độ cx tối thiểu 90% với WSD cho 
IR là quá cao. Gần 60% từ giả không hoạt động giông như 
từ có nhập nhằng thật. 
37

File đính kèm:

  • pdfbai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf