Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 3: Gán nhãn từ loại - Lê Thanh Hương

Định nghĩa

z Gán nhãn từ loại (Part of Speech tagging - POS

tagging): mỗi từ trong câu được gán nhãn thẻ từ loại

tương ứng của nó

z Vào : 1 đoạn văn bản đã tách từ + tập nhãn

z Ra: cách gán nhãn chính xác nhất

2

Ví dụ 1

Ví dụ 2

Ví dụ 3

Ví dụ 4

Ví dụ 5

¾ Gán nhãn làm cho việc phân tích văn bản dễ dàng hơn

pdf 13 trang phuongnguyen 12540
Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 3: Gán nhãn từ loại - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 3: Gán nhãn từ loại - Lê Thanh Hương

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 3: Gán nhãn từ loại - Lê Thanh Hương
Gán nhãn từ loại
Lê Thanh Hương
1
Bộ môn Hệ thống Thông tin
Viện CNTT &TT – Trường ĐHBKHN
Email: huonglt-fit@mail.hut.edu.vn
Định nghĩa
z Gán nhãn từ loại (Part of Speech tagging - POS 
tagging): mỗi từ trong câu được gán nhãn thẻ từ loại 
tương ứng của nó
z Vào : 1 đoạn văn bản đã tách từ + tập nhãn
z Ra: cách gán nhãn chính xác nhất
2
Ví dụ 1
Ví dụ 2
Ví dụ 3
Ví dụ 4
Ví dụ 5
¾ Gán nhãn làm cho việc phân tích văn bản dễ dàng hơn
Tại sao cần gán nhãn?
z Dễ thực hiện: có thể thực hiện bằng nhiều phương pháp 
khác nhau
z Các phương pháp sử dụng ngữ cảnh có thể đem lại 
kết quả tốt
Mặ dù ê th hiệ bằ hâ tí h ă bả
3
z c n n ực n ng p n c v n n
z Các ứng dụng:
z Text-to-speech: record - N: [‘reko:d], V: [ri’ko:d]; lead –
N [led], V: [li:d]
z Tiền xử lý cho PTCP. PTCP thực hiện việc gán nhãn 
tốt hơn nhưng đắt hơn
z Nhận dạng tiếng nói, PTCP, tìm kiếm, v.v
z Dễ đánh giá (có bao nhiêu thẻ được gán nhãn đúng?)
Tập từ loại tiếng Anh
z Lớp đóng (các từ chức năng): số lượng cố định
z Giới từ (Prepositions): on, under, over,
z Tiểu từ (Particles): abroad, about, around, before, in, 
instead, since, without,
4
z Mạo từ (Articles): a, an, the
z Liên từ (Conjunctions): and, or, but, that,
z Đại từ (Pronouns): you, me, I, your, what, who,
z Trợ động từ (Auxiliary verbs): can, will, may, should,
z Lớp mở: có thể có thêm từ mới
Lớp từ mở trong tiếng Anh
open class
verbs
Proper nouns: IBM, Colorado
nouns
common nouns
count nouns: book, ticket
mass nouns: snow, salt
auxiliaries
Color: red, white
. . .
5
adverbs
adjectives Age: old, young
Value: good, bad
Degree adverbs: extremely, very, somewhat
Manner adverbs: slowly, delicately
Temporal adverbs: yesterday, Monday
Locatives adverbs: home, here, downhill
Tập nhãn cho tiếng Anh
z tập ngữ liệu Brown: 87 nhãn
z 3 tập thường được sử dụng:
¾ Nhỏ: 45 nhãn - Penn treebank (slide sau)
6
¾ Trung bình: 61 nhãn, British national corpus
¾ Lớn: 146 nhãn, C7
7I know that blocks the sun.
He always books the violin concert tickets early.
He says that book is interesting.
Penn Treebank – ví dụ
z The grand jury commented on a number of 
other topics.
8
Ö The/DT grand/JJ jury/NN commented/VBD
on/IN a/DT number/NN of/IN other/JJ 
topics/NNS ./.
Khó khăn trong gán nhãn từ 
loại?
 là xử lý nhập nhằng
9
Các phương pháp gán nhãn từ 
loại
z Dựa trên xác suất: dựa trên xác suất lớn 
nhất, dựa trên mô hình Markov ẩn (hidden 
markov model – HMM)
Pr (Det N) > Pr (Det Det)
10
 - -
z Dựa trên luật
If 
Then  
Các cách tiếp cận
z Sử dụng HMM : “Sử dụng tất cả thông tin đã 
có và đoán”
z Dựa trên ràng buộc ngữ pháp: “không 
11
đoán, chỉ loại trừ những khả năng sai”
z Dựa trên chuyển đổi: “Đoán trước, sau đó 
có thể thay đổi”
Gán nhãn dựa trên xác suất
Cho câu hoặc 1 xâu các từ, gán nhãn từ loại 
thường xảy ra nhất cho các từ trong xâu đó.
Cách thực hiện:
12
z Hidden Markov model (HMM): 
Chọn thẻ từ loại làm tối đa xác suất:
P(từ|từ loại)•P(từ loại| n từ loại phía trước)
The/DT grand/JJ jury/NN commented/VBD on/IN a/DT
number/NN of/IN other/JJ topics/NNS ./.
⇒ P(jury|NN) = 1/2
Ví dụ -HMMs
13
Thực hiện học có giám sát, sau đó suy diễn để xác 
định thẻ từ loại
Gán nhãn HMM
z Công thức Bigram HMM: chọn ti cho wi có nhiều 
khả năng nhất khi biết ti-1 và wi :
ti = argmaxj P(tj | ti-1 , wi) (1)
z Giả thiết đơn giản hóa HMM: vấn đề gán nhãn
14
có thể giải quyết bằng cách dựa trên các từ và 
thẻ từ loại bên cạnh nó
ti = argmaxj P(tj | tj-1 )P(wi | tj ) (2)
xs chuỗi thẻ
(các thẻ đồng xuất hiện)
xs từ thường xuất hiện với thẻ tj
Ví dụ
1. Secretariat/NNP is/VBZ expected/VBN to/TO race/VB
tomorrow/NN
2. People/NNS continue/VBP to/TO inquire/VB the/DT
reason/NN for/IN the/DT race/NN for/IN outer/JJ
15
space/NN
z Không thể đánh giá bằng cách chỉ đếm từ trong tập ngữ 
liệu (và chuẩn hóa)
z Muốn 1 động từ theo sau TO nhiều hơn 1 danh từ (to 
race, to walk). Nhưng 1 danh từ cũng có thể theo sau 
TO (run to school)
Giả sử chúng ta có tất cả các từ 
loại trừ từ race
z Chỉ nhìn vào từ đứng trước(bigram):
to/TO race/??? NN or VB?
the/DT race/???
I/PP know/VBP that/WDT block/NN blocks/NNS?VBZ? the/DT 
sun/NN.
16
z Áp dụng (2):
z Chọn thẻ có xác suất lớn hơn giữa 2 xác suất:
P(VB|TO)P(race|VB) hoặc P(NN|TO)P(race|NN)
xác suất của 1 từ là race khi biết từ loại là VB. 
ti = argmaxj P(tj | tj-1 )P(wi | tj )
Tính xác suất
Xét P(VB|TO) và P(NN|TO)
z Từ tập ngữ liệu Brown
P(NN|TO)= .021
P(VB|TO)= .340
17
P(race|NN)= 0.00041
P(race|VB)= 0.00003
z P(VB|TO)P(race|VB) = 0.00001
z P(NN|TO)P (race|NN) = 0.000007 
¾ race cần phải là động từ nếu đi sau “TO”
Bài tập
z I know that blocks the sun.
z He always books the violin concert tickets early.
z He says that book is interesting.
z I/PP know/VBP that/WDT blocks/VBZ the/DT sun/NN. 
18
z He/PP always/RB books/VBZ the/DT violin/NN 
concert/NN tickets/NNS early/RB.
z I know that block blocks the sun.
z I/PP know/VBP that/DT block/NN blocks/NNS?VBZ?
the/DT sun/NN.
z He/PP says/VBZ that/WDT book/NN is/VBZ 
interesting/JJ.
Mô hình đầy đủ
z Chúng ta cần tìm chuỗi thẻ tốt nhất cho toàn xâu
z Cho xâu từ W, cần tính chuỗi từ loại có xác suất lớn 
nhất
T=t1, t2 ,, tn hoặc,
19
(nguyên lý Bayes)
ˆ arg max ( | )
T
T P T W
τ∈
=
Mở rộng sử dụng luật chuỗi
P(A,B) = P(A|B)P(B) = P(B|A)P(A)
P(A,B,C) = P(B,C|A)P(A) = P(C|A,B)P(B|A)P(A) 
= P(A)P(B|A)P(C|A,B)
20
P(A,B,C,D) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..)
1 1 1 1 1 1 1 1
1
( ) ( | ) ( | ... ) ( | ... )
n
i i i i i i i
i
P T P W T P w w t w t t P t w t w t− − − −
=
=∏
lịch sử nhãnpr từ
Giả thiết trigram
z Xác suất 1 từ chỉ phụ thuộc vào nhãn của nó
1 1 1( | ... ) ( | )i i i i iP w w t t t P w t=
21
z Ta lấy lịch sử nhãn thông qua 2 nhãn gần 
nhất (trigram: 2 nhãn gần nhất + nhãn hiện 
tại)
−
1 1 1 2 1( | ... ) ( | )i i i i iP t w t t P t t t− − −=
Thay vào công thức
n n
P(T)P(W|T) = 
22
1 2 1 2 1
3 1
( ) ( | ) ( | )[ ( | )]i i i i i
i i
P t P t t P t t t P w t− −
= =
∏ ∏
Đánh giá xác suất
z Sử dụng quan hệ xác suất từ tập ngữ liệu để 
đánh giá xác suất:
2 1( )( | ) i i ic t t tP t t t − −
23
1 2
2 1( )
i i i
i ic t t
− −
− −
=
( , )( | )
( )
i i
i i
i
c w tP w t
c t
=
Bài toán
Cần giải quyết
ˆ arg max ( ) ( | )T P T P W T=
24
Bây giờ ta có thể tính được tất cả các tích 
P(T)P(W|T)
T τ∈
Ví dụ
NNS
DT
NNS
NNS
25
the dog
VB
saw
VBP
ice-cream
Tìm đường đi tốt nhất?
Tìm đường đi có điểm cao 
nhất
NNS NNS
75
30
NNS1
1 2 1 2 1
3 1
( ) ( | ) ( | )[ ( | )]
n n
i i i i i
i i
P t P t t P t t t P w t− −
= =
∏ ∏
26
the dog
VB
DT
saw
VBP
ice-cream
1
6030
1 52
Cách tìm đường đi có điểm 
cao nhất
z Sử dụng tìm kiếm kiểu best-first (A*)
1. Tại mỗi bước, chọn k giá trị tốt nhất ( ) . Mỗi giá 
trị trong k giá trị này ứng với 1 khả năng kết hợp 
nhãn của tất cả các từ
ế ấ
27
2. Khi gán từ ti p theo, tính lại xác su t. Quay lại 
bước 1
z Ưu: nhanh (không cần kiểm tra tất cả các khả năng 
kết hợp, chỉ k cái tiềm năng nhất)
z Nhược: có thể không trả về kết quả tốt nhất mà chỉ 
chấp nhận được
Độ chính xác
z > 96%
z Cách đơn giản nhất? 90%
z Gán mỗi từ với từ loại thường xuyên nhất của 
nó
28
z Gán từ chưa biết = danh từ
z Người: 97%+/- 3%; nếu có thảo luận: 100%
Cách tiếp cận thứ 2: gán nhãn 
dựa trên chuyển đổi
Transformation-based Learning (TBL):
z Kết hợp cách tiếp cận dựa trên luật và cách tiếp 
ậ á ất ử d h á để hỉ h l i thẻ
29
c n x c su : s ụng ọc m y c n ạ 
thông qua vài lần duyệt
z Gán nhãn sử dụng tập luật tổng quát nhất, sau đó 
đến tập luật hẹp hơn, thay đổi một số nhãn, và tiếp 
tục
Transformation-based painting
30
Transformation-based painting
31
Transformation-based painting
32
Transformation-based painting
33
Transformation-based painting
34
Transformation-based painting
35
Transformation-based painting
36
Ví dụ với TBL
37
Ví dụ với TBL
1. Gán mọi từ với nhãn thường xuất hiện nhất 
(thường độ chính xác khoảng 90% ). Từ tập ngữ 
liệu Brown:
P(NN|race)= 0.98
38
P(VB|race)= 0.02
2. expected/VBZ to/ TO race/NN tomorrow/NN
the/DT race/NN for/IN outer/JJ space/NN
3. Sử dụng luật chuyển đổi:
Thay NN bằng VB khi thẻ trước đó là TO
pos: ‘NN’>’VB’ ← pos: ‘TO’ @[-1] o
 VB
Luật gán nhãn từ loại
39
Luật gán nhãn từ loại
40
Học luật TB trong hệ thống TBL
41
Các tập ngữ liệu
z Tập huấn luyện
w0 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10
z Tập ngữ liệu hiện tại (CC 1)
42
dt vb nn dt vb kn dt vb ab dt vb
z Tập ngữ liệu tham khảo
dt nn vb dt nn kn dt jj kn dt nn
Khuôn dạng cho luật gán nhãn 
từ loại
z Trong TBL, chỉ các luật thỏa khuôn dạng mới được 
học.
z Ví dụ: các luật
tag:'VB'>'NN' ← tag:'DT'@[-1].
43
tag:’NN’>’VB' ← tag:'DT'@[-1].
thỏa khuôn dạng
tag:A>B ← tag:C@[-1].
z Có thể tạo khuôn dạng sử dụng các biến vô danh
tag:_>_ ← tag:_@[-1].
Học luật TB trong hệ thống 
TBL
44
Điểm, độ chính xác, ngưỡng
z Điểm của 1 luật:
score(R) = |pos(R)| - |neg(R)|
z Độ chính xác: 
45
z Threshold: ngưỡng mà độ chính xác của 1 luật cần 
vượt qua để có thể được lựa chọn.
z Trong TBL, ngưỡng của độ chính xác thường < 0.5.
Sinh và tính điểm cho luật ứng 
viên 1
z Template = tag:_>_ ← tag:_@[-1]
z R1 = tag:vb>nn ← tag:dt@[-1]
46
z pos(R1) = 3
z neg(R1) = 1
z score(R1) = pos(R1) - neg(R1) = 3-1 = 2
Sinh và tính điểm cho luật ứng 
viên 2
z Template = tag:_>_ ← tag:_@[-1]
z R2 = tag:nn>vb ← tag:vb@[-1]
47
z pos(R2) = 1
z neg(R2) = 0
z score(R2) = pos(R2) - neg(R2) = 1-0 = 1
Học luật TB trong hệ thống TBL
48
Chọn luật tốt nhất
z Thứ hạng hiện tại của luật ứng viên
R1 = tag:vb>nn ← tag:dt@[-1] Score = 2
R2 = tag:nn>vb ← tag:vb@[-1] Score = 1
49
z Nếu score threshold =< 2 thì chọn R1
z ngược lại nếu score threshold > 2, dừng
Tối ưu hóa việc chọn luật tốt 
nhất
z Giảm dư thừa luật:chỉ sinh các luật ứng viên 
phù hợp ít nhất với 1 dữ liệu trong tập luyện.
z Đánh giá tăng cường:
50
z Lưu vết của các luật ứng viên tốt nhất
z Bỏ qua các luật phù hợp với số lượng mẫu < 
score của luật tốt nhất
Tìm kiếm tham lam kiểu Best-
First
Hàm giá
h(n) = giá ước lượng của đường đi rẻ nhất từ trạng 
thái của nút n đến trạng thái đích
51
Ưu điểm của TBL
z Luật có thể được tạo thủ công
z Luật dễ hiểu và logic
52
z Dễ cài đặt
z Có thể chạy rất nhanh (nhưng cài đặt thì phức 
tạp)
Phân tích lỗi: khó khăn đối với 
bộ gán nhãn từ loại
Các lỗi thông thường (> 4%)
z NN (common noun) vs .NNP (proper noun) vs. JJ 
(adjective): khó phân biệt, sự phân biệt này là quan 
53
trọng đặc biệt trong trích rút thông tin
z RP(particle) vs. RB(adverb) vs. IN(preposition):tất cả 
các loại này có thể xuất hiện tuần tự sau động từ
z VBD vs. VBN vs. JJ: phân biệt thời quá khứ, phân từ 
2, tính từ (raced vs. was raced vs. the out raced 
horse) 
Cách tốt nhất phát hiện các từ 
chưa biết
z Dựa trên 3 dạng đuôi biến tố (-ed, -s, -ing); 
32 đuôi phái sinh (-ion, etc.); chữ hoa; gạch 
nối
54
z Tổng quát hơn:
z Phân tích hình thái từ
z Các cách tiếp cận học máy
Gán nhãn từ loại tiếng Việt
Câu tiếng 
Việt đã tách 
từ 
Qua những lần từ Sài_Gòn về Quảng_Ngãi kiểm_tra 
công_việc , Sophie và Jane thường trò_chuyện với 
Mai , cảm_nhận ngọn_lửa_sống và niềm_tin 
mãnh_liệt từ người phụ_nữ VN này . 
Câu tiếng 
Việt đã
Qua những lần từ Sài_Gòn về Quảng_Ngãi kiểm_tra 
công việc Sophie và Jane thường trò chuyện với 
được gán 
nhãn từ loại
_ , _ 
Mai , cảm_nhận ngọn_lửa_sống và niềm_tin 
mãnh_liệt từ người phụ_nữ VN này . 
Chú thích 
từ loại
55
Các bước thực hiện
z Tách từ
z Gán nhãn tiên nghiệm (gán mỗi từ với tất cả các nhãn từ loại mà 
nó có thể có). 
z Với một từ mới, dùng một nhãn ngầm định hoặc gắn cho nó tập 
tất cả các nhãn. Với ngôn ngữ biến đổi hình thái Æ dựa vào hình 
thái từ 
z Quyết định kết quả gán nhãn (loại bỏ nhập nhằng)
z dựa vào quy tắc ngữ pháp
z dựa vào xác suất
z sử dụng mạng nơ-ron 
z các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc 
ngữ pháp
z gán nhãn nhiều tầng
56
Dữ liệu phục vụ gán nhãn
z Ngữ liệu: 
z Từ điển từ vựng
z Kho văn bản đã gán nhãn, có thể kèm theo các quy 
tắc ngữ pháp xây dựng bằng tay
z Kho văn bản chưa gán nhãn, có kèm theo các thông 
tin ngôn ngữ như là tập từ loại
z Kho văn bản chưa gán nhãn, với tập từ loại được xây 
dựng tự động nhờ các tính toán thống kê 
57
Khó khăn trong gán nhãn từ 
loại tiếng Việt
z đặc trưng riêng về ngôn ngữ
z thiếu các kho dữ liệu chuẩn như Brown hay 
Penn Treebank 
khó khă t đá h iá kết ả¾ n rong n g qu
58
Cách tiếp cận 1
[Đinh Điền] Dien Dinh and Kiem Hoang, POS-tagger for English-
Vietnamese bilingual corpus. HLTNAACL Workshop on Building and 
using parallel texts: data driven machine translation and beyond, 
2003.
z chuyển đổi và ánh xạ từ thông tin từ loại từ tiếng 
Anh do
z gán nhãn từ loại trong tiếng Anh đã đạt độ chính xác 
cao ( >97%) 
z những thành công gần đây của các phương pháp 
gióng hàng từ (word alignment methods) giữa các cặp 
ngôn ngữ. 
59
[Đinh Điền]
z Xây dựng một tập ngữ liệu song ngữ Anh – Việt ~ 5 triệu 
từ (cả Anh lẫn Việt). 
z gán nhãn từ loại cho tiếng Anh dựa trên Transformation-
based Learning – TBL [Brill 1995] 
z gióng hàng giữa hai ngôn ngữ (độ chính xác khoảng 
87%) để chuyển nhãn từ loại sang tiếng Việt. 
z kết quả được hiệu chỉnh bằng tay để làm dữ liệu huấn 
luyện cho bộ gán nhãn từ loại tiếng Việt. 
60
[Đinh Điền]
z Ưu điểm: 
z tránh được việc gán nhãn từ loại bằng tay nhờ tận 
dụng thông tin từ loại ở một ngôn ngữ khác. 
z Nhược:
z Tiếng Anh và tiếng Việt khác nhau: về cấu tạo từ, trật 
tự và chức năng ngữ pháp của từ trong câu Æ khó 
khăn trong gióng hàng
z Lỗi tích lũy qua hai giai đoạn: (a) gán nhãn từ loại cho 
tiếng Anh và (b) gióng hàng giữa hai ngôn ngữ
z Tập nhãn được chuyển đổi trực tiếp từ tiếng Anh 
sang tiếng Việt không điển hình cho từ loại tiếng Việt
61
Cách tiếp cận 2
z [Nguyen Huyen, Vu Luong] Thi Minh Huyen Nguyen, Laurent 
Romary, and Xuan Luong Vu, A Case Study in POS Tagging of 
Vietnamese Texts. The 10th annual conference TALN 2003.
z dựa trên nền tảng và tính chất ngôn ngữ của tiếng Việt. 
z xây dựng tập từ loại (tagset) cho tiếng Việt dựa trên 
chuẩn mô tả khá tổng quát của các ngôn ngữ Tây Âu, 
nhằm mô đun hóa tập nhãn ở hai mức: 
z mức cơ bản/cốt lõi (kernel layer): đặc tả chung nhất cho các 
ngôn ngữ 
z mức tính chất riêng (private layer): mở rộng và chi tiết hóa cho 
một ngôn ngữ cụ thể dựa trên tính chất của ngôn ngữ đó 
62
[Nguyen Huyen, Vu Luong] 
z mức cơ bản: danh từ (noun – N), động từ (verb – V), 
tính từ (adjective – A), đại từ (pronoun – P), mạo từ 
(determine – D), trạng từ (adverb – R), tiền-hậu giới 
từ (adposition – S), liên từ (conjunction – C), số từ 
(numeral M) tình thái từ (interjection I) và từ – , – , 
ngoại Việt (residual – X, như foreign words, ...). 
z mức tính chất riêng: được triển khai tùy theo các dạng 
từ loại trên như danh từ đếm được/không đếm được 
đối với danh từ, giống đực/cái đối với đại từ, .v.v. 
63
Cách tiếp cận 3
z [Phuong] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê 
Hồng Phương . Sử dụng bộ gán nhãn từ loại xác suất 
QTAG cho văn bản tiếng Việt. Kỷ yếu Hội thảo 
ICT.rda’03 
ử ổz làm việc trên một c a s chứa 3 từ, sau 
khi đã bổ sung thêm 2 từ giả ở đầu và 
cuối văn bản. 
z Nhãn được gán cho mỗi từ đã lọt ra ngoài 
cửa sổ là nhãn kết quả cuối cùng.
64
Thủ tục gán nhãn từ loại 
[Phương]
1. Đọc từ (token) tiếp theo 
2. Tìm từ đó trong từ điển 
3. Nếu không tìm thấy, gán cho từ đó tất cả các nhãn có thể 
4. Với mỗi nhãn có thể 
a. tính Pw = P(tag|token)
b. tính Pc = P(tag|t1,t2), t1, t2, là nhãn tương ứng của hai từ 
đứng trước từ token. 
c. tính Pw,c = Pw * Pc, kết hợp hai xác suất trên. 
5. Lặp lại phép tính cho hai nhãn khác trong cửa sổ 
Sau mỗi lần tính lại (3 lần cho mỗi từ), các xác suất kết quả 
được kết hợp để cho ra xác suất toàn thể của nhãn được gán 
cho từ. 
65
[Phương]
z Chia kho văn bản đã gán nhãn làm 2 tập: tập huấn luyện 
và tập thử nghiệm
z Tự động gán nhãn cho các phần văn bản
z So sánh kết quả thu được với dữ liệu mẫu. 
z Thời gian huấn luyện với 32000 từ: ~ 30s
66
[Phương]
z Câu đã gán nhãn: 
 hồi lên sáu 
 , có lần 
 tôi đã 
nhìn thấy một <w 
"Nt" bứ / "N " t h / "Jd" t ệtpos= > c ran uy 
 đẹp 
Nc - danh từ đơn thể, Vto - ngoại động từ chỉ hướng, Nn - danh từ số 
lượng, Vs - động từ tồn tại, Nu - danh từ đơn vị, Pp - đại từ nhân 
xưng, Jt - phụ từ thời gian, Vt - ngoại động từ, Nt - danh từ loại thể, 
Jd - phụ từ chỉ mức độ, Aa - tính từ hàm chất. 
67
[Phương]
z Câu từ tập ngữ liệu mẫu
 hồi lên sáu 
 , có lần 
 tôi đã 
nhìn thấy một <w 
"Nt" bứ / "N " t h / "Jd" t ệtpos= > c ran uy 
 đẹp 
Câu do chương trình gán nhãn
 hồi lên 
sáu , có 
lần tôi đã <w 
pos="Vt"> nhìn thấy một 
 bức tranh <w 
pos="Jd"> tuyệt đẹp 
68
[Phương]
z Kết quả: 
z ~94% (9 nhãn từ vựng và 10 nhãn cho các loại kí 
hiệu)
z ~85% (48 nhãn từ vựng và 10 nhãn cho các loại 
kí hiệu)
z Nếu không dùng đến từ điển từ vựng (chỉ sử 
dụng kho văn bản đã gán nhãn mẫu) thì các 
kết quả chỉ đạt được tương ứng là ~80% và 
~60%. 
69
Cách tiếp cận 4
z Phan Xuân Hiếu: 
z dựa trên phương pháp Maximum Entropy (MaxEnt) và 
Conditional Random Fields (CRFs) - ứng dụng rất nhiều 
cho các bài toán gán nhãn cho các thành phần trong dữ 
liệu chuỗi . 
z Dữ liệu huấn luyện: là tập ngữ liệu Viet Treebank bao 
gồm hơn 10.000 câu tiếng Việt được gán nhãn từ loại 
bởi các chuyên gia ngôn ngữ. 
70
[Hiếu]
Học mô hình gán nhãn từ loại 
71
Trích chọn đặc trưng
z ... thường trò_chuyện với Mai ... 
z Cần xác định từ loại cho từ “trò_chuyện”, các đặc trưng:
z Chính bản thân từ “trò_chuyện” thường xuất hiện với từ loại nào 
trong tập dữ liệu Viet Treebank? 
Từ “trò chuyện” thường có nhãn từ loại là gì trong từ điển? Làz _ 
động từ chăng? 
z Từ thường đi ngay trước từ “trò_chuyện” thường có gợi ý gì? 
z Từ với đi sau từ “trò_chuyện” có gợi ý gì? Có phải nó gợi ý là 
ngay trước nó là một động từ hay không? 
z Kết hợp của hai từ “với Mai” gợi ý điều gì, chắc từ trước đó 
(“trò_chuyện”) nên là một động từ? 
72
Ngữ cảnh cho trích xuất đặc 
trưng
73
Ngữ cảnh cho trích xuất đặc 
trưng
74
Kết quả gán nhãn sử dụng 
MaxEnt và CRFs
75
Tập từ loại tiếng Việt
idPOS symbolPOS vnPOS enPOS
1 N danh từ noun
2 V động từ verb
3 A tính từ adjective
4 M số từ numeral
5 P đại từ pronoun
6 R phụ từ adverb 
7 O giới từ preposition
8 C liên từ conjunction
9 I trợ từ auxiliary word
10 E cảm từ emotivity word
11 Xy* từ tắt abbreviation
12 S yếu tố từ (bất, vô) component stem
13 U không xác định undetermined
76
•Từ tắt mang nhãn kép: X = từ loại của từ tắt ; 
•y = kí hiệu từ tắt. Ví dụ: GDP-Ny ; HIV – Ny.
Tập tiểu từ loại tiếng Việt
idPOS idSub
POS
symbol
POS
vnPOS enPOS
1 1 Np danh từ riêng proper noun
1 2 Nc danh từ đơn thể countable noun
1 3 Ng danh từ tổng thể collective Noun
1 4 Na danh từ trừu tượng abstract noun
1 5 Ns danh từ chỉ loại classifier noun
1 6 Nu danh từ đơn vị unit noun
77
1 7 Nq danh từ chỉ lượng quantity noun
2 8 Vi động từ nội động intransitive verb
2 9 Vt động từ ngoại động transitive verb
2 10 Vs động từ trạng thái state verb
2 11 Vm động từ tình thái modal verb
2 12 Vr động từ quan hệ relative verb
3 13 Ap tính từ tính chất property adjective
3 14 Ar tính từ quan hệ relative adjective
3 15 Ao tính từ tượng thanh onomatopoetic adjective
3 16 Ai tính từ tượng hình pictographic adjective
Tập tiểu từ loại tiếng Việt
idPOS idSub
POS
symbol
POS
vnPOS enPOS
4 17 Mc số từ số lượng cardinal numeral
4 18 Mo số từ thứ tự ordinal numeral
5 19 Pp đại từ xưng hô personal pronoun
5 20 Pd đại từ chỉ định demonstrative pronoun
5 21 Pq đại từ số lượng quality pronoun
78
5 22 Pi đại từ nghi vấn interrogative pronoun
6 23 R phụ từ adverb
7 24 O giới từ preposition
8 25 C liên từ conjunction
9 26 I trợ từ auxiliary word
10 27 E cảm từ emotivity word
11 28 Xy từ tắt abbreviation
12 29 S yếu tố từ (bất, vô) component stem
13 30 U không xác định undetermined

File đính kèm:

  • pdfbai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf