Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 1: Giới thiệu chung - Lê Thanh Hương

Mục đích môn học

z Hiểu các nguyên tắc cơ bản và các cách tiếp cận trong XLNNTN

z Học các kỹ thuật và cô g c ng cụ có thể dù g ng để p á hát triển các hệ thống

hiểu văn bản hoặc nói chuyện với con người

z Thu được một số ý tưởng về các vấn đề mở trong XLNN

pdf 13 trang phuongnguyen 8860
Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 1: Giới thiệu chung - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 1: Giới thiệu chung - Lê Thanh Hương

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 1: Giới thiệu chung - Lê Thanh Hương
1Xử lý ngôn ngữ tự nhiên
(Natural Language Processing) 
Lê Thanh Hương
Bộ môn Hệ thống Thông tin
Viện CNTT &TT – Trường ĐHBKHN
Email: huonglt-fit@mail hut edu vn
1
 . . .
Mục đích môn học
z Hiểu các nguyên tắc cơ bản và các cách tiếp cận trong XLNNTN
z Học các kỹ thuật và công cụ có thể dùng để phát triển các hệ thống 
hiểu văn bản hoặc nói chuyện với con người 
z Thu được một số ý tưởng về các vấn đề mở trong XLNN
Tài liệu tham khảo
z Christopher Manning and Hinrich Schütze. 1999. Foundations of 
Statistical Natural Language Processing. The MIT Press. 
z Dan Jurafsky and James Martin 2000 Speech and Language
2
 . . 
Processing. PrenticeHall.
z James Allen. 1994. Natural Language Understanding. The 
Benjamins/Cummings Publishing Company Inc. 
Thông tin chung
z Đánh giá
z Giữa kỳ: 30%
z Điểm danh:10% 
z Đóng góp trong giờ học:10%
z BTL: 10%
z Cuối kỳ: thi viết 70%
z Điều kiện được thi cuối kỳ: 
z Vắng mặt ít hơn 30% số lần điểm danh 
z Có tất cả các loại điểm giữa kỳ
3
z Bài tập lớn: 
z Viết tiểu luận hoặc cài đặt chương trình theo nhóm (<= 4sv)
z Bảo vệ kết quả trong 2 tuần cuối của học kỳ
z Website: 
z 
Xử lý NNTN là gì?
Âm thanh Ý nghĩa
4
2Xử lý NNTN = chuyển đổi âm 
thanh thành ngữ nghĩa
5
NNTN là trung tâm của trí tuệ con người
Xử lý NNTN là gì?
6
z Mục đích: hiểu được nhiều ngôn ngữ
z Không chỉ đơn giản là xử lý xâu hoặc so khớp từ khoá
ELIZA
z 
z 
ogaff/eliza/
7
Nói chuyện với Eliza
z E: how are you today?
z H: not so good
z E: why do you say not so good?
z H: i suffer from allergies?
z E: that’s interesting
z H: i come out in spots
z E: i’m not sure i know what you’re talking about
z H: spots on my face
z E: your face
8
z H: that’s right
z E: is it really that right?
3Nói chuyện với Eliza
z H: you’re a program, aren’t you?
z E: does it please you to believe i am a program, am not i?
z H: it sure does 
z E: i see
z H: yup
z E: a while back you talk about your face
z H: what about your face?
z E: what is it you really want to know?
z H: are you my kind of girl?
9
z E: perhaps in your fantasies i am your kind of girl
z H: in my fantasies you are blonde
Nói chuyện với Eliza
z E: what makes you think i am blonde?
H i d ’t kz : on now
z E: don’t you really know?
z H: no
z E: are you saying no just to be negative?
z H: no
10
z E: you are being a bit negative
z H: no i’m not
z E: how long have you been not?
Tại sao nghiên cứu XLNNTN
z Nghiên cứu cách con người xác định từ
z Nghiên cứu cách con người phân tích câu
z Nghiên cứu cách con người học một ngôn 
ngữ
z Nghiên cứu cách ngôn ngữ tiến hóa
11
Các chủ đề trong XLNNTN
z Mức phân tích: cú pháp, ngữ nghĩa, diễn ngôn, thực 
chứng, 
z Các bài toán con: gán nhãn từ loại, PTCP, phân giải 
nhập nhằng từ, phânt ích cấu trúc diễn ngôn, 
z Thuật toán và phương pháp: dựa trên tập ngữ liệu, 
dựa trên tri thức, 
12
z Các ứng dụng: trích rút thông tin, phản hồi thông tin, 
dịch máy, hỏi đáp, hiểu ngôn ngữ tự nhiên, 
4Các mức phân tích
z Morphology (hình thái học): cách từ được xây dựng, 
các tiền tố và hậu tố của từ 
z Syntax (cú pháp): mối liên hệ về cấu trúc ngữ pháp 
giữa các từ và ngữ
z Semantics (ngữ nghĩa): nghĩa của từ, cụm từ, và 
cách diễn đạt
z Discourse (diễn ngôn): quan hệ giữa các ý hoặc các 
câu
13
z Pragmatic (thực chứng): mục đích phát ngôn, cách 
sử dụng ngôn ngữ trong giao tiếp
z World Knowledge (tri thức thế giới): các tri thức về 
thế giới, các tri thức ngầm
Hình thái học
Tiếng Anh: ngôn ngữ biến hình, đa âm tiết
z kick kicks kicked kicking, , , 
z sit, sits, sat, sitting
z murder, murders
Nhưng không phải luôn thêm và xóa đuôi.
z gorge, gorgeous
z arm, army
rực rỡ
v: nhồi nhét; n: những cái đã ăn, hẻm núi
14
Tiếng Việt: ngôn ngữ không biến hình, đơn âm tiết Æ cần tách từ
Cánh tay Quân đội
Tách từ
z Một câu có thể có n khả năng tách từ, nhưng chỉ 1 
t hú là đúrong c ng ng
z Giải pháp đơn giản: lấy chuỗi âm tiết dài nhất bắt 
đầu từ vị trí hiện tại và có trong từ điển từ
z Vấn đề: chồng chéo từ
z Học sinh | học sinh | học.
z Học sinh | học | sinh học
15
 .
) Liệt kê tất cả các khả năng có thể và thiết kế một 
giải pháp để lựa chọn cái tốt nhất
Gán nhãn từ loại
The boy threw a ball to the brown dog.
z The/DT boy/NN threw/VBD a/DT ball/NN to/IN
the/DT brown/JJ dog/NN./.
DT – determiner từ chỉ định
NN – noun, danh từ, số ít hoặc số nhiều 
16
VBD – verb, past tense động từ, quá khứ
IN – preposition giới từ
JJ – adjective tính từ
. – dấu chấm câu
5Gán nhãn từ loại
Con ngựa đá con ngựa đá.
z Con ngựa/DT đá/ĐgT con ngựa/DT đá/TT.
z Ông/ĐaT già/TT đi/Phó_từ nhanh/TT 
quá/trạng_từ.
17
z Ông già/DT đi/ĐgT nhanh/TT quá/trạng_từ.
Ngữ pháp: nhập nhằng cấu 
trúc (từ loại)
Time flies like an arrow.
Time // flies like an arrow.
VBZ giới từ so sánh (IN)
18
Time flies // like an arrow.
NNS VBP
Ngữ pháp: nhập nhằng cấu 
trúc (từ loại)
Ông già // đi nhanh quá.
Ông // già đi nhanh quá.
19
Ngữ pháp: nhập nhằng cấu 
trúc (liên kết)
S
VP
NP
20
NP V NP PP PP 
I saw the man on the hill with a telescope.
6Ngữ pháp: nhập nhằng cấu trúc 
(liên kết)
S
VP
NP
21
NP V NP PP PP 
I saw the man on the hill with a telescope.
Ngữ pháp: nhập nhằng cấu trúc 
(liên kết)
S
VP
22
NP V NP PP PP 
I saw the man on the hill with a telescope.
Nhưng ngữ pháp không nói 
lên nhiều điều
z Colorless green ideas sleep furiously. 
[Chomsky]
z fire match arson hotel
z plastic cat food can cover
23
Ngữ nghĩa: nhập nhằng mức 
từ vựng
z I walked to the bank ...
f th io e r ver.
to get money.
z The bug in the room ...
was planted by spies.
flew out the window.
z I work for John Hancock
24
 ...
and he is a good boss.
which is a good company.
7Diễn ngôn: đồng tham chiếu
President John F. Kennedy was assassinated.
The president was shot yesterday.
Relatives said that John was a good father.
JFK was the youngest president in history.
His family will bury him tomorrow.
25
Friends of the Massachusetts native will hold a 
candlelight service in Mr. Kennedy’s home 
town.
Thực chứng
Bạn rút ra điều gì từ những điều tôi nói? Bạn 
hả ứ thế à ?p n ng n o
Luật hội thoại
z Bạn ơi mấy giờ rồi?
z Anh đưa cho em lọ muối được không? 
26
Nói kèm theo diễn tả
z Tôi cá với bạn 500.000 là đội Việt Nam sẽ 
thắng.
Tri thức thế giới
Mai đi ăn tối Cô ấy gọi món bít tết Cô ấy để lại . . 
tiền boa và về nhà.
z Mai ăn gì vào bữa tối? 
z Ai mang bữa tối đến cho Mai?
27
z Ai làm bít tết?
z Mai có trả tiền không?
Tri thức về ngôn ngữ: Chúng ta biết 
gì về câu này? 
z Các từ phải xuất hiện theo một trình tự nhất định:
a Chó kem ăn b Chó ăn kem. . . 
z Các bộ phận cấu thành câu:
chó = chủ ngữ (subject); ăn kem = vị ngữ (predicate)
z Ai làm gì cho ai: 
chủ thể(chó), hành động(ăn), đối tượng(kem)
28
8Các vấn đề khác? 
z Hai câu “Mai nói chó ăn kem” và “Mai phủ nhận chó ăn 
kem” không logic với nhau
z Câu và thế giới: biết 1 câu là đúng hay sai – có thể trong 
một vài trường hợp cụ thể nó đúng. 
z “Tôi uống cà phê espresso sáng nay, nhưng Mai thông 
29
minh” không hợp lý
Tri thức ẩn
1. I want to solve the problem
z I wanna solve the problem
2. I understand these students
z These students I understand
z I want these students to solve the problem
z These students I want [x] to solve the 
problem 
z [x]=these students 30
Đặc trưng của ngôn ngữ
z Một số có thể nhớ được:
z Singing → Sing+ing; Bringing → bring+ing
z Duckling → ?? Duckl +ing
z Cần phải biết duckl không phải là từ
31
z Nhưng không thể nhớ tất cả vì quá nhiều
Ngoài bộ nhớ, ta cần gì?
Số nhiều trong tiếng Anh:
z Toy+s -> toyz ; add z
z Book+s -> books ; add s
z Church+s -> churchiz ; add iz
z Box+s-> boxiz ; add iz
32
¾ Cần có hệ thống luật để sinh/xử lý các 
trường hợp này
9“Phân tích” = gắn bề ngoài với 
cách biểu diễn trong của nó
z Vì sao XLNNTN khó: What makes NLP hard: 
không có tương ứng 1-1 với bất kỳ cách biểu 
diễn nào.
z Ta cần biết cấu trúc dữ liệu và thuật toán để 
thực hiện, mặc dù có thể xảy ra bùng nổ tổ 
33
hợp ở bất cứ công đoạn xử lý nào
Phân tích câu hỏi 
LSAT / (former) GRE
z Sáu tượng điêu khắc – C, D, E, F, G, H – được triển lãm trong các 
phòng 1, 2, 3 của một triển lãm.
T C à E ó thể khô t ù hòz ượng v c ng rong c ng p ng.
z Tượng D và G phỉa trong một phòng.
z Nếu tượng E và F trong cùng phòng thì không có tượng nào khác 
trong phòng đó
z Có íta nhất 1 tượng triển lãm trong một phòng, không có nhiều 
hơn 3 tượng trong bất cứ phòng nào
z Nếu tượng D được triển lãm trong phòng 3 và các tượng E, F trong 
34
phòng 1, trong các phát biểu dưới đây, phát biểu nào đúng:
A. Tượng C trong phòng 1
B. Tượng H trong phòng 1
C. Tượng G trong phòng 2
D. Tượng C và H trong cùng phòng 
E. Tượng G và F trong cùng phòng 
U: A Bug’s Life được chiếu tại chỗ nào của Mountain 
View?
Giải quyết đồng tham chiếu
S: A Bug’s Life được chiếu ở rạp Summit.
U: Khi nào nó được chiếu ở đó? 
S: Nó được chiếu lúc 2pm, 5pm, và 8pm.
U: Tôi muốn 1 người lớn, 2 trẻ con cho buổi chiếu đầu 
tiên. Nó giá bao nhiêu? 
ồ
35
z Các ngu n tri thức:
z Tri thức miền (Domain knowledge)
z Tri thức về diễn ngôn (Discourse knowledge)
z Tri thức thế giới (World knowledge)
Tại sao XLNNTN lại khó?
NNTN:
z Nhập nhằng tại mọi mức
z Phức tạp và mờ
z Liên quan lập luận về thế giới
36
10
Giải pháp
z Ta cần các công cụ nào?
z Tri thức về ngôn ngữ
z Tri thức về thế giới
z Cách kết hợp các tri thức
z Giải pháp tiềm năng:
Các mô hình xác suất xây dựng từ dữ liệu
37
z 
z P(“maison” → “house”) cao
z P(“L’avocat general” → “the general avocado”) thấp
Nhắc lại các bài toán trong 
XLNNTN
z Vào: chuỗi ký tự
z Ra: các cặp (gốc từ, thẻ hình thái từ )
z Các vấn đề:
z Kết hợp các thành phần cấu tạo nên từ
z Loại hình thái từ (từ biến tố, từ phái sinh, từ ghép) 
z Ví dụ: quotations ~ quote/V + -ation(der V->N) + . 
NNS.
38
Phân tích cú pháp
z Vào: chuỗi các cặp (từ/từ loại)
z Ra: cấu trúc ngữ pháp của câu với các nút 
được gán nhãn (từ, từ loại, vai trò ngữ pháp)
z Vấn đề: 
z Quan hệ giữa từ, từ loại, và cấu trúc câu
z Sử dụng nhãn cú pháp (Chủ ngữ vị ngữ bổ ngữ , , , 
.)
z Ví dụ: Tôi/ĐaT nhìn thấy/ĐgT Mai/DT
Æ ((Tôi/ĐaT)CN ((nhìn thấy/ĐgT) (Mai/DT)OBJ)VN)C
39
Ngữ nghĩa
z Vào: cấu trúc ngữ pháp của câu
z Ra: cấu trúc ngữ nghĩa của câu
z Vấn đề:
z Quan hệ giữa các đối tượng như chủ thể 
(Subject), đối tượng (Object), tác nhân (Agent), 
hậu quả (Effect) và các loại khác
((Học sinh/DT)CN ((học/ĐgT sinh học/DT)ĐgN)VN)C
(Học sinh/DT)Sbj (học/ĐgT)action (sinh học/DT)Obj
40
11
Các ứng dụng của XLNNTN
z Khó: xử lý tiếng nói (speech processing), 
dịch máy (machine translation) trích rút , 
thông tin (information extraction), giao diện 
hội thoại = NNTN (dialog interface), hỏi 
đáp (question answering)
z Ứng dụng hiện nay: sửa lỗi chính tả, phân 
loại văn bản,  
41
12
Trích rút thông tin
Martin Baker, a person
4646
Genomics job
Employers job posting form
Trích rút thông tin
October 14 2002 4:00 a m PT , , . . 
For years, Microsoft Corporation CEO Bill Gates
railed against the economic philosophy of open-
source software with Orwellian fervor, denouncing 
its communal licensing as a "cancer" that stifled 
technological innovation.
Today, Microsoft claims to "love" the open-source 
concept, by which software code is made public to 
encourage improvement and development by 
outside programmers. Gates himself says 
Microsoft will gladly disclose its crown jewels--the 
NAME TITLE ORGANIZATION
Bill Gates CEO Microsoft
Bill Veghte VP Microsoft
Richard Stallman founder Free Soft..
IE
47
coveted code behind the Windows operating 
system--to select customers.
"We can be open source. We love the concept of 
shared source," said Bill Veghte, a Microsoft VP. 
"That's a super-important shift for us in terms of 
code access.“
Richard Stallman, founder of the Free Software 
Foundation, countered saying
Newsinessence [Radev & al. 01]
13
49
Google News [02]

File đính kèm:

  • pdfbai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf