Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 1: Giới thiệu chung - Lê Thanh Hương
Mục đích môn học
z Hiểu các nguyên tắc cơ bản và các cách tiếp cận trong XLNNTN
z Học các kỹ thuật và cô g c ng cụ có thể dù g ng để p á hát triển các hệ thống
hiểu văn bản hoặc nói chuyện với con người
z Thu được một số ý tưởng về các vấn đề mở trong XLNN
Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 1: Giới thiệu chung - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Chương 1: Giới thiệu chung - Lê Thanh Hương
1Xử lý ngôn ngữ tự nhiên (Natural Language Processing) Lê Thanh Hương Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Email: huonglt-fit@mail hut edu vn 1 . . . Mục đích môn học z Hiểu các nguyên tắc cơ bản và các cách tiếp cận trong XLNNTN z Học các kỹ thuật và công cụ có thể dùng để phát triển các hệ thống hiểu văn bản hoặc nói chuyện với con người z Thu được một số ý tưởng về các vấn đề mở trong XLNN Tài liệu tham khảo z Christopher Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. The MIT Press. z Dan Jurafsky and James Martin 2000 Speech and Language 2 . . Processing. PrenticeHall. z James Allen. 1994. Natural Language Understanding. The Benjamins/Cummings Publishing Company Inc. Thông tin chung z Đánh giá z Giữa kỳ: 30% z Điểm danh:10% z Đóng góp trong giờ học:10% z BTL: 10% z Cuối kỳ: thi viết 70% z Điều kiện được thi cuối kỳ: z Vắng mặt ít hơn 30% số lần điểm danh z Có tất cả các loại điểm giữa kỳ 3 z Bài tập lớn: z Viết tiểu luận hoặc cài đặt chương trình theo nhóm (<= 4sv) z Bảo vệ kết quả trong 2 tuần cuối của học kỳ z Website: z Xử lý NNTN là gì? Âm thanh Ý nghĩa 4 2Xử lý NNTN = chuyển đổi âm thanh thành ngữ nghĩa 5 NNTN là trung tâm của trí tuệ con người Xử lý NNTN là gì? 6 z Mục đích: hiểu được nhiều ngôn ngữ z Không chỉ đơn giản là xử lý xâu hoặc so khớp từ khoá ELIZA z z ogaff/eliza/ 7 Nói chuyện với Eliza z E: how are you today? z H: not so good z E: why do you say not so good? z H: i suffer from allergies? z E: that’s interesting z H: i come out in spots z E: i’m not sure i know what you’re talking about z H: spots on my face z E: your face 8 z H: that’s right z E: is it really that right? 3Nói chuyện với Eliza z H: you’re a program, aren’t you? z E: does it please you to believe i am a program, am not i? z H: it sure does z E: i see z H: yup z E: a while back you talk about your face z H: what about your face? z E: what is it you really want to know? z H: are you my kind of girl? 9 z E: perhaps in your fantasies i am your kind of girl z H: in my fantasies you are blonde Nói chuyện với Eliza z E: what makes you think i am blonde? H i d ’t kz : on now z E: don’t you really know? z H: no z E: are you saying no just to be negative? z H: no 10 z E: you are being a bit negative z H: no i’m not z E: how long have you been not? Tại sao nghiên cứu XLNNTN z Nghiên cứu cách con người xác định từ z Nghiên cứu cách con người phân tích câu z Nghiên cứu cách con người học một ngôn ngữ z Nghiên cứu cách ngôn ngữ tiến hóa 11 Các chủ đề trong XLNNTN z Mức phân tích: cú pháp, ngữ nghĩa, diễn ngôn, thực chứng, z Các bài toán con: gán nhãn từ loại, PTCP, phân giải nhập nhằng từ, phânt ích cấu trúc diễn ngôn, z Thuật toán và phương pháp: dựa trên tập ngữ liệu, dựa trên tri thức, 12 z Các ứng dụng: trích rút thông tin, phản hồi thông tin, dịch máy, hỏi đáp, hiểu ngôn ngữ tự nhiên, 4Các mức phân tích z Morphology (hình thái học): cách từ được xây dựng, các tiền tố và hậu tố của từ z Syntax (cú pháp): mối liên hệ về cấu trúc ngữ pháp giữa các từ và ngữ z Semantics (ngữ nghĩa): nghĩa của từ, cụm từ, và cách diễn đạt z Discourse (diễn ngôn): quan hệ giữa các ý hoặc các câu 13 z Pragmatic (thực chứng): mục đích phát ngôn, cách sử dụng ngôn ngữ trong giao tiếp z World Knowledge (tri thức thế giới): các tri thức về thế giới, các tri thức ngầm Hình thái học Tiếng Anh: ngôn ngữ biến hình, đa âm tiết z kick kicks kicked kicking, , , z sit, sits, sat, sitting z murder, murders Nhưng không phải luôn thêm và xóa đuôi. z gorge, gorgeous z arm, army rực rỡ v: nhồi nhét; n: những cái đã ăn, hẻm núi 14 Tiếng Việt: ngôn ngữ không biến hình, đơn âm tiết Æ cần tách từ Cánh tay Quân đội Tách từ z Một câu có thể có n khả năng tách từ, nhưng chỉ 1 t hú là đúrong c ng ng z Giải pháp đơn giản: lấy chuỗi âm tiết dài nhất bắt đầu từ vị trí hiện tại và có trong từ điển từ z Vấn đề: chồng chéo từ z Học sinh | học sinh | học. z Học sinh | học | sinh học 15 . ) Liệt kê tất cả các khả năng có thể và thiết kế một giải pháp để lựa chọn cái tốt nhất Gán nhãn từ loại The boy threw a ball to the brown dog. z The/DT boy/NN threw/VBD a/DT ball/NN to/IN the/DT brown/JJ dog/NN./. DT – determiner từ chỉ định NN – noun, danh từ, số ít hoặc số nhiều 16 VBD – verb, past tense động từ, quá khứ IN – preposition giới từ JJ – adjective tính từ . – dấu chấm câu 5Gán nhãn từ loại Con ngựa đá con ngựa đá. z Con ngựa/DT đá/ĐgT con ngựa/DT đá/TT. z Ông/ĐaT già/TT đi/Phó_từ nhanh/TT quá/trạng_từ. 17 z Ông già/DT đi/ĐgT nhanh/TT quá/trạng_từ. Ngữ pháp: nhập nhằng cấu trúc (từ loại) Time flies like an arrow. Time // flies like an arrow. VBZ giới từ so sánh (IN) 18 Time flies // like an arrow. NNS VBP Ngữ pháp: nhập nhằng cấu trúc (từ loại) Ông già // đi nhanh quá. Ông // già đi nhanh quá. 19 Ngữ pháp: nhập nhằng cấu trúc (liên kết) S VP NP 20 NP V NP PP PP I saw the man on the hill with a telescope. 6Ngữ pháp: nhập nhằng cấu trúc (liên kết) S VP NP 21 NP V NP PP PP I saw the man on the hill with a telescope. Ngữ pháp: nhập nhằng cấu trúc (liên kết) S VP 22 NP V NP PP PP I saw the man on the hill with a telescope. Nhưng ngữ pháp không nói lên nhiều điều z Colorless green ideas sleep furiously. [Chomsky] z fire match arson hotel z plastic cat food can cover 23 Ngữ nghĩa: nhập nhằng mức từ vựng z I walked to the bank ... f th io e r ver. to get money. z The bug in the room ... was planted by spies. flew out the window. z I work for John Hancock 24 ... and he is a good boss. which is a good company. 7Diễn ngôn: đồng tham chiếu President John F. Kennedy was assassinated. The president was shot yesterday. Relatives said that John was a good father. JFK was the youngest president in history. His family will bury him tomorrow. 25 Friends of the Massachusetts native will hold a candlelight service in Mr. Kennedy’s home town. Thực chứng Bạn rút ra điều gì từ những điều tôi nói? Bạn hả ứ thế à ?p n ng n o Luật hội thoại z Bạn ơi mấy giờ rồi? z Anh đưa cho em lọ muối được không? 26 Nói kèm theo diễn tả z Tôi cá với bạn 500.000 là đội Việt Nam sẽ thắng. Tri thức thế giới Mai đi ăn tối Cô ấy gọi món bít tết Cô ấy để lại . . tiền boa và về nhà. z Mai ăn gì vào bữa tối? z Ai mang bữa tối đến cho Mai? 27 z Ai làm bít tết? z Mai có trả tiền không? Tri thức về ngôn ngữ: Chúng ta biết gì về câu này? z Các từ phải xuất hiện theo một trình tự nhất định: a Chó kem ăn b Chó ăn kem. . . z Các bộ phận cấu thành câu: chó = chủ ngữ (subject); ăn kem = vị ngữ (predicate) z Ai làm gì cho ai: chủ thể(chó), hành động(ăn), đối tượng(kem) 28 8Các vấn đề khác? z Hai câu “Mai nói chó ăn kem” và “Mai phủ nhận chó ăn kem” không logic với nhau z Câu và thế giới: biết 1 câu là đúng hay sai – có thể trong một vài trường hợp cụ thể nó đúng. z “Tôi uống cà phê espresso sáng nay, nhưng Mai thông 29 minh” không hợp lý Tri thức ẩn 1. I want to solve the problem z I wanna solve the problem 2. I understand these students z These students I understand z I want these students to solve the problem z These students I want [x] to solve the problem z [x]=these students 30 Đặc trưng của ngôn ngữ z Một số có thể nhớ được: z Singing → Sing+ing; Bringing → bring+ing z Duckling → ?? Duckl +ing z Cần phải biết duckl không phải là từ 31 z Nhưng không thể nhớ tất cả vì quá nhiều Ngoài bộ nhớ, ta cần gì? Số nhiều trong tiếng Anh: z Toy+s -> toyz ; add z z Book+s -> books ; add s z Church+s -> churchiz ; add iz z Box+s-> boxiz ; add iz 32 ¾ Cần có hệ thống luật để sinh/xử lý các trường hợp này 9“Phân tích” = gắn bề ngoài với cách biểu diễn trong của nó z Vì sao XLNNTN khó: What makes NLP hard: không có tương ứng 1-1 với bất kỳ cách biểu diễn nào. z Ta cần biết cấu trúc dữ liệu và thuật toán để thực hiện, mặc dù có thể xảy ra bùng nổ tổ 33 hợp ở bất cứ công đoạn xử lý nào Phân tích câu hỏi LSAT / (former) GRE z Sáu tượng điêu khắc – C, D, E, F, G, H – được triển lãm trong các phòng 1, 2, 3 của một triển lãm. T C à E ó thể khô t ù hòz ượng v c ng rong c ng p ng. z Tượng D và G phỉa trong một phòng. z Nếu tượng E và F trong cùng phòng thì không có tượng nào khác trong phòng đó z Có íta nhất 1 tượng triển lãm trong một phòng, không có nhiều hơn 3 tượng trong bất cứ phòng nào z Nếu tượng D được triển lãm trong phòng 3 và các tượng E, F trong 34 phòng 1, trong các phát biểu dưới đây, phát biểu nào đúng: A. Tượng C trong phòng 1 B. Tượng H trong phòng 1 C. Tượng G trong phòng 2 D. Tượng C và H trong cùng phòng E. Tượng G và F trong cùng phòng U: A Bug’s Life được chiếu tại chỗ nào của Mountain View? Giải quyết đồng tham chiếu S: A Bug’s Life được chiếu ở rạp Summit. U: Khi nào nó được chiếu ở đó? S: Nó được chiếu lúc 2pm, 5pm, và 8pm. U: Tôi muốn 1 người lớn, 2 trẻ con cho buổi chiếu đầu tiên. Nó giá bao nhiêu? ồ 35 z Các ngu n tri thức: z Tri thức miền (Domain knowledge) z Tri thức về diễn ngôn (Discourse knowledge) z Tri thức thế giới (World knowledge) Tại sao XLNNTN lại khó? NNTN: z Nhập nhằng tại mọi mức z Phức tạp và mờ z Liên quan lập luận về thế giới 36 10 Giải pháp z Ta cần các công cụ nào? z Tri thức về ngôn ngữ z Tri thức về thế giới z Cách kết hợp các tri thức z Giải pháp tiềm năng: Các mô hình xác suất xây dựng từ dữ liệu 37 z z P(“maison” → “house”) cao z P(“L’avocat general” → “the general avocado”) thấp Nhắc lại các bài toán trong XLNNTN z Vào: chuỗi ký tự z Ra: các cặp (gốc từ, thẻ hình thái từ ) z Các vấn đề: z Kết hợp các thành phần cấu tạo nên từ z Loại hình thái từ (từ biến tố, từ phái sinh, từ ghép) z Ví dụ: quotations ~ quote/V + -ation(der V->N) + . NNS. 38 Phân tích cú pháp z Vào: chuỗi các cặp (từ/từ loại) z Ra: cấu trúc ngữ pháp của câu với các nút được gán nhãn (từ, từ loại, vai trò ngữ pháp) z Vấn đề: z Quan hệ giữa từ, từ loại, và cấu trúc câu z Sử dụng nhãn cú pháp (Chủ ngữ vị ngữ bổ ngữ , , , .) z Ví dụ: Tôi/ĐaT nhìn thấy/ĐgT Mai/DT Æ ((Tôi/ĐaT)CN ((nhìn thấy/ĐgT) (Mai/DT)OBJ)VN)C 39 Ngữ nghĩa z Vào: cấu trúc ngữ pháp của câu z Ra: cấu trúc ngữ nghĩa của câu z Vấn đề: z Quan hệ giữa các đối tượng như chủ thể (Subject), đối tượng (Object), tác nhân (Agent), hậu quả (Effect) và các loại khác ((Học sinh/DT)CN ((học/ĐgT sinh học/DT)ĐgN)VN)C (Học sinh/DT)Sbj (học/ĐgT)action (sinh học/DT)Obj 40 11 Các ứng dụng của XLNNTN z Khó: xử lý tiếng nói (speech processing), dịch máy (machine translation) trích rút , thông tin (information extraction), giao diện hội thoại = NNTN (dialog interface), hỏi đáp (question answering) z Ứng dụng hiện nay: sửa lỗi chính tả, phân loại văn bản, 41 12 Trích rút thông tin Martin Baker, a person 4646 Genomics job Employers job posting form Trích rút thông tin October 14 2002 4:00 a m PT , , . . For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open- source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation. Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers. Gates himself says Microsoft will gladly disclose its crown jewels--the NAME TITLE ORGANIZATION Bill Gates CEO Microsoft Bill Veghte VP Microsoft Richard Stallman founder Free Soft.. IE 47 coveted code behind the Windows operating system--to select customers. "We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“ Richard Stallman, founder of the Free Software Foundation, countered saying Newsinessence [Radev & al. 01] 13 49 Google News [02]
File đính kèm:
- bai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf