Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức Wikipedia và DBpedia
Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một
lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa
toàn thư Wikipedia1 và cơ sở tri thức DBpedia2. Bài toán xây dựng ontology là một trong những bước
quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa
và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology. Tuy nhiên
phần lớn gặp khó khăn trong việc xử lý dữ liệu quá lớn từ Wikipedia dẫn đến thời gian thực thi kết quả rất
lâu, ngược lại nếu dữ liệu không trích xuất từ Wikipedia thì mức độ bao phủ thông tin không đảm bảo.
Trong phương pháp của chúng tôi, chúng tôi đề xuất cách thức lọc dữ liệu theo các đặc trưng thông tin
ban đầu của lĩnh vực KHMT để giảm bớt thời gian xử lý các thông tin không liên quan, nhưng vẫn đảm
bảo độ đầy đủ thông tin vì các đặc trưng ban đầu cũng được chọn từ danh sách phân loại của Wikipedia.
Sau đó tiến hành xây dựng cây ontology chứa nội dung tối ưu nhất có thể, đồng thời chúng ta có thể tiếp
tục làm giàu thông tin cho ontology khi có thêm dữ liệu mới cập nhật. Ngoài ra phương pháp chúng tôi đề
xuất có thể vận dụng để xây dựng ontology cho bất kỳ lĩnh vực nào mà có dữ liệu trong Wikipedia.
Tóm tắt nội dung tài liệu: Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức Wikipedia và DBpedia
Kỷ yếu kỷ niệm 35 năm thành lập Trường ĐH ng nghiệp Th c ph m T h inh -2017) 210 XÂY DỰNG ONTOLOGY THUỘC LĨNH VỰC KHOA HỌC MÁY TÍNH DỰA VÀO CƠ SỞ TRI THỨC WIKIPEDIA VÀ DBPEDIA Ngu n Th B ch Ngân Trường Đại học ng nghiệp Th c ph m Thành phố h inh Email: nganntb@cntp.edu.vn Ngày nhận bài: 20/08/2017; Ngày chấp nhận đăng: 30/08/2017 TÓM TẮT Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa toàn thư Wikipedia1 và cơ sở tri thức DBpedia2. Bài toán xây dựng ontology là một trong những bước quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology. Tuy nhiên phần lớn gặp khó khăn trong việc xử lý dữ liệu quá lớn từ Wikipedia dẫn đến thời gian thực thi kết quả rất lâu, ngược lại nếu dữ liệu không trích xuất từ Wikipedia thì mức độ bao phủ thông tin không đảm bảo. Trong phương pháp của chúng tôi, chúng tôi đề xuất cách thức lọc dữ liệu theo các đặc trưng thông tin ban đầu của lĩnh vực KHMT để giảm bớt thời gian xử lý các thông tin không liên quan, nhưng vẫn đảm bảo độ đầy đủ thông tin vì các đặc trưng ban đầu cũng được chọn từ danh sách phân loại của Wikipedia. Sau đó tiến hành xây dựng cây ontology chứa nội dung tối ưu nhất có thể, đồng thời chúng ta có thể tiếp tục làm giàu thông tin cho ontology khi có thêm dữ liệu mới cập nhật. Ngoài ra phương pháp chúng tôi đề xuất có thể vận dụng để xây dựng ontology cho bất kỳ lĩnh vực nào mà có dữ liệu trong Wikipedia. Từ khóa: ontology, bách khoa toàn thư Wikipedia, cơ sở tri thức DBpedia, Khoa học máy tính, tạo ontology. 1. GIỚI THIỆU Những năm gần đây, các hướng nghiên cứu về xử lý ngôn ngữ tự nhiên hay web ngữ nghĩa đã và đang là một trong những mảng nghiên cứu có sự phát triển mạnh mẽ. Trong đó, bài toán xây dựng quy trình tạo cơ sở tri thức ontology có đầy đủ thông tin để tra cứu, truy xuất thông tin thực thể và quan hệ các thực thể là một bài toán quan trọng. Hiện nay đã có những nghiên cứu đề xuất một số cách thức xây dựng ontology tùy theo những mục tiêu, yêu cầu khác nhau. Trong nghiên cứu của Nora I. Al- Rajebah [1], hay Zareen S. Syed và các công sự [2], các nhóm tác giả tạo ontology có dữ liệu truy xuất từ Wikipedia, quá trình này thực hiện tốn nhiều công sức vì phải xử lý dữ liệu cực lớn từ Wikipedia. Một nghiên cứu khác của nhóm tác giả Daniil Mirylenka và các cộng sự [3], họ đề xuất phương pháp xây dựng ontology thuộc một lĩnh vực (domain) bằng cách đưa ra danh sách các khái niệm quan tâm ban đầu trong lĩnh vực đó, truy xuất các thuộc tính và quan hệ giữa các khái niệm quan tâm trong Wikipedia để thu được bộ dữ liệu cần thiết tiến hành xây dựng ontology. Phương pháp này đã giảm tải được dữ liệu thừa khi truy xuất dữ liệu trong Wikipedia. Tuy nhiên vì truy xuất trực tiếp bộ dữ liệu cực lớn của Wikipedia nên tốn thời gian thực hiện, đồng thời tính đầy đủ của bộ dữ liệu thu được sẽ phụ thuộc hoàn toàn vào danh sách các khái niệm quan tâm ban đầu. Ngoài ra cũng có cách thực hiện khá thủ công, người dùng tự tạo ontology bằng cách dùng các phần mềm có sẵn, phổ biến là 1 https://www.wikipedia.org/ 2 Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia 211 Protégé [4]. Trong bài báo này, chúng tôi đề xuất quá trình xây dựng ontology thuộc lĩnh vực KHMT có dữ liệu dựa vào Wikipedia thông qua DBpedia. Wikipedia là một nguồn cơ sở tri thức bách khoa toàn thư chứa hầu hết các khái niệm thực thể trong tất cả các lĩnh vực của nhân loại, bao gồm 299 ngôn ngữ3 với hơn 171.010.892 bài báo4 (dữ liệu được cập nhật vào ngày 05/08/2017). DBpedia là một cơ sở dữ liệu công cộng, đa ngôn ngữ và là một đồ thị tri thức về ngữ nghĩa. Đây là một hệ thống do nổ lực của cộng đồng đóng góp tạo nên để lấy thông tin có cấu trúc từ Wikipedia, tạo thành các bộ tập hợp dữ liệu (data set) hoặc các bộ tập tin chứa dữ liệu dạng bộ ba (tripple). Ngoài ra, DBpedia cho phép người dùng truy vấn ngược lại thông tin trên Wikipedia, đồng thời liên kết các bộ dữ liệu khác nhau trên dữ liệu Web với Wikipedia [5]. Hiển nhiên, Wikipedia là nguồn tri thức tin cậy cho các bài toán nghiên cứu khoa học [8], tuy nhiên việc xử lý dữ liệu cực lớn từ nó cũng phát sinh nhiều thử thách, dựa theo phân tích trong nghiên cứu của nhóm tác giả Lu Xiao và Nicole Askin [6]. Vì vậy, trong đề xuất của chúng tôi, chúng tôi không lấy dữ liệu trực tiếp từ Wikipedia mà thông qua DBpedia, dữ liệu từ Wikipedia đã tổ chức lại thành các tập tin (file) dạng bộ ba (tripble)5 thể hiện thuộc tính, quan hệ giữa các thực thể. Tiếp theo chúng tôi rút trích danh sách các khái niệm quan tâm đã được phân loại trong Wikipedia, làm điều kiện lọc cho các dữ liệu từ DBpedia. Sau đó tiến hành xây dựng ontology bằng hỗ trợ của thư viện mã nguồn mở Jena [6]. Ngoài ra, phương pháp xây dựng ontology mà chúng tôi đề xuất là qui trình tổng quát. Qui trình này có thể thực hiện để xây dựng ontology cho bất kỳ lĩnh vực nào có thông tin trên Wikipedia. Mức độ đầy đủ của ontology phụ thuộc vào lượng thông tin của lĩnh vực đó chứa trong Wikipedia. Về sau, khi ontology kết quả đã được tạo dựng, chúng ta vẫn có thể tiếp tục phát triển bổ sung thêm dữ liệu cho ontology này từ các file dữ liệu cập nhật của DBpedia và Wikipedia. Phần còn lại của bài báo được tổ chức như sau: trong mục 2, chúng tôi trình bày cách rút trích danh sách các khái niệm quan tâm từ Wikipedia, phân tích cấu trúc các file dữ liệu do DBpedia cung cấp để khái thác các thông tin cần thiết, nêu sơ đồ qui trình thực hiện của phương pháp đề xuất. Kết quả thực hiện được trình bày ở mục 3. Cuối cùng, mục 4 kết luận các vấn đề của bài báo và đề xuất hướng phát triển. 2. QUI TRÌNH XÂY DỰNG ONTOLOGY 2.1. Tr ch xuất danh sách các khái niệm, phân loại và đặc trưng trong KHMT từ Wikipedia Dựa vào danh sách các phân loại thuộc lĩnh vực KHMT do Wikipedia cung cấp [6] (hiện có 50 phân loại con thuộc Computer_science, cập nhật đến ngày 05/08/2017), chúng tôi tiến hành truy xuất các thông tin liên quan, mỗi phân loại con Wikipedia cho người dùng mã nguồn chứa danh sách các khái niệm liên quan. Chẳng hạn, với thông tin “list of computer company”, mã nguồn thu được như Hình 16 : {{Expand list|date=August 2008}} <!--Please do not add entries without proper sources to indicate notability, either in the form of an external link that passes [[WP:RS]] (but not to their own site) or by linking to that entry's Wikipedia article. Non-notable entries may remain commented out for further review.--> The following is a list of notable '''[[Computer|computer system]] [[manufacturer]]s'''. ==Current== {{colbegin||20em}} 3https://meta.wikimedia.org/wiki/List_of_Wikipedias 4 5 6 https://en.wikipedia.org/w/index.php?title=List_of_computer_system_manufacturers&action=edit guy n Th ch gân 212 *[[ABS Computer Technologies]] (Parent: [[Newegg]]) *[[Acer Inc.|Acer]] // danh sách các thông tin phân loại và đặc trưng thuộc KHMT ==See also== * [[List of computer hardware manufacturers]] * [[List of laptop brands and manufacturers]] * [[Market share of personal computer vendors]] ==References== {{Reflist}} ==External links== *[ About.com list of desktop computer systems] *[ epocalc list of computer manufacturers] {{Companies by industry}} ình Cấu trúc file danh sách phân loại và đặc trưng thuộc KHMT trích xuất từ Wikipedia Với mỗi mã nguồn của danh sách phân loại, chúng tôi tiến hành xử lý file để lọc các khái niệm quan tâm, đây sẽ là cơ sở để tạo thực thể (class) và cá thể (individual) trong ontology. 2.2. Cấu trúc các file dữ liệu do DBpedia cung cấp DBpedia cung cấp cho người dùng 4 file dữ liệu dưới dạng .nt và .owl. Đây là các file tổ chức theo cấu trúc bộ ba (tripple) thể hiện quan hệ cấu trúc Thực thể – Quan hệ – Đối tượng (Subject – Predicate – Object). Chúng chính là ánh xạ các thông tin và mối quan hệ của các lớp và thực thể có trong Wikipedia. Cụ thể các tập tin có tên, loại và dung lượng như trong Bảng 1. Bảng 1. Danh sách các tập tin do DBpedia cung cấp cho người dùng Loại file Tên file Dung lượng File 1 DBpedia ontology T-BOX (Schema) dbpedia_2014.owl 2.26 MB File 2 DBpedia ontology RDF type statements (Instance Data) instance_types_en.nt 3.88GB File 3 DBpedia ontology other A-Box properties (Instance Data, mapping- based properties) mappingbased_properties_en.nt 4.14 GB File 4 DBpedia ontology other A-Box specific properties (Instance Data, mapping-based properties (specific)) specific_mappingbased_properties_ en.nt 122 MB Dựa vào 4 file này người dùng có thể tạo ra ontology thể hiện rõ được các mối quan hệ giữa các thành phần trong cấu trúc của Wikipedia. DBpedia cung cấp các file dữ liệu dưới nhiều dạng ngôn ngữ, nhưng trong bài báo này chúng tôi sẽ chú trọng vào ngôn ngữ tiếng Anh, với phạm vi thu nhỏ là trích lọc những dữ liệu thuộc về KHMT. 2.2.1. Cấu trúc file nt Trong ontology chứa 3 loại thành phần chính gồm: lớp (class), thuộc tính (property) và cá thể (individual). Chúng có cấu trúc liên quan nhau thông qua các loại quan hệ. File .nt có cấu trúc dạng triple (Subject -Predicate -Object). Mỗi phần trong bộ 3 là một thành phần của ontology. Ý nghĩa của từng file dữ liệu do DBpedia cung cấp như sau: Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia 213 - File 2 (instance_types_en.nt): lưu trữ các cá thể của lớp, mỗi đối tượng trong file là một thể hiện (individual) của lớp (class) tương ứng. * Cấu trúc: * Ví dụ: Individual Type Class oogle_Answers rdf-syntax-ns#type - File 3 (mappingbased_properties_en.nt): lưu trữ các thuộc tính (property) của một cá thể (individual) và giá trị (value) của thuộc tính đó. Trong file này có 3 kiểu cấu trúc bộ 3 khác nhau, đó là: Cấu trúc 1: value Ví dụ: Individual DataPropety Value DataType keley_DB Software/fileSize 1.244 pe/megabyte Cấu trúc 2: Ví dụ: Individual DataPropety Value _(programming_language) ersion “Ada 2012” Cấu trúc 3: Ví dụ: Individual ObjectPropety Individual le_Inc e/IPhone - File 4 (specific_mappingbased_properties_en.nt): đây là file đặc biệt, lọc các bộ dữ liệu có thông tin giá trị (value) từ file 3 (cấu trúc 1 và 2). Nghĩa là các thuộc tính trong file đã được chuyên biệt hóa cho những lớp cụ thể sử dụng một đơn vị cụ thể với giá trị dạng số cùng với kiểu dữ liệu (datatype) là đơn vị của thuộc tính. 2.2.1. Cấu trúc file owl File owl lưu trữ cấu trúc dữ liệu của ontology, được viết dưới dạng XML gồm các thẻ đóng/mở để qui định các lớp, thuộc tính của Ontoloy. File lưu trữ các lớp, các thuộc tính và quan hệ giữa các lớp, các thuộc tính với nhau, các ràng buộc mà về số lượng, giá trị mà người dùng mong muốn từ ontology. ình Thống kê các lớp, các loại thuộc tính có sẵn trong ontology từ file dbpedia_2014.owl ảnh được lấy từ thống kê của phần mềm rotégé khi mở file) value guy n Th ch gân 214 File dbpedia_2014.owl: trong file owl mà DBpedia cung cấp chỉ chứa danh sách các lớp (class) và quan hệ is-a giữa các lớp, chứa các thông tin quan hệ ngữ nghĩa khác và các thực thể của từng lớp. Hình 2 thể hiện số lượng thành phần trong file dbpedia_2014.owl ban đầu. Nhiệm vụ chúng ta cần thực hiện là bổ sung các thuộc tính cùng cá thể vào các lớp tương ứng thông qua các file dữ liệu đã trích lọc ở trên. 2.3. Qui trình thực hiện xâ dựng ontology Qui trình thực hiện của bài toán gồm 6 giai đoạn như Hình 3, với dữ liệu đầu vào là 4 file thông tin từ DBpedia đã nêu ở mục 2.2, cùng file chứa danh sách các phân loại và đặc trưng quan hệ thuộc lĩnh vực KHMT mục 2.1. Quy trình xây dựng ontology mà chúng tôi đề xuất trong nghiên cứu này là qui trình tổng quát, thuật toán thực hiện cũng mang tính độc lập không phụ thuộc vào bất kỳ dữ liệu của lĩnh vực thông tin nào. Khi người sử dụng muốn xây dựng ontology bất kỳ nào mà có thông tin trên Wikipedia, họ chỉ cần chuẩn bị các file thông tin đầu vào, sau khi trích xuất các thông tin thuộc lĩnh vực quan tâm. Lần lượt đưa vào chương trình thực nghiệm sẽ thu được ontology kết quả thuộc lĩnh vực đó. ình 3. Sơ đồ thể hiện qui trình tạo ontology thuộc lĩnh vực KHMT từ Wikipedia và DBpedia 3. KẾT QUẢ THỰC NGHIỆM Sau khi thực hiện trích lọc dữ liệu các file dữ liệu của DBpedia, chúng tôi thu được các file dữ liệu theo như kết quả thống kê ở Bảng 2. Bảng 2. Thông tin các file sau khi lọc dữ liệu và kết quả dung lượng ontology thu được Loại file Tên file Dung lượng File 2 DBpedia ontology RDF type statements (Instance Data) instance_types_en.nt 10.4 MB File 3 DBpedia ontology other A-Box properties (Instance Data, mapping-based properties) mappingbased_propertie s_en.nt 24.6 MB File 4 DBpedia ontology other A-Box specific properties (Instance Data, mapping-based properties (specific)) specific_mappingbased_ properties_en.nt 14.6 MB File 1 DBpedia ontology T-BOX (Schema) dbpedia_2014.owl 21.2 MB Thống kê số lượng các thành phần của ontology thuộc lĩnh vực KHMT sau khi thực hiện xong qui trình: Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia 215 ình 4. Thống kê các thành phần trong ontology sau khi đã thực hiện quy trình (ảnh được lấy từ thống kê của phần mềm Protégé khi mở file) Dựa vào Bảng 3 để so sánh kết quả các thành phần giữa ontology thu được sau khi thực hiện qui trình với ontology ban đầu do DBpedia cung cấp (file dbpedia_2014.owl), chúng ta thấy rằng việc lọc bỏ các dữ liệu thừa trong Wikipedia đã đạt hiệu quả. Kết quả ontology chỉ bổ sung các đặc trưng thuộc tính và các cá thể liên quan. Bảng 3. So sánh kết quả các thành phần giữa ontology đầu vào và ontology kết quả. Tên các thành phần Ontology đầu vào Ontology kết quả Axiom 24278 193257 Logical axioms count 6773 175740 Declaration axioms count 3478 3487 Class count 828 828 Object property count 1310 1314 Data property count 1726 1722 Individual count 1 34991 Annotation property count 15 20 Trong bài báo này chúng tôi không so sánh kết quả thực nghiệm với các nghiên cứu khác vì hiện các nghiên cứu tạo ontology (đã nêu ở phần giới thiệu) không có độ tương đồng về dữ liệu lưu trữ trên Wikipedia nên khó mà đánh giá thời gian xử lý cũng như kết quả đạt được. Hiện chúng tôi đã phân tích các ưu điểm của phương pháp thông qua các bước đã trình bày trong bài báo. Đó là qui trình thực hiện độc lập, không phụ thuộc dữ liệu thuộc lĩnh vực nào, nên có thể áp dụng tạo ontology cho bất kỳ lĩnh vực nào mà có thông tin lưu trữ trên Wikipdia. Bên cạnh đó, khi cần bổ sung, cập nhật dữ liệu cho ontology chỉ cần thực hiện lại chương trình ở giai đoạn tương ứng tùy theo loại file dữ liệu đầu vào. 4. KẾT LUẬN Trong bài báo này, chúng tôi đã đề xuất qui trình tổng quát xây dựng cấu trúc ontology chứa thông tin thuộc lĩnh vực KHMT được trích xuất từ bộ dữ liệu khổng lồ của hệ thống bách khoa toàn thư Wikipedia, ánh xạ trong hệ cơ sở dữ liệu thông tin mở DBpedia. Qui trình có 6 giai đoạn trích lọc thông tin trước khi gắn kết vào ontology giúp giảm thời gian thực thi chương trình vì loại bỏ được các thông tin không liên quan, nhưng vẫn đảm bảo tính đầy đủ dữ liệu mà Wikipedia lưu trữ. Đồng thời khi có dữ liệu mới cần cập nhật bổ sung vào ontology, chúng ta vẫn có thể dễ dàng bổ sung thêm vào theo từng bước của qui trình đã thực hiện. Chương trình thực hiện độc lập, không bị phụ thuộc ràng buộc vào dữ liệu thuộc lĩnh vực nào nên chúng ta có thể áp dụng phương pháp này cho việc tạo ontology thuộc lĩnh vực bất kỳ. Ontology thu được từ bài toán này có thể dùng làm cơ sở tri thức cho nhiều bài toán khác nhau. Hướng nghiên cứu mà nhóm chúng tôi đang muốn phát triển là thực hiện như xây dựng hệ thống truy vấn thông tin để giải thích làm rõ nghĩa cho các tính chất, đặc trưng của một khái niệm thuộc lĩnh vực KHMT; guy n Th ch gân 216 hoặc hỗ trợ làm rõ ý nghĩa các giá trị thuộc về đặc trưng, thuộc tính nào của thực thể xuất hiện trong văn bản. TÀI LIỆU THAM KHẢO 1. Nora I. Al- Rajebah, Hend S. Al-Khalifa - Semantic Relationship Extraction and ontology Building using Wikipedia: A Comprehensive Survey - International Journal of Computer Applications 12.3 (2010) pp.6-12. 2. Zareen Saba Syed, Tim Finin, Anupam Joshi - Wikitology: Using Wikipedia as an ontology - Proceeding of the Second International Conference on Weblogs and Social Media (2008). 3. Daniil Mirylenka, Andrea Passerini, and Luciano Serafini - Bootstrapping Domain Ontologies from Wikipedia: A Uniform Approach - Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence (IJCAI 2015). 4. Usha Yadav et al. - Development and Visualization of Domain Specific ontology using Protégé - Indian Journal of Science & Technology, Volume 9, Issue 16 (2016). 5. Lehmann, Jens et al. - DBpedia – A large-scale, multilingual knowledge base extracted from Wikipedia - Journal: Semantic Web, vol. 6, no. 2 (2015) pp.167-195. 6. Lu Xiao and Nicole Askin - Wikipedia for academic publishing: advantages and challenges” - Online Information Review, Vol. 38 Issue: 3 (2012) pp.332-347. 7. J. Malone and Helen Parkinson - Reference and Application Ontologies - European Bioinformatics Institute, Cambridge, CB10 1SD, UK, 2010. 8. Hans-Jörg Happel and Stefan Seedorf - Applications of Ontologies in Software Engineering - 2nd International Workshop on Semantic Web Enabled Software Engineering (SWESE 2006). ABSTRACT BUILDING COMPUTER SCIENCE ONTOLOGY BASED ON THE WIKIPEDIA AND DBPEDIA KNOWLEDGE BASE Nguyen Thi Bich Ngan Ho Ci Minh City University Of Food Industry Email: nganntb@cntp.edu.vn In this paper, we focus on the process to create an ontology, which contains data belonging to a specific field (namely computer science) by English language base on Wikipedia encyclopedia and DBpedia knowledge base. The building ontology problem is one of the importance steps to creat the knowledge base for studying about information extraction, semantic anotation, nature language processing. Nowadays, many approaches have proposed for this task. However, most of them have a long execution time because they must handle the huge data of Wikipedia, on the contrary, if the data is not extracted from Wikipedia, the coverage of information is not guaranteed. In our approach, we propose a method that filtering data base on characters of the mentioned field, in this paper we choose the computer science field, to reduce the handling time of the redundant data, but they still guarantee complete information because the original features are also selected from Wikipedia's categories list. The next, to create the ontology which is the best possible, and it can be enriched when there is a new data file. Besides, our approach proposed can apply for creating an ontology of anything field that has data in Wikipedia. Từ khóa: ontology, Wikipedia, DBpedia, Computer Science, create ontology.
File đính kèm:
- xay_dung_ontology_thuoc_linh_vuc_khoa_hoc_may_tinh_dua_vao_c.pdf