Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức Wikipedia và DBpedia

Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một

lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa

toàn thư Wikipedia1 và cơ sở tri thức DBpedia2. Bài toán xây dựng ontology là một trong những bước

quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa

và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology. Tuy nhiên

phần lớn gặp khó khăn trong việc xử lý dữ liệu quá lớn từ Wikipedia dẫn đến thời gian thực thi kết quả rất

lâu, ngược lại nếu dữ liệu không trích xuất từ Wikipedia thì mức độ bao phủ thông tin không đảm bảo.

Trong phương pháp của chúng tôi, chúng tôi đề xuất cách thức lọc dữ liệu theo các đặc trưng thông tin

ban đầu của lĩnh vực KHMT để giảm bớt thời gian xử lý các thông tin không liên quan, nhưng vẫn đảm

bảo độ đầy đủ thông tin vì các đặc trưng ban đầu cũng được chọn từ danh sách phân loại của Wikipedia.

Sau đó tiến hành xây dựng cây ontology chứa nội dung tối ưu nhất có thể, đồng thời chúng ta có thể tiếp

tục làm giàu thông tin cho ontology khi có thêm dữ liệu mới cập nhật. Ngoài ra phương pháp chúng tôi đề

xuất có thể vận dụng để xây dựng ontology cho bất kỳ lĩnh vực nào mà có dữ liệu trong Wikipedia.

pdf 7 trang phuongnguyen 13110
Bạn đang xem tài liệu "Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức Wikipedia và DBpedia", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức Wikipedia và DBpedia

Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức Wikipedia và DBpedia
Kỷ yếu kỷ niệm 35 năm thành lập Trường ĐH ng nghiệp Th c ph m T h inh -2017) 
210 
XÂY DỰNG ONTOLOGY THUỘC LĨNH VỰC KHOA HỌC MÁY TÍNH 
DỰA VÀO CƠ SỞ TRI THỨC WIKIPEDIA VÀ DBPEDIA 
Ngu n Th B ch Ngân 
Trường Đại học ng nghiệp Th c ph m Thành phố h inh 
Email: nganntb@cntp.edu.vn 
Ngày nhận bài: 20/08/2017; Ngày chấp nhận đăng: 30/08/2017 
TÓM TẮT 
Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một 
lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa 
toàn thư Wikipedia1 và cơ sở tri thức DBpedia2. Bài toán xây dựng ontology là một trong những bước 
quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa 
và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology. Tuy nhiên 
phần lớn gặp khó khăn trong việc xử lý dữ liệu quá lớn từ Wikipedia dẫn đến thời gian thực thi kết quả rất 
lâu, ngược lại nếu dữ liệu không trích xuất từ Wikipedia thì mức độ bao phủ thông tin không đảm bảo. 
Trong phương pháp của chúng tôi, chúng tôi đề xuất cách thức lọc dữ liệu theo các đặc trưng thông tin 
ban đầu của lĩnh vực KHMT để giảm bớt thời gian xử lý các thông tin không liên quan, nhưng vẫn đảm 
bảo độ đầy đủ thông tin vì các đặc trưng ban đầu cũng được chọn từ danh sách phân loại của Wikipedia. 
Sau đó tiến hành xây dựng cây ontology chứa nội dung tối ưu nhất có thể, đồng thời chúng ta có thể tiếp 
tục làm giàu thông tin cho ontology khi có thêm dữ liệu mới cập nhật. Ngoài ra phương pháp chúng tôi đề 
xuất có thể vận dụng để xây dựng ontology cho bất kỳ lĩnh vực nào mà có dữ liệu trong Wikipedia. 
Từ khóa: ontology, bách khoa toàn thư Wikipedia, cơ sở tri thức DBpedia, Khoa học máy tính, tạo 
ontology. 
1. GIỚI THIỆU 
 Những năm gần đây, các hướng nghiên cứu về xử lý ngôn ngữ tự nhiên hay web ngữ nghĩa đã và 
đang là một trong những mảng nghiên cứu có sự phát triển mạnh mẽ. Trong đó, bài toán xây dựng quy 
trình tạo cơ sở tri thức ontology có đầy đủ thông tin để tra cứu, truy xuất thông tin thực thể và quan hệ các 
thực thể là một bài toán quan trọng. Hiện nay đã có những nghiên cứu đề xuất một số cách thức xây dựng 
ontology tùy theo những mục tiêu, yêu cầu khác nhau. 
Trong nghiên cứu của Nora I. Al- Rajebah [1], hay Zareen S. Syed và các công sự [2], các nhóm tác 
giả tạo ontology có dữ liệu truy xuất từ Wikipedia, quá trình này thực hiện tốn nhiều công sức vì phải xử 
lý dữ liệu cực lớn từ Wikipedia. Một nghiên cứu khác của nhóm tác giả Daniil Mirylenka và các cộng sự 
[3], họ đề xuất phương pháp xây dựng ontology thuộc một lĩnh vực (domain) bằng cách đưa ra danh sách 
các khái niệm quan tâm ban đầu trong lĩnh vực đó, truy xuất các thuộc tính và quan hệ giữa các khái niệm 
quan tâm trong Wikipedia để thu được bộ dữ liệu cần thiết tiến hành xây dựng ontology. Phương pháp 
này đã giảm tải được dữ liệu thừa khi truy xuất dữ liệu trong Wikipedia. Tuy nhiên vì truy xuất trực tiếp 
bộ dữ liệu cực lớn của Wikipedia nên tốn thời gian thực hiện, đồng thời tính đầy đủ của bộ dữ liệu thu 
được sẽ phụ thuộc hoàn toàn vào danh sách các khái niệm quan tâm ban đầu. Ngoài ra cũng có cách thực 
hiện khá thủ công, người dùng tự tạo ontology bằng cách dùng các phần mềm có sẵn, phổ biến là 
1 https://www.wikipedia.org/ 
2  
Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia 
211 
Protégé [4]. 
Trong bài báo này, chúng tôi đề xuất quá trình xây dựng ontology thuộc lĩnh vực KHMT có dữ liệu 
dựa vào Wikipedia thông qua DBpedia. Wikipedia là một nguồn cơ sở tri thức bách khoa toàn thư chứa 
hầu hết các khái niệm thực thể trong tất cả các lĩnh vực của nhân loại, bao gồm 299 ngôn ngữ3 với hơn 
171.010.892 bài báo4 (dữ liệu được cập nhật vào ngày 05/08/2017). DBpedia là một cơ sở dữ liệu công 
cộng, đa ngôn ngữ và là một đồ thị tri thức về ngữ nghĩa. Đây là một hệ thống do nổ lực của cộng đồng 
đóng góp tạo nên để lấy thông tin có cấu trúc từ Wikipedia, tạo thành các bộ tập hợp dữ liệu (data set) 
hoặc các bộ tập tin chứa dữ liệu dạng bộ ba (tripple). Ngoài ra, DBpedia cho phép người dùng truy vấn 
ngược lại thông tin trên Wikipedia, đồng thời liên kết các bộ dữ liệu khác nhau trên dữ liệu Web với 
Wikipedia [5]. 
Hiển nhiên, Wikipedia là nguồn tri thức tin cậy cho các bài toán nghiên cứu khoa học [8], tuy nhiên 
việc xử lý dữ liệu cực lớn từ nó cũng phát sinh nhiều thử thách, dựa theo phân tích trong nghiên cứu của 
nhóm tác giả Lu Xiao và Nicole Askin [6]. Vì vậy, trong đề xuất của chúng tôi, chúng tôi không lấy dữ 
liệu trực tiếp từ Wikipedia mà thông qua DBpedia, dữ liệu từ Wikipedia đã tổ chức lại thành các tập tin 
(file) dạng bộ ba (tripble)5 thể hiện thuộc tính, quan hệ giữa các thực thể. Tiếp theo chúng tôi rút trích 
danh sách các khái niệm quan tâm đã được phân loại trong Wikipedia, làm điều kiện lọc cho các dữ liệu 
từ DBpedia. Sau đó tiến hành xây dựng ontology bằng hỗ trợ của thư viện mã nguồn mở Jena [6]. 
Ngoài ra, phương pháp xây dựng ontology mà chúng tôi đề xuất là qui trình tổng quát. Qui trình này 
có thể thực hiện để xây dựng ontology cho bất kỳ lĩnh vực nào có thông tin trên Wikipedia. Mức độ đầy 
đủ của ontology phụ thuộc vào lượng thông tin của lĩnh vực đó chứa trong Wikipedia. Về sau, khi 
ontology kết quả đã được tạo dựng, chúng ta vẫn có thể tiếp tục phát triển bổ sung thêm dữ liệu cho 
ontology này từ các file dữ liệu cập nhật của DBpedia và Wikipedia. 
Phần còn lại của bài báo được tổ chức như sau: trong mục 2, chúng tôi trình bày cách rút trích danh 
sách các khái niệm quan tâm từ Wikipedia, phân tích cấu trúc các file dữ liệu do DBpedia cung cấp để 
khái thác các thông tin cần thiết, nêu sơ đồ qui trình thực hiện của phương pháp đề xuất. Kết quả thực 
hiện được trình bày ở mục 3. Cuối cùng, mục 4 kết luận các vấn đề của bài báo và đề xuất hướng phát 
triển. 
2. QUI TRÌNH XÂY DỰNG ONTOLOGY 
2.1. Tr ch xuất danh sách các khái niệm, phân loại và đặc trưng trong KHMT từ Wikipedia 
Dựa vào danh sách các phân loại thuộc lĩnh vực KHMT do Wikipedia cung cấp [6] (hiện có 50 phân 
loại con thuộc Computer_science, cập nhật đến ngày 05/08/2017), chúng tôi tiến hành truy xuất các thông 
tin liên quan, mỗi phân loại con Wikipedia cho người dùng mã nguồn chứa danh sách các khái niệm liên 
quan. Chẳng hạn, với thông tin “list of computer company”, mã nguồn thu được như Hình 16 : 
 {{Expand list|date=August 2008}} 
<!--Please do not add entries without proper sources to indicate notability, either in 
the form of an external link that passes [[WP:RS]] (but not to their own site) or by 
linking to that entry's Wikipedia article. Non-notable entries may remain commented 
out for further review.--> 
The following is a list of notable '''[[Computer|computer system]] 
[[manufacturer]]s'''. 
==Current== 
{{colbegin||20em}} 
3https://meta.wikimedia.org/wiki/List_of_Wikipedias 
4  
5  
6 https://en.wikipedia.org/w/index.php?title=List_of_computer_system_manufacturers&action=edit 
 guy n Th ch gân 
212 
*[[ABS Computer Technologies]] (Parent: [[Newegg]]) 
*[[Acer Inc.|Acer]] 
// danh sách các thông tin phân loại và đặc trưng thuộc KHMT 
==See also== 
* [[List of computer hardware manufacturers]] 
* [[List of laptop brands and manufacturers]] 
* [[Market share of personal computer vendors]] 
==References== 
{{Reflist}} 
==External links== 
*[ About.com list of desktop computer 
systems] 
*[ epocalc list of computer manufacturers] 
{{Companies by industry}} 
 ình Cấu trúc file danh sách phân loại và đặc trưng thuộc KHMT trích xuất từ Wikipedia 
Với mỗi mã nguồn của danh sách phân loại, chúng tôi tiến hành xử lý file để lọc các khái niệm quan 
tâm, đây sẽ là cơ sở để tạo thực thể (class) và cá thể (individual) trong ontology. 
2.2. Cấu trúc các file dữ liệu do DBpedia cung cấp 
DBpedia cung cấp cho người dùng 4 file dữ liệu dưới dạng .nt và .owl. Đây là các file tổ chức theo 
cấu trúc bộ ba (tripple) thể hiện quan hệ cấu trúc Thực thể – Quan hệ – Đối tượng (Subject – Predicate – 
Object). Chúng chính là ánh xạ các thông tin và mối quan hệ của các lớp và thực thể có trong Wikipedia. 
Cụ thể các tập tin có tên, loại và dung lượng như trong Bảng 1. 
Bảng 1. Danh sách các tập tin do DBpedia cung cấp cho người dùng 
 Loại file Tên file Dung lượng 
File 1 DBpedia ontology T-BOX (Schema) dbpedia_2014.owl 2.26 MB 
File 2 
DBpedia ontology RDF type 
statements (Instance Data) 
instance_types_en.nt 3.88GB 
File 3 
DBpedia ontology other A-Box 
properties (Instance Data, mapping-
based properties) 
mappingbased_properties_en.nt 4.14 GB 
File 4 
DBpedia ontology other A-Box 
specific properties (Instance Data, 
mapping-based properties (specific)) 
specific_mappingbased_properties_
en.nt 
122 MB 
Dựa vào 4 file này người dùng có thể tạo ra ontology thể hiện rõ được các mối quan hệ giữa các 
thành phần trong cấu trúc của Wikipedia. DBpedia cung cấp các file dữ liệu dưới nhiều dạng ngôn ngữ, 
nhưng trong bài báo này chúng tôi sẽ chú trọng vào ngôn ngữ tiếng Anh, với phạm vi thu nhỏ là trích lọc 
những dữ liệu thuộc về KHMT. 
 2.2.1. Cấu trúc file nt 
Trong ontology chứa 3 loại thành phần chính gồm: lớp (class), thuộc tính (property) và cá thể 
(individual). Chúng có cấu trúc liên quan nhau thông qua các loại quan hệ. 
File .nt có cấu trúc dạng triple (Subject -Predicate -Object). Mỗi phần trong bộ 3 là một thành phần 
của ontology. Ý nghĩa của từng file dữ liệu do DBpedia cung cấp như sau: 
Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia 
213 
- File 2 (instance_types_en.nt): lưu trữ các cá thể của lớp, mỗi đối tượng trong file là một thể hiện 
(individual) của lớp (class) tương ứng. 
* Cấu trúc: 
* Ví dụ: 
Individual Type Class 
oogle_Answers 
rdf-syntax-ns#type 
- File 3 (mappingbased_properties_en.nt): lưu trữ các thuộc tính (property) của một cá thể 
(individual) và giá trị (value) của thuộc tính đó. Trong file này có 3 kiểu cấu trúc bộ 3 khác nhau, đó là: 
 Cấu trúc 1: value 
 Ví dụ: 
Individual DataPropety Value DataType 
keley_DB 
Software/fileSize 
1.244 
pe/megabyte 
 Cấu trúc 2: 
 Ví dụ: 
Individual DataPropety Value 
_(programming_language) 
ersion 
“Ada 2012” 
 Cấu trúc 3: 
 Ví dụ: 
Individual ObjectPropety Individual 
le_Inc 
e/IPhone 
- File 4 (specific_mappingbased_properties_en.nt): đây là file đặc biệt, lọc các bộ dữ liệu có thông 
tin giá trị (value) từ file 3 (cấu trúc 1 và 2). Nghĩa là các thuộc tính trong file đã được chuyên biệt hóa cho 
những lớp cụ thể sử dụng một đơn vị cụ thể với giá trị dạng số cùng với kiểu dữ liệu (datatype) là đơn vị 
của thuộc tính. 
2.2.1. Cấu trúc file owl 
File owl lưu trữ cấu trúc dữ liệu của ontology, được viết dưới dạng XML gồm các thẻ đóng/mở để qui 
định các lớp, thuộc tính của Ontoloy. File lưu trữ các lớp, các thuộc tính và quan hệ giữa các lớp, các 
thuộc tính với nhau, các ràng buộc mà về số lượng, giá trị mà người dùng mong muốn từ ontology. 
 ình Thống kê các lớp, các loại thuộc tính có sẵn trong ontology từ file dbpedia_2014.owl 
 ảnh được lấy từ thống kê của phần mềm rotégé khi mở file) 
 value 
 guy n Th ch gân 
214 
File dbpedia_2014.owl: trong file owl mà DBpedia cung cấp chỉ chứa danh sách các lớp (class) và 
quan hệ is-a giữa các lớp, chứa các thông tin quan hệ ngữ nghĩa khác và các thực thể của từng lớp. Hình 2 
thể hiện số lượng thành phần trong file dbpedia_2014.owl ban đầu. Nhiệm vụ chúng ta cần thực hiện là 
bổ sung các thuộc tính cùng cá thể vào các lớp tương ứng thông qua các file dữ liệu đã trích lọc ở trên. 
2.3. Qui trình thực hiện xâ dựng ontology 
Qui trình thực hiện của bài toán gồm 6 giai đoạn như Hình 3, với dữ liệu đầu vào là 4 file thông tin 
từ DBpedia đã nêu ở mục 2.2, cùng file chứa danh sách các phân loại và đặc trưng quan hệ thuộc lĩnh vực 
KHMT mục 2.1. 
Quy trình xây dựng ontology mà chúng tôi đề xuất trong nghiên cứu này là qui trình tổng quát, thuật 
toán thực hiện cũng mang tính độc lập không phụ thuộc vào bất kỳ dữ liệu của lĩnh vực thông tin nào. Khi 
người sử dụng muốn xây dựng ontology bất kỳ nào mà có thông tin trên Wikipedia, họ chỉ cần chuẩn bị 
các file thông tin đầu vào, sau khi trích xuất các thông tin thuộc lĩnh vực quan tâm. Lần lượt đưa vào 
chương trình thực nghiệm sẽ thu được ontology kết quả thuộc lĩnh vực đó. 
 ình 3. Sơ đồ thể hiện qui trình tạo ontology thuộc lĩnh vực KHMT từ Wikipedia và DBpedia 
3. KẾT QUẢ THỰC NGHIỆM 
Sau khi thực hiện trích lọc dữ liệu các file dữ liệu của DBpedia, chúng tôi thu được các file dữ liệu 
theo như kết quả thống kê ở Bảng 2. 
Bảng 2. Thông tin các file sau khi lọc dữ liệu và kết quả dung lượng ontology thu được 
 Loại file Tên file Dung lượng 
File 2 
DBpedia ontology RDF type statements 
(Instance Data) 
instance_types_en.nt 10.4 MB 
File 3 
DBpedia ontology other A-Box properties 
(Instance Data, mapping-based properties) 
mappingbased_propertie
s_en.nt 
24.6 MB 
File 4 
DBpedia ontology other A-Box specific 
properties (Instance Data, mapping-based 
properties (specific)) 
specific_mappingbased_
properties_en.nt 
14.6 MB 
File 1 DBpedia ontology T-BOX (Schema) dbpedia_2014.owl 21.2 MB 
Thống kê số lượng các thành phần của ontology thuộc lĩnh vực KHMT sau khi thực hiện xong qui 
trình: 
Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia 
215 
 ình 4. Thống kê các thành phần trong ontology sau khi đã thực hiện quy trình 
(ảnh được lấy từ thống kê của phần mềm Protégé khi mở file) 
Dựa vào Bảng 3 để so sánh kết quả các thành phần giữa ontology thu được sau khi thực hiện qui 
trình với ontology ban đầu do DBpedia cung cấp (file dbpedia_2014.owl), chúng ta thấy rằng việc lọc bỏ 
các dữ liệu thừa trong Wikipedia đã đạt hiệu quả. Kết quả ontology chỉ bổ sung các đặc trưng thuộc tính 
và các cá thể liên quan. 
Bảng 3. So sánh kết quả các thành phần giữa ontology đầu vào và ontology kết quả. 
Tên các thành phần Ontology đầu vào Ontology kết quả 
Axiom 24278 193257 
Logical axioms count 6773 175740 
Declaration axioms count 3478 3487 
Class count 828 828 
Object property count 1310 1314 
Data property count 1726 1722 
Individual count 1 34991 
Annotation property count 15 20 
Trong bài báo này chúng tôi không so sánh kết quả thực nghiệm với các nghiên cứu khác vì hiện các 
nghiên cứu tạo ontology (đã nêu ở phần giới thiệu) không có độ tương đồng về dữ liệu lưu trữ trên 
Wikipedia nên khó mà đánh giá thời gian xử lý cũng như kết quả đạt được. Hiện chúng tôi đã phân tích 
các ưu điểm của phương pháp thông qua các bước đã trình bày trong bài báo. Đó là qui trình thực hiện 
độc lập, không phụ thuộc dữ liệu thuộc lĩnh vực nào, nên có thể áp dụng tạo ontology cho bất kỳ lĩnh vực 
nào mà có thông tin lưu trữ trên Wikipdia. Bên cạnh đó, khi cần bổ sung, cập nhật dữ liệu cho ontology 
chỉ cần thực hiện lại chương trình ở giai đoạn tương ứng tùy theo loại file dữ liệu đầu vào. 
4. KẾT LUẬN 
Trong bài báo này, chúng tôi đã đề xuất qui trình tổng quát xây dựng cấu trúc ontology chứa thông 
tin thuộc lĩnh vực KHMT được trích xuất từ bộ dữ liệu khổng lồ của hệ thống bách khoa toàn thư 
Wikipedia, ánh xạ trong hệ cơ sở dữ liệu thông tin mở DBpedia. Qui trình có 6 giai đoạn trích lọc thông 
tin trước khi gắn kết vào ontology giúp giảm thời gian thực thi chương trình vì loại bỏ được các thông tin 
không liên quan, nhưng vẫn đảm bảo tính đầy đủ dữ liệu mà Wikipedia lưu trữ. Đồng thời khi có dữ liệu 
mới cần cập nhật bổ sung vào ontology, chúng ta vẫn có thể dễ dàng bổ sung thêm vào theo từng bước 
của qui trình đã thực hiện. Chương trình thực hiện độc lập, không bị phụ thuộc ràng buộc vào dữ liệu 
thuộc lĩnh vực nào nên chúng ta có thể áp dụng phương pháp này cho việc tạo ontology thuộc lĩnh vực 
bất kỳ. 
Ontology thu được từ bài toán này có thể dùng làm cơ sở tri thức cho nhiều bài toán khác nhau. 
Hướng nghiên cứu mà nhóm chúng tôi đang muốn phát triển là thực hiện như xây dựng hệ thống truy vấn 
thông tin để giải thích làm rõ nghĩa cho các tính chất, đặc trưng của một khái niệm thuộc lĩnh vực KHMT; 
 guy n Th ch gân 
216 
hoặc hỗ trợ làm rõ ý nghĩa các giá trị thuộc về đặc trưng, thuộc tính nào của thực thể xuất hiện trong 
văn bản. 
TÀI LIỆU THAM KHẢO 
1. Nora I. Al- Rajebah, Hend S. Al-Khalifa - Semantic Relationship Extraction and ontology Building 
using Wikipedia: A Comprehensive Survey - International Journal of Computer Applications 12.3 
(2010) pp.6-12. 
2. Zareen Saba Syed, Tim Finin, Anupam Joshi - Wikitology: Using Wikipedia as an ontology - 
Proceeding of the Second International Conference on Weblogs and Social Media (2008). 
3. Daniil Mirylenka, Andrea Passerini, and Luciano Serafini - Bootstrapping Domain Ontologies from 
Wikipedia: A Uniform Approach - Proceedings of the Twenty-Fourth International Joint 
Conference on Artificial Intelligence (IJCAI 2015). 
4. Usha Yadav et al. - Development and Visualization of Domain Specific ontology using Protégé - 
Indian Journal of Science & Technology, Volume 9, Issue 16 (2016). 
5. Lehmann, Jens et al. - DBpedia – A large-scale, multilingual knowledge base extracted from 
Wikipedia - Journal: Semantic Web, vol. 6, no. 2 (2015) pp.167-195. 
6. Lu Xiao and Nicole Askin - Wikipedia for academic publishing: advantages and challenges” - 
Online Information Review, Vol. 38 Issue: 3 (2012) pp.332-347. 
7. J. Malone and Helen Parkinson - Reference and Application Ontologies - European Bioinformatics 
Institute, Cambridge, CB10 1SD, UK, 2010. 
8. Hans-Jörg Happel and Stefan Seedorf - Applications of Ontologies in Software Engineering - 2nd 
International Workshop on Semantic Web Enabled Software Engineering (SWESE 2006). 
ABSTRACT 
BUILDING COMPUTER SCIENCE ONTOLOGY BASED ON THE WIKIPEDIA AND 
DBPEDIA KNOWLEDGE BASE 
Nguyen Thi Bich Ngan 
Ho Ci Minh City University Of Food Industry 
Email: nganntb@cntp.edu.vn 
In this paper, we focus on the process to create an ontology, which contains data belonging to a 
specific field (namely computer science) by English language base on Wikipedia encyclopedia and 
DBpedia knowledge base. The building ontology problem is one of the importance steps to creat the 
knowledge base for studying about information extraction, semantic anotation, nature language 
processing. Nowadays, many approaches have proposed for this task. However, most of them have a long 
execution time because they must handle the huge data of Wikipedia, on the contrary, if the data is not 
extracted from Wikipedia, the coverage of information is not guaranteed. In our approach, we propose a 
method that filtering data base on characters of the mentioned field, in this paper we choose the computer 
science field, to reduce the handling time of the redundant data, but they still guarantee complete 
information because the original features are also selected from Wikipedia's categories list. The next, to 
create the ontology which is the best possible, and it can be enriched when there is a new data file. 
Besides, our approach proposed can apply for creating an ontology of anything field that has data in 
Wikipedia. 
Từ khóa: ontology, Wikipedia, DBpedia, Computer Science, create ontology. 

File đính kèm:

  • pdfxay_dung_ontology_thuoc_linh_vuc_khoa_hoc_may_tinh_dua_vao_c.pdf