Tiếp cận mới về đối sánh ontology

Tóm tắt – Đối sánh ontology tạo điều kiện trao đổi kiến thức giữa các nguồn dữ liệu đa dạng. Các phương pháp tiếp cận đối

sánh ontology sử dụng nhiều độ đo tương đồng cho các thực thể ánh xạ giữa các ontology. Tuy nhiên, nó vẫn còn là một thách thức

trong việc xử lý với các thực thể không rõ ràng mà các độ đo đối sánh ontology được sử dụng, tạo ra các kết quả trái ngược nhau về

sự tương đồng của các thực thể ánh xạ. Trong bài báo này, chúng tôi trình bày phương pháp tiếp cận mới OARS của chúng tôi, dựa

trên các tập thô để đối sánh ontology, nó đạt được mức độ chính xác cao trong các tình huống phát sinh các thực thể không rõ ràng,

do những kết quả trái ngược nhau được tạo ra bởi các độ đo tương đồng khác nhau. OARS sử dụng cách tiếp cận tổ hợp có tính

toán đến độ đo tương đồng về từ vựng và cấu trúc. OARS thực hiện việc so sánh tốt nhất ở độ đo recall và độ đo precision với một

số hệ thống đối sánh của tổ chức Ontology Alignment Evaluation Initiative (OAEI) 2010

pdf 15 trang phuongnguyen 3400
Bạn đang xem tài liệu "Tiếp cận mới về đối sánh ontology", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Tiếp cận mới về đối sánh ontology

Tiếp cận mới về đối sánh ontology
Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 
DOI: 10.15625/vap.2015.000211 
TIẾP CẬN MỚI VỀ ĐỐI SÁNH ONTOLOGY 
Huỳnh Nhứt Phát1, Hoàng Hữu Hạnh1, Phan Công Vinh2 
1Đại học Huế 
2Trường Đại học Nguyễn Tất Thành TP HCM 
huynhnhutphat@yahoo.com, hhhanh@hueuni.edu.vn, pcvinh@ntt.edu.vn 
Tóm tắt – Đối sánh ontology tạo điều kiện trao đổi kiến thức giữa các nguồn dữ liệu đa dạng. Các phương pháp tiếp cận đối 
sánh ontology sử dụng nhiều độ đo tương đồng cho các thực thể ánh xạ giữa các ontology. Tuy nhiên, nó vẫn còn là một thách thức 
trong việc xử lý với các thực thể không rõ ràng mà các độ đo đối sánh ontology được sử dụng, tạo ra các kết quả trái ngược nhau về 
sự tương đồng của các thực thể ánh xạ. Trong bài báo này, chúng tôi trình bày phương pháp tiếp cận mới OARS của chúng tôi, dựa 
trên các tập thô để đối sánh ontology, nó đạt được mức độ chính xác cao trong các tình huống phát sinh các thực thể không rõ ràng, 
do những kết quả trái ngược nhau được tạo ra bởi các độ đo tương đồng khác nhau. OARS sử dụng cách tiếp cận tổ hợp có tính 
toán đến độ đo tương đồng về từ vựng và cấu trúc. OARS thực hiện việc so sánh tốt nhất ở độ đo recall và độ đo precision với một 
số hệ thống đối sánh của tổ chức Ontology Alignment Evaluation Initiative (OAEI) 2010. 
Từ khóa – Ontology alignment, Rough sets, semantic matching, semantic interoperability. 
I. GIỚI THIỆU 
Các đối sánh ontology tạo thuận lợi để trao đổi kiến thức giữa các nguồn dữ liệu đa dạng. Một ontology là một 
đặc tả hình thức rõ ràng về các thuật ngữ trong một miền và các quan hệ giữa chúng. Hiện nay số lượng ontology phát 
triển, phổ biến là các ontology khác nhau với cùng tên miền duy nhất. Người thiết kế ontology có thể nghĩ tới những 
đối tượng khác biệt trong khi phát triển một ontology tùy thuộc vào nhu cầu ứng dụng của chúng. Việc xác định các 
đối tượng rõ ràng từ các ontology có sẵn sẽ là điều cần thiết cho phép đạt được kết quả tốt nhất với một tên miền cụ thể 
của việc chia sẻ kiến thức. Các ontology có thể đa dạng với nhiều hình thức khác nhau bao gồm cả sự đa dạng về thuật 
ngữ và đa dạng về khái niệm. Các hình thức đa dạng này phải được xử lý với một quá trình đối sánh ontology, nó đóng 
một vai trò quan trọng về khả năng trao đổi ngữ nghĩa giữa các ứng dụng. Quá trình đối sánh ontology sẽ tạo sự đối 
sánh giữa các thực thể có liên quan về ngữ nghĩa được xác định trong các ontology không đồng nhất, nó được phát 
triển với tên miền giống nhau. 
Trong những năm gần đây, một số hệ thống đối sánh đã được đề xuất bao gồm các hệ thống tự động, bán tự 
động và ứng dụng cụ thể được phân tích trong [1] [2]. Sơ đồ các kỹ thuật đối sánh cũng nghiên cứu sâu bởi cộng đồng 
nghiên cứu khi quá trình đối sánh ontology đòi hỏi việc xác định các tương ứng giữa các thực thể liên quan về ngữ 
nghĩa. Trong quá trình đối sánh tự động, các thực thể được chọn để ánh xạ khi mức độ tương đồng về ngữ nghĩa được 
tìm thấy và sẽ loại bỏ các thực thể không tương đồng về ngữ nghĩa. Hầu hết các phương pháp đối sánh ontology so 
sánh những điểm tương đồng, sử dụng nhiều kỹ thuật cơ bản và các kết quả của các kỹ thuật này được tổng hợp bởi 
một loạt các chiến lược kết hợp [3]. Sự kết hợp của các kỹ thuật về từ vựng và cấu trúc sẽ cho ra toàn bộ sự tương đồng 
tốt hơn của một khái niệm được xác định trong một ontology. Mỗi kỹ thuật đối sánh riêng biệt được xử lý như một 
công cụ đối sánh và các kết quả của tất cả các công cụ đối sánh có thể được tổng hợp với nhiều cách khác nhau để hoàn 
thiện quá trình liên kết. Những phương pháp kết hợp này có thể sử dụng các kỹ thuật trung bình có trọng số hoặc các 
phương pháp xác suất để tính toán khả năng có thể xảy ra của một thực thể trong một ontology nguồn là tương đồng 
với một thực thể trong một ontology đích. Tuy nhiên, vấn đề thực sự phát sinh khi phương pháp tổ hợp với các thực thể 
không rõ ràng, chúng không hoàn toàn tương đồng bởi vì những kết quả trái ngược nhau được tạo ra bởi các công cụ 
đối sánh riêng biệt. Vì vậy, việc tìm kiếm các thực thể không rõ ràng và xử lý với các thực thể không rõ ràng là một 
nhiệm vụ phức tạp so với việc tìm kiếm thực thể chỉ tương đồng hoặc không tương đồng trong quá trình đối sánh 
ontology. Như vậy, các thực thể không rõ ràng đang trở nên phổ biến hơn khi phần thông tin về một khái niệm có sẵn 
trong một ontology đem so sánh với phần thông tin có sẵn của cùng khái niệm trong một ontology khác. 
Bài báo này trình bày OARS, một cách tiếp cận mới về sự đối sánh ontology để xử lý đối với các thực thể 
không rõ ràng trong ánh xạ ontology. OARS xây dựng trên các tập Thô để tính toán sự tương đồng của các thực thể 
ontology trong quá trình liên kết. Trong OARS, đầu tiên các thực thể được đối sánh thông qua ba đối sánh cơ bản 
chúng dựa trên các cấu trúc, các chuỗi và các ngữ nghĩa tương ứng. Các thực thể đối với các công cụ đối sánh riêng 
biệt, không thể đạt được một ánh xạ nhất quán về sự tương đồng giữa chúng, sẽ được coi như những thực thể không rõ 
ràng và được xử lý bởi việc phân loại thành các tập Thô trong OARS. Các thực thể không được ánh xạ tạo ra từ ba đối 
sánh riêng biệt, được định nghĩa là các thuộc tính của các phần tử tương ứng của các tập Thô. OARS phân loại tập Thô 
là một tập các phần tử dựa trên các thuộc tính có sẵn và tính toán về việc phân loại các tập Thô để đạt được một quyết 
định ánh xạ trên các thực thể không rõ ràng. 
OARS đã được đánh giá về tính toàn diện bằng cách sử dụng các ontology chuẩn của tổ chức Ontology 
Alignment Evaluation Initiative (OAEI) 2010, Và nó thực hiện tốt nhất ở khía cạnh độ đo recall khi so sánh với một số 
708 TIẾP CẬN MỚI VỀ ĐỐI SÁNH ONTOLOGY 
hệ thống tham gia đối sánh của tổ chức OAEI. Ngoài ra, OARS cũng tạo ra một hiệu quả tương đương với độ đo 
precision. 
Điều đáng chú ý là OARS được mở rộng từ hệ thống đối sánh được đề xuất ban đầu bởi [4] và được đánh giá tốt 
cùng với ba nhóm tập dữ liệu chuẩn. Quan trọng hơn, ý nghĩa của việc sử dụng các tập Thô như là một phương pháp 
tổng hợp cũng được đánh giá trong bài báo này. Hơn nữa, chúng tôi đã tích hợp OARS vào SemFARM được phát triển 
trước đây [5], một khung ứng dụng cung cấp một cơ chế tìm kiếm hiệu quả cho việc ghi nhớ và truy hồi file trên các 
thiết bị di động được kết nối thông qua Bluetooth. Sự tích hợp của OARS cho phép SemFARM sử dụng kiến thức của 
nhiều ontology khi tìm kiếm một file trên các thiết bị được giới hạn về tài nguyên trong môi trường mạng, nó dẫn đến 
độ chính xác cao trong việc truy hồi file. 
Bài báo này có cấu trúc như sau. Phần I giới thiệu. Phần II các nghiên cứu liên quan về đối sánh ontology. 
Trong phần III, các độ đo tương đồng và quá trình đối sánh của OARS. Phần IV trình bày sự phân loại các tập Thô, nó 
xử lý các thực thể không rõ ràng trong ánh xạ ontology. Phần V đánh giá hiệu quả của OARS bằng cách sử dụng các 
ontology chuẩn của tổ chức OAEI 2010. Phần VI tích hợp OARS vào khung ứng dụng SemFARM để tăng cường việc 
truy hồi file trên các thiết bị di động, và Phần VII kết luận. 
II. CÁC NGHIÊN CỨU LIÊN QUAN VỀ ĐỐI SÁNH ONTOLOGY 
Trong những năm gần đây, một nghiên cứu quan trọng được tiến hành để xử lý quá trình đối sánh ontology. 
Trong phần này, chúng tôi xét các nghiên cứu liên quan về các phương pháp tiếp cận truyền thống, chúng ta không bàn 
đến vấn đề không rõ ràng trong quá trình ánh xạ và phương pháp tiếp cận mới sẽ quan tâm đến vấn đề này. 
A. Các phương pháp tiếp cận truyền thống đối sánh ontology 
Các phương pháp nghiên cứu này chủ yếu theo hai cách tiếp cận sau. Một cách tiếp cận sử dụng các công cụ đối 
sánh riêng lẻ để đối sánh với các thực thể ontology bằng cách so sánh thông tin về nhãn (tên) của chúng với các từ 
đồng nghĩa tương ứng. Thông thường WordNet được khai thác với cách tiếp cận như vậy. Ví dụ, khả năng tương đồng 
được thực hiện bởi Rodriguez và Egenhofer [6] dựa trên quá trình đối sánh, trong đó sử dụng bộ từ đồng nghĩa cùng 
với thông tin khác từ việc xác định ontology. Các đặc điểm khác của từ vựng cũng được khai thác để tìm các mối quan 
hệ giữa các thực thể như từ khái quát (hypernym), từ khu biệt (hyponym), từ từng phần (meronym) và từ toàn phần 
(holonym). Công cụ đối sánh riêng biệt dựa trên các hệ thống đối sánh chỉ thực hiện tốt trong việc đối sánh các 
ontology khi chúng có các cấu trúc bên trong và bên ngoài tương đồng. Việc sử dụng các kỹ thuật đối sánh về cấu trúc, 
sự so sánh được thực hiện giữa các thực thể dựa trên các đặc điểm về cấu trúc của chúng trong các ontology, dựa trên 
tập các thuộc tính, miền, các kiểu dữ liệu và số lượng phần tử. GMO là một ví dụ của công cụ đối sánh về cấu trúc 
trong đó có một tập các cặp được đối sánh ở đầu ra trong quá trình đối sánh và sử dụng đồ thị hai bên (bipartite graphs) 
để so sánh sự tương đồng về cấu trúc của các ontology khác nhau. Công cụ đối sánh V-Doc đo phạm vi các thuật ngữ 
của các thực thể tên miền về ý nghĩa của chúng trong mô hình không gian Vector. Tuy nhiên, bất kỳ kỹ thuật đối sánh 
trong sự tách biệt như GMO hoặc V-Doc vẫn chưa đầy đủ cho kết quả ánh xạ thích hợp. Vì lý do này, chúng tôi đưa ra 
cách tiếp cận OARS kết hợp chuỗi, ngữ nghĩa và các công cụ đối sánh dựa trên cấu trúc. 
Một cách tiếp cận khác là tổng hợp một số công cụ đối sánh riêng lẻ để đối sánh ontology. Ví dụ, RiMOM sử 
dụng nhiều công cụ đối sánh để tìm ra sự tương đồng về từ vựng và về cấu trúc giữa các thực thể và quyết định mở 
rộng lý thuyết Bayes để ánh xạ chúng. Các công cụ đối sánh cơ bản được xem là các chiến lược tách biệt so sánh sự 
phân loại, các ràng buộc, các mô tả, các tên, các thể hiện và tên các đường dẫn trong quá trình ánh xạ. Ở đầu vào, 
người sử dụng cũng được phép cải thiện các ánh xạ trong quá trình liên kết. Việc nâng cấp phiên bản của RiMOM khai 
thác hầu hết các kiến thức về ontology có sẵn bằng cách sử dụng chúng thông qua một kỹ thuật lựa chọn và kết hợp tất 
cả các giá trị tương đồng bởi hàm xích ma, và sau đó khởi tạo một thuật toán cải tiến đối sánh để hoàn thiện quá trình 
liên kết. Tuy nhiên, các thiết lập thông số trong RiMOM được đánh giá cao phụ thuộc vào các bước tiền xử lý trong đó 
hai yếu tố giống nhau được so sánh trong các ontology và sau đó các trọng số được gán cho các yếu tố khác nhau để 
kết hợp các kết quả cuối cùng. Điều này có nghĩa là nếu hai ontology có điểm tương đồng về cấu trúc, giá trị cao hơn 
sẽ được gán trọng số cho sự tương đồng về cấu trúc trong việc kết hợp các kết quả cuối cùng. Do đó, việc ánh xạ của 
các thực thể ontology này có sự tương đồng khác sẽ gặp khó khăn vì các thông số giống nhau sẽ được sử dụng cho tất 
cả các thực thể. Trong OARS, chúng tôi sử dụng sự phân loại các tập Thô cho mỗi thực thể riêng biệt và việc giải quyết 
ánh xạ được thực hiện trên cơ sở thực thể mà không ảnh hưởng đến quyết định tổng thể của các ánh xạ khác. 
Falcon-AO [3] sử dụng sự kết hợp về ngữ nghĩa, cấu trúc và sự phân vùng dựa vào các công cụ đối sánh trong 
quá trình ánh xạ. Falcon-AO dựa trên nghiên cứu đối sánh của V-Doc, I-Sub [7] và GMO. Falcon-AO cần đến sự kết 
hợp về tính tương đồng để kết hợp giá trị tương đồng tạo ra bởi mỗi công cụ đối sánh. Một tập các luật kết hợp được sử 
dụng để giảm tính không đồng nhất về cấu trúc như là một quá trình trước khi ánh xạ. Các kết quả đối sánh được trả về 
để xác định các mối quan hệ tương đương giữa các lớp và các thuộc tính. Isaac đánh giá về tính hiệu quả của Falcon-
AO trong việc sáp nhập từ điển đồng nghĩa, trong đó chủ yếu dựa vào thành phần về từ vựng của nó. Tuy nhiên, việc 
sử dụng ngữ nghĩa tương đồng, Falcon-AO không phân biệt giữa các thuộc tính kiểu dữ liệu và các thuộc tính đối 
tượng, trong khi OARS của chúng tôi sử dụng công cụ đối sánh ngữ nghĩa cho tính riêng biệt các lớp và các thuộc tính. 
Điều này tránh mọi khả năng của việc ánh xạ lớp thực thể của ontology này với thuộc tính thực thể của ontology khác. 
Huỳnh Nhứt Phát, Hoàng Hữu Hạnh, Phan Công Vinh 709 
ASMOV [7] là một công cụ đối sánh ontology tự động, nó sử dụng cả công cụ đối sánh về cấu trúc và từ vựng 
để tính toán sự tương đồng cho việc tích hợp ontology. ASMOV tự động hóa quá trình đối sánh bằng cách sử dụng trị 
trung bình có trọng số của các phép đo về sự tương đồng và nhận được một đối sánh lặp, sau đó nó được kiểm tra sự 
mâu thuẫn về ngữ nghĩa. Quá trình kiểm tra ngữ nghĩa sẽ xem xét các tương ứng phù hợp và không phù hợp. Nó cần 
thực hiện nhiều hơn để hoàn thành kết quả ánh xạ và các kết quả thực hiện trung gian giữa việc lặp đi lặp lại được sử 
dụng để cải thiện các giai đoạn xử lý tiếp theo của liên kết. Tuy nhiên, quá trình kiểm tra không đưa ra các luật hiệu 
quả cho các đối sánh chưa được kiểm tra. 
Thuật toán SOBOM tìm các ràng buộc ở bước đầu tiên và sử dụng Semantic Inductive Similarity Flooding 
(SISF) để phủ kín sự tương đồng giữa các khái niệm. Sau đó, nó sử dụng các kết quả của SISF để tìm ra các mối quan 
hệ giữa các liên kết. Thuật toán SOBOM phụ thuộc nhiều về độ đo precision của các ràng buộc được trả về bởi việc đối 
sánh ngữ nghĩa, tức là việc thực hiện đối sánh tổng thể sẽ bị giảm nếu việc đối sánh mất khái niệm ràng buộc. 
AgrMaker sử dụng ba lớp kiến trúc, trong đó bao gồm một số khái niệm và cấu trúc dựa vào các công cụ đối 
sánh. Nó kết hợp các kết quả bằng cách sử dụng độ đo lân cận đáng tin cậy. AgrMaker chủ yếu tập trung vào việc đưa 
ra các luật để kết hợp các tập ánh xạ khác nhau chứ không phải xác định việc đối sánh với chính nó. CODI sử dụng 
logic Markov dựa vào đối sánh theo xác suất mà biến đổi quá trình đối sánh thành một giải pháp tối ưu hóa Maximum-
a-Posteriori. Nó kết hợp các độ đo tương đồng về từ vựng với thông tin lược đồ để đối sánh với các thực thể trong quá 
trình liên kết. Hiệu quả của CODI là phụ thuộc nhiều vào các ánh xạ tiền liên kết. 
TaxoMap sẽ đưa vào lời giải thích mô tả các nhãn và lớp con của các ontology với sự đối sánh và sử dụng 
Partition dựa trên thuật toán Block Matching cho phép việc sử dụng các ánh xạ tương đương được xác định trước để 
phân vùng các ontology thành các cặp ánh xạ nếu có thể. MapPSO xem đối sánh ontology là một giải pháp tối ưu hóa 
và sử dụng thuật toán Discrete Particle Swarm Optimization để giải quyết vấn đề. Việc sử dụng phương pháp tiếp cận 
MapPSO, mọi tính chất được cập nhật và điều chỉnh việc lặp lại cho các tính chất miêu tả tốt nhất trong nhóm. Tuy 
nhiên, hiệu quả của MapPSO phụ thuộc vào việc lựa chọn các công cụ đối sánh có chất lượng và kết hợp lại. 
Các hệ thống nói trên có giá trị nhất định trong việc đối sánh ontology, chúng chỉ xét đến các thực thể rõ ràng 
trong quá trình liên kết. Trong khi OARS, chúng tôi có xét đến các thực thể không rõ ràng như đề cập trong phần 1. 
B. Phương pháp tiếp cận mới để đối sánh ontology 
Hiện nay chỉ có một vài hệ thống đối sánh ontology đã đề cập đến sự không rõ ràng trong quá trình ánh xạ. Ví 
dụ, hệ thống đối sánh được đề xuất bởi [12] trong việc xử lý các thực thể không rõ ràng, nó sử dụng Lý thuyết 
Dempster-Shafer để tổng hợp các kết quả ánh xạ được tạo  ... h dựa trên chuỗi và cấu trúc 
đối với liên kết, 
A3 = (Sim_strng(ei, ei’) + Sim_strc(ei, ei’))/2 (15) 
• Cuối cùng, A4 sử dụng giá trị trung bình của các kết quả được tạo ra bởi các đối sánh về chuỗi, ngữ nghĩa và 
cấu trúc đối với liên kết, 
A4 = (Sim_strng(ei, e’i) + Sim_lin(wi, w’i) + Sim_strc(ei, e’i))/3 (16) 
Chúng tôi chọn nhóm 3xx của các ontology thử nghiệm từ các tập dữ liệu chuẩn bởi vì nó chứa các ontology về 
thế giới thực như mô tả trong Phần V mục A. Hình 3 cho thấy các kết quả so sánh của các phương pháp A1, A2, A3 và 
A4. 
Tập các ontology trong nhóm 3xx có các điểm tương đồng về chuỗi lớn hơn các điểm tương đồng về cấu trúc và 
ngữ nghĩa trong việc so sánh với ontology tham khảo. Từ Hình 3 nó cũng cho thấy các thuật toán (A1, A3 và A4) sử 
dụng đối sánh dựa trên chuỗi cho các kết quả với F-measure tốt hơn A2, nó không sử dụng việc đối sánh dựa trên 
chuỗi. Điều này cũng cho thấy tầm quan trọng của việc đối sánh riêng lẻ trong việc đối sánh các ontology với các tính 
năng thích hợp. Đối sánh ngữ nghĩa không thực hiện tốt với các ontology trong nhóm 3xx vì nó không thể xử lý một 
số thực thể với phần tiền tố như “abstract”=“hasAbstract”, “volume”= “hasVolume” và “copyright”=”hasCopyright” 
bằng cách sử dụng các tập đồng nghĩa WordNet. Như vậy các kết quả làm giảm hiệu quả ánh xạ tổng thể của các đối 
sánh khác khi giá trị trung bình của tất cả các đối sánh được thực hiện trong sự kết hợp. Trong Hình 3, thuật toán A3 
không xét kết quả của việc đối sánh về ngữ nghĩa đem lại một giá trị F-measure tốt hơn so với các thuật toán khác. 
Huỳnh Nhứt Phát, Hoàng Hữu Hạnh, Phan Công Vinh 717 
Chúng tôi cũng so sánh hiệu quả của OARS với phương pháp A4 sử dụng các ontology của nhóm 3xx. Như thể 
hiện trong Hình 4, có một cải tiến đáng kể về hiệu quả của OARS khi so sánh với A4 trong ba khía cạnh. Các giá trị 
precision, recall và F-measure của A4 là 0.805, 0.582 và 0.675 tương ứng trong khi đối với OARS những giá trị này là 
0.862, 0.845 và 0.83 tương ứng. Việc cải thiện tổng thể đạt được bởi OARS với F-measure là 22.96% so với phương 
pháp A4. 
Hình 3. Hiệu quả của bốn thuật toán tổng hợp 
Các kết quả đánh giá này khẳng định rằng không có đối sánh riêng lẻ đủ đạt được độ chính xác cao trong đối 
sánh ontology. Quan trọng hơn, các kết quả tổng hợp của các đối sánh riêng lẻ bằng cách lấy giá trị trung bình không 
những thiếu sót mà còn có thể làm suy giảm hiệu quả ánh xạ tổng thể khi một số đối sánh hiện tại có các giá trị tương 
đồng thấp. 
Hình 4. Sự so sánh các thuật toán tổng hợp 
2. Chuẩn hóa trong việc phân loại các tập thô 
Để chọn giá trị thích hợp nhất đối với các kết quả chuẩn hóa của các đối sánh riêng lẻ cho việc phân loại các tập 
Thô, chúng tôi thực hiện các thử nghiệm khác nhau, thấy rằng các giá trị chuẩn hóa là 50, 33.33, 25, 20, 10 và 5. Các 
thử nghiệm này đã thực hiện trên nhóm 2xx của tập dữ liệu chuẩn. Hình 5 cho thấy OARS đạt giá trị recall cao nhất 
bằng cách sử dụng giá trị chuẩn hóa là 50, nhưng mặt khác, nó cho giá trị precision thấp nhất. Tương tự như vậy, bằng 
cách sử dụng giá trị chuẩn hóa là 5, OARS đem lại giá trị precision cao nhất, nhưng cho giá trị recall thấp nhất. Chúng 
tôi sử dụng giá trị chuẩn hóa là 10, OARS khi đó đem lại độ đo F-measure tốt nhất. 
3. So sánh OARS với các hệ thống đối sánh hiện nay 
Phần này đánh giá OARS trong việc so sánh với một số hệ thống đối sánh tham gia vào tổ chức OAEI 2010 
bằng cách sử dụng các tập dữ liệu chuẩn của nhóm 1xx, nhóm 2xx và nhóm 3xx tương ứng. 
Nhóm 1xx 
Hầu hết các hệ thống đối sánh trong việc so sánh đạt được các kết quả hoàn hảo đối với các ontology trong 
nhóm 1xx với các giá trị precision và recall. Tuy nhiên, có một ngoại lệ là TaxoMap đạt được giá trị recall thấp là 0.34. 
Việc thực hiện tốt các hệ thống đối sánh trong các thử nghiệm này chủ yếu là do thực tế các ontology trong nhóm 1xx 
có các thực thể tương đồng rất cao. Vì không có tính đa dạng về cấu trúc trong số các ontology này, chỉ có các đối sánh 
dựa trên chuỗi và ngữ nghĩa đã được sử dụng trong OARS đối với đối sánh ontology trong nhóm 1xx. 
718 TIẾP CẬN MỚI VỀ ĐỐI SÁNH ONTOLOGY 
Hình 5. Đánh giá sự chuẩn hóa 
Nhóm 2xx 
Hầu hết các ontology trong nhóm 2xx được đối sánh phù hợp bởi OARS sử dụng đối sánh về ngữ nghĩa dựa 
trên WordNet để xử lý với các từ đồng nghĩa (ví dụ trong thử nghiệm 205). Đối sánh dựa vào chuỗi cũng thực hiện tốt 
trên chuỗi không đồng nhất. Đối sánh về ngữ nghĩa được chứng minh có tính hiệu quả trong các ontology mà các ngữ 
nghĩa được sử dụng, ví dụ trong các ontology thử nghiệm 201, 202 và 248-266. Hơn nữa, các ontology chỉ thay đổi về 
cấu trúc cũng được giải quyết thành công trong OARS bởi vì khi thông tin này đã được chặn lại, những điểm tương 
đồng về ngữ nghĩa hoặc chuỗi vẫn có sẵn trong các ontology. Chúng tôi thấy rằng tác vụ đối sánh đang thách thức 
nhiều nhất là xử lý với các ontology này, trong đó các thay đổi cả về cấu trúc và các nhãn đã được thực hiện. Trong các 
thử nghiệm về nhóm 2xx, OARS đạt được giá trị recall tốt nhất trong số các hệ thống đối sánh như thể hiện trong Hình 
6, vì khả năng của nó xử lý với các thực thể không rõ ràng trong việc ánh xạ ontology. Điều đáng chú ý là hệ thống đối 
sánh khác như ASMOV, AgrMaker và RiMOM cũng đạt được các giá trị recall cao là 0.89, 0.83 và 0.84 tương ứng. 
Nhóm 3xx 
Có 4 ontology về thế giới thực trong nhóm 3xx có sự kết hợp về tính tối nghĩa tìm thấy trong nhóm dữ liệu 2xx. 
Với các thử nghiệm trên nhóm dữ liệu 3xx, do có rất ít thông tin về cấu trúc có sẵn trong các ontology này, ví dụ như 
ontology 302, OARS chủ yếu dựa vào chuỗi và ngữ nghĩa đối sánh trong việc đối sánh các ontology trong nhóm 3xx. 
Các kết quả thử nghiệm của nhóm này được trình bày trong Hình 7, nó cho thấy ASMOV đem lại kết quả recall tốt 
nhất, tiếp theo là OARS với giá trị recall là 0.86. 
Hình 6. Các kết quả đánh giá với nhóm 2xx 
Điều đáng chú ý là hiệu quả của OARS với precision có thể so sánh với các hệ thống đối sánh khác được phản 
ánh trong cả Hình 6 và Hình 7 tương ứng. 
Hình 7. Các kết quả đánh giá về nhóm 3xx 
Huỳnh Nhứt Phát, Hoàng Hữu Hạnh, Phan Công Vinh 719 
VI. TÍCH HỢP OARS VÀO SEMFARM 
Để khai thác các khả năng đối sánh ontology của OARS trong SemFARM, module tìm kiếm được thực hiện 
trong SemFARM. Quá trình ghi nhớ các file một cách tự động với ba thuộc tính cơ bản và hai tên miền được người sử 
dụng nhập vào. Dữ liệu tổng hợp được phân tích một cách tự động và lưu trữ vào XML có cấu trúc văn bản được mô tả 
trong [5]. Hình 8 cho thấy toàn bộ quá trình module tìm kiếm của SemFARM, trong đó các truy vấn file đầu vào được 
trả lời sau khi sáp nhập hai ontology hiện hành. Khi các ontology OWL tìm thấy trên hệ thống có các truy vấn, trước 
tiên chúng tạo đối sánh giữa các ontology và các đối sánh này được kết hợp để sử dụng như một ontology đơn. Các đối 
sánh này được sinh ra khi sáp nhập của hai ontology đầu vào. Sau khi ontology được sáp nhập sẽ nhận được mô hình 
ontology và được đối sánh với mô hình RDF để tạo thành mô hình suy diễn. Mô hình RDF được tạo ra một cách tự 
động từ XML bởi mô-đun chuyển đổi từ XML sang RDF như được thể hiện trong Hình 8. Cuối cùng, truy vấn tìm 
kiếm file được trả lời thông qua mô hình suy diễn. 
Hình 8. File truy hồi trong SemFARM 
A. Đánh giá file truy hồi trong SemFARM 
Một ontology bổ sung được khai thác để đánh giá hiệu quả của SemFARM cho phép bởi OARS. Khái niệm 
miền của ontology bổ sung được chọn từ một khái niệm con của ontology chính được sử dụng trong việc thực hiện của 
SemFARM. Mục đích chính là để đánh giá tính hiệu quả của OARS với sự hỗ trợ của đối sánh ontology trong 
SemFARM. 
B. Đánh giá tính hiệu quả của SemFARM 
Hai trường hợp sau đây cho việc đánh giá: 
• Case-1: SemFARM không có OARS 
Một ontology chính được sử dụng để truy hồi các file theo yêu cầu. Trong trường hợp này, module tìm kiếm của 
SemFARM được sử dụng để trích xuất các thông tin từ ontology chính. Do đó, chỉ một ontology chính được sử 
dụng trong trường hợp này. 
• Case-2: SemFARM với OARS 
Hai ontology được sử dụng để truy hồi các file theo yêu cầu. Module tìm kiếm của SemFARM có sử dụng 
OARS, nó đối sánh ontology chính và ontology phụ. Trong trường hợp này, nhiều kiến thức thu được bằng cách 
sử dụng hai ontology. 
Chúng tôi sử dụng ba thử nghiệm để chứng minh tính hiệu quả việc đối sánh ontology của OARS trong việc 
truy hồi tập tin. Giá trị precision và recall được tính trung bình với ba kết quả thử nghiệm. Trong mỗi thử nghiệm, số 
file với các từ khóa khác nhau, được coi là có liên quan đến truy vấn tìm kiếm file. Số file liên quan có các giá trị recall 
khác nhau. Cần lưu ý rằng một số file với các từ khóa, không được xác định bởi ontology chính. Tuy nhiên, những từ 
khóa này có thể xác định trong ontology phụ nhưng với một miền khái niệm có giới hạn. 
Hơn nữa, các từ truy vấn được sử dụng trong mỗi thử nghiệm khác nhau, được bảo đảm rằng các từ truy vấn này 
bao gồm các từ khóa xác định trong cả hai ontology, để cho ra cho một kết quả tốt với cả hai trường hợp. Tương tự, các 
từ truy vấn giống nhau cũng được sử dụng cho cả hai trường hợp trong mỗi thử nghiệm tương ứng. 
720 TIẾP CẬN MỚI VỀ ĐỐI SÁNH ONTOLOGY 
C. Tính toán Precision và Recall 
Việc so sánh tổng thể của hai trường hợp cho thấy một sự cải tiến của Case-2 đối với Case-1 với quan hệ 
precision so với cùng giá trị của recall như diễn tả trong Hình 9. 
Hình 9. Hiệu quả của SemFARM được chấp nhận bởi OARS 
Các giá trị precision trung bình của Case-1 và Case-2 là 0.65 và 0.72 tương ứng so với cùng giá trị recall là 0.5. 
Ta thấy rằng việc giảm các giá trị precision trong Case-2 là ít hơn của Case-1 khi giá trị recall thay đổi từ 0.1 đến 1. 
Kết quả cho thấy rằng các giá trị precision giảm từ 1 đến 0.49 trong Case-1 và từ 1 đến 0.61 trong Case-2 khi các giá trị 
recall tương ứng tăng từ 0.1 đến 1. Các giá trị precision cho Case-2 và Case-1 là 0.616 và 0.492 tương ứng khi giá trị 
recall là 1. Cần lưu ý rằng các giá trị precision là như nhau trong cả hai trường hợp khi giá trị recall là 0.1. 
VII. KẾT LUẬN 
Trong bài báo này, chúng tôi đã trình bày OARS, một hệ thống đối sánh ontology sử dụng các tập Thô để xử lý 
các thực thể không rõ ràng trong việc ánh xạ. Việc sử dụng các tập Thô đã được chứng minh tính hiệu quả với các thực 
thể ánh xạ mà đối sánh riêng lẻ không thể đưa ra quyết định trong việc ánh xạ ontology. Ý nghĩa của việc sử dụng các 
tập Thô như là một phương pháp tổng hợp để đánh giá và so sánh với một số hệ thống đối sánh hiện có bằng cách sử 
dụng các tập dữ liệu chuẩn ontology của tổ chúc OAEI năm 2010. Các kết quả được đánh giá cao. Tính hiệu quả của 
OARS trong khung ứng dụng SemFARM cũng được nâng cao. 
Hiện nay, chúng tôi đang nghiên cứu quá trình thử nghiệm của OARS để cải thiện tính hiệu quả của nó với giá 
trị precission mà không làm giảm giá trị recall. Với mục đích này, chúng tôi đang có kế hoạch sử dụng tính tương đồng 
của thông tin được phân cấp giữa các thực thể ontology. Chúng tôi cũng có kế hoạch tham gia tổ chức OAEI trong 
tương lai. Chú ý là OARS với hình thức hiện nay không thể đối sánh các ontology với các ngữ nghĩa diễn tả cho các 
thực thể lớp. Vì vậy, chúng tôi đang có kế hoạch tích hợp một vài từ điển về ngữ nghĩa vào việc đối sánh, cho phép 
OARS đối sánh các ontology với các ngữ nghĩa khác nhau. 
VIII. TÀI LIỆU THAM KHẢO 
[1] P. Shvaiko, J. Euzenat, “A Survey of Schema-based Matching Approaches”, Journal on Data Semantics IV, vol. 
3730, pp. 146-171, 2005. 
[2] N. F. Natalya “Semantic Integration: A Survey of Ontology-based Approaches”, ACM SIGMOD Record, vol. 33, 
no. 4, pp. 65-70, 2004. 
[3] W. Hu, Y. Qu, “Falcon-AO: A Practical Ontology Matching System ”, Journal of Web Semantics, pp. 237-239, 
vol. 6, no. 3, 2008. 
[4] S Jan, M Li, G Al-Sultany, H Al- Raweshidy, “Ontology Alignment using Rough Sets”, in Proc. of the 8th 
International Conference on Fuzzy Systems and Knowledge Discovery (FSKD), pp. 2683-2686, 2011. 
[5] S. Jan, M. Li, G. Al-Sultany, Hamed Al-Raweshidy and I.A Shah, “Semantic File Annotation and Retrieval on 
Mobile Devices”, Mobile Information Systems, vol. 7, no. 2, pp. 107-122, 2011. 
[6] M. Rodriguez and M. Egenhofer, “Determining Semantic Similarity among Entity Classes from Different 
Ontologies”, IEEE Transactions on Knowledge and Data Engineering, vol. 15, no. 7, pp. 442-456, 2003. 
[7] G. Stoilos, G. Stamou, S. Kollias, “A String Metric for Ontology Alignment”, In proc. of the 4th International 
Semantic Web Conference, Springer LNCS, vol. 3729, pp. 624-637, 2005. 
[8] Y. R. Jean-Mary, E. P. Shironoshita, M. R. Kabuka, “Ontology Matching with Semantic Verification”, Journal of 
Web Semantics, vol. 7, no.3 , pp. 235-251, 2009. 
[9] H. Li, X. Zhou and B. Huang, "Method to Determine α in Rough set Model based on Connection Degree", Journal 
of Systems Enginee ring and Electronics, vol. 20, no. 1, pp.98–105, 2009. 
Huỳnh Nhứt Phát, Hoàng Hữu Hạnh, Phan Công Vinh 721 
[10] W. W. Cohen, P. Ravikumar, and S. E. Fienberg, “A Comparison of String Distance Metrics for Name-Matching 
Tasks”, in Proc. of the Workshop on Information Integration on the Web, pp. 73-78, 2003. 
[11] Z. Pawlak, “Rough Sets”, International Journal of Information & Computer Sciences, vol. 11, pp. 341-356. 1982 
[12] Y. Wang, W. Liu and D. Bell, “Combining Uncertain Outputs from Multiple Ontology Matchers”, In proc. of the 
1st International Conference on Scalable Uncertainty Management, Lecture Notes in Computer Science, Springer, 
vol. 4772. pp. 201–214, 2007. 
[13] D. Sánchez, M. Batet, D. Isern, and A. Valls, " Ontology-based Semantic Similarity: A New Feature-based 
Approach", Expert Systems with Applications, vol. 39, no. 9, pp. 7718-7728, 2012. 
[14] N. Seco, T . Veale, J. Hayes, "An Intrinsic Information Content Metric for Semantic Similarity in WordNet", in 
Proc. of the 16th Eur opean Conference on Artificial Intelligence (EACI'04), pp. 1089-1090, 2004. 
NEW APPROACH FOR ONTOLOGY ALIGNMENT 
Huỳnh Nhứt Phát, Hoàng Hữu Hạnh, Phan Công Vinh 
ABSTRACT - Ontology alignment facilitates exchange of knowledge among heterogeneous data sources. Many approaches to 
ontology alignment use multiple similarity measures for mapping entities between ontologies. However, it remains a key challenge 
in dealing with uncertain entities for which the employed ontology alignment measures produce conflicting results on similarity of 
the mapped entities. This paper presents OARS, a Rough sets based new approach to ontology alignment which achieves a high 
degree of accuracy in situations where uncertainty arises because of the conflicting results generated by different similarity 
measures. OARS employs a combinational approach and considers both lexical and structural similarity measures. OARS is 
extensively evaluated with the benchmark ontologies of the Ontology Alignment Evaluation Initiative (OAEI) 2010, and performs 
best in the aspect of recall and precision in comparison with a number of alignment systems. 

File đính kèm:

  • pdftiep_can_moi_ve_doi_sanh_ontology.pdf