Một thuật toán tối ưu đàn kiến dóng hàng toàn cục mạng tương tác protein
TÓM TẮT - Dóng hàng toàn cục mạng tương tác protein là một trong những bài toán quan trọng trong tin sinh học và đang
được nhiều người quan tâm nghiên cứu. Các mạng được dóng hàng chính xác cho phép ta có thể xác định các orthologous protein.
Bài viết này, chúng tôi giới thiệu một thuật toán dóng hàng toàn cục mạng tương tác protein dựa trên phương pháp tối ưu hoá đàn
kiến. Các thực nghiệm cho thấy phương pháp đề xuất cho kết quả tốt hơn hẳn các phương pháp mới nhất hiện nay.
Bạn đang xem tài liệu "Một thuật toán tối ưu đàn kiến dóng hàng toàn cục mạng tương tác protein", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Một thuật toán tối ưu đàn kiến dóng hàng toàn cục mạng tương tác protein
Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: 10.15625/vap.2015.000183 MỘT THUẬT TOÁN TỐI ƯU ĐÀN KIẾN DÓNG HÀNG TOÀN CỤC MẠNG TƯƠNG TÁC PROTEIN Trần Ngọc Hà1, Hoàng Xuân Huấn2 1Trường ĐH Sư phạm – Đại học Thái Nguyên. 2Trường ĐH Công nghệ - Đại học Quốc gia Hà Nội. hatn@tnu.edu.vn, huanhx@vnu.edu.vn TÓM TẮT - Dóng hàng toàn cục mạng tương tác protein là một trong những bài toán quan trọng trong tin sinh học và đang được nhiều người quan tâm nghiên cứu. Các mạng được dóng hàng chính xác cho phép ta có thể xác định các orthologous protein. Bài viết này, chúng tôi giới thiệu một thuật toán dóng hàng toàn cục mạng tương tác protein dựa trên phương pháp tối ưu hoá đàn kiến. Các thực nghiệm cho thấy phương pháp đề xuất cho kết quả tốt hơn hẳn các phương pháp mới nhất hiện nay. Từ khóa - Dóng hàng toàn cục, mạng tương tác protein, tối ưu đàn kiến. I. GIỚI THIỆU Trước cách tiếp cận dóng hàng mạng, việc phát hiện nhóm các orthologous protein chỉ dựa trên các quan hệ tiến hóa, với tiêu chí thường được sử dụng là độ tương tự về mặt trình tự [1, 23]. Tuy nhiên, chỉ tính tương đồng trình tự thường không đủ để xác định các phức hợp protein được bảo tồn [12, 24, 26]. Sự phát triển của các kỹ thuật công nghệ sinh học trong hơn thập kỷ qua đã cho phép xây dựng được các mạng tương tác protein Protein-Protein Interraction Network – PPI Network) cho nhiều loài sinh vật. Từ các dữ liệu này, một số bài toán về phân tích mạng PPI đã được đặt ra (xem [3, 7, 15-17]), chẳng hạn như: phân tích cấu trúc tô pô mạng [9], phát hiện mô-đun [2]... Trong đó, đặc biệt quan trọng là các bài toán dóng hàng mạng PPI dựa trên kết hợp thông tin về sự tương tác giữa các protein cùng với mối quan hệ tiến hóa giữa các trình tự. Việc so sánh tính tương đồng của các mạng PPI này cung cấp nhiều thông tin hữu ích cho dự đoán các chức năng chưa biết hoặc kiểm định các chức năng đã biết của các proteins [8, 11, 25]. Các phương pháp dóng hàng mạng tương tác Protein được chia thành 2 hướng tiếp cận: dóng hàng cục bộ và dóng hàng toàn cục. Mục tiêu của dóng hàng cục bộ là xác định các mạng con gần nhau về cấu trúc mạng và/hoặc tương tự nhau về trình tự) (xem [13, 14, 21, 24]). Với mục tiêu đó, kết quả của dóng hàng cục bộ thường chứa nhiều mạng con chồng lấn nhau, vì vậy có thể dẫn tới sự nhập nhằng khi dóng hàng một protein với nhiều protein khác. Mục tiêu của phương pháp dóng hàng toàn cục giữa 2 mạng protein là tránh các nhập nhằng thường gặp ở phương pháp dóng hàng cục bộ. Bài toán này được Aladag và Erten chứng minh là bài toán NP khó [1]. Thuật toán dóng hàng toàn cục đáng chú ý đầu tiên là IsoRank [25] được Sing et al. (2008) đề xuất, phát triển dựa trên dóng hàng cục bộ. Sau IsoRank, một số thuật toán tương tự đã được đề xuất như PATH và GA [25], PISwap [4, 5] nhờ đưa thêm các nới lỏng thích hợp của hàm đánh giá trên tập các ma trận ngẫu nhiên hoặc ứng dụng tìm kiếm cục bộ trên dóng hàng thu được từ lời giải một thuật toán khác. MI-GRAAL [15,16] và các biến thể [19,20] dựa trên kết hợp kỹ thuật tham ăn với thông tin heuristics như: graphlet, hệ số phân nhóm, độ lập dị (eccentricities) và độ tương tự (giá trị E-values từ chương trình BLAST). Các thuật toán này đều đưa ra kết quả nhanh và tốt hơn so với các thuật toán trước đó. Tuy nhiên, những thuật toán đã nêu chỉ tối ưu cho độ chính xác (hàm mục tiêu) hoặc tính khả mở. Vì các mạng PPI có thường số đỉnh lớn nên cả tính chính xác và tính khả mở (thời gian chạy) cần được quan tâm. Aladag và Erten (2013) đề xuất thuật toánSPINAL [1] heuristic có thời gian đa thức cho kết quả tương đối tốt. Thuật toán này gồm hai pha: pha đầu tính điểm tương đồng cho tất cả cặp protein; pha sau xây dựng đơn ánh bằng cách cải tiến một cách cục bộ từng tập con của lời giải hiện có. Các thực nghiệm được chạy trên các bộ dữ liệu tiêu chuẩn là Saccharomyces cerevisiae, Drosophila melanogaster, Caenorhabditiselegans và Homo sapiens cho thấy SPINAL cho chất lượng lời giải tốt hơn 2 thuật toán tốt nhất khi đó là IsoRank và MI-GRAAL. Gần đây, Đỗ Đức Đông và các cộng sự (2014) cũng đã giới thiệu một thuật toán ngẫu nhiên FastAn [6] gồm 2 giai đoạn; giai đoạn đầu là thủ tục xây dựng dóng hàng thô theo cách tiếp cận heuristic. Sau đó tiến hành thủ tục rebuild nhờ giữ lại một số cặp đỉnh tốt nhất đã được dóng hàng trong lời giải xây dựng được ở giai đoạn 1 và dóng hàng lại cho các cặp đỉnh còn lại để tăng chất lượng lời giải. Các thực nghiệm cho thấy FastAn có kết quả tốt hơn cả về thời gian chạy và chất lượng lời giải so với SPINAL. Bài báo này đề xuất một phương pháp dóng hàng toàn cục mạng tương tác protein dựa trên tối ưu đàn kiến gọi là ACOGA. Thuật toán được thực hiện theo nhiều vòng lặp, trong mỗi vòng lặp, các kiến đi xây dựng lời giải, sau đó lời giải của kiến tốt nhất sẽ được lựa chọn để cập nhật vết mùi và sử dụng tìm kiếm cục bộ để tăng chất lượng lời giải. Kết quả thực nghiệm cho thấy thuật toán đề xuất cho chất lượng lời giải tốt hơn nhiều so với FastAn. Ngoài kết luận, phần còn lại của bài báo có cấu trúc như sau: Phần 2 giới thiệu các khái niệm liên quan đến bài toán dóng hàng toàn cục mạng tương tác Protein. Thuật toán mới ACOGA được giới thiệu ở phần 3. Phần 4 trình bày các thực nghiệm so sánh hiệu quả của thuật toán đề xuất với các thuật toán FastAn. 472 MỘT THUẬT TOÁN TỐI ƯU ĐÀN KIẾN DÓNG HÀNG TOÀN CỤC MẠNG TƯƠNG TÁC PROTEIN II. BÀI TOÁN DÓNG HÀNG TOÀN CỤC MẠNG TƯƠNG TÁC PROTEIN Giả sử 1 1 1( , )G V E= và 2 2 2( , )G V E= là 2 đồ thị mô tả 2 mạng tương tác protein, trong đó V1, V2 tương ứng là tập các đỉnh mô tả các protein trong các mạng G1 và G2 tương ứng;; E1, E2 là tập các cạnh mô tả các tương tác giữa các protein tương ứng trong G1, G2. Không mất tính tổng quát ta có thể giả thiết 1 2| | | |v v< , trong đó |V| ký hiệu số phần tử của tập V. Dóng hàng mạng toàn cục là tìm một đơn ánh từ tập V1 vào tập V2 tốt nhất theo một tiêu chuẩn đánh giá nào đó. Ở mỗi nghiên cứu, người ta đề xuất các tiêu chuẩn đánh giá khác nhau. Dưới đây là định nghĩa được sử dụng chủ yếu trong các nghiên cứu trước đây [1, 4, 5, 16, 25]. Định nghĩa 1. (Dóng hàng mạng) Đồ thị ( )12 12 12 , A V E= được coi là dóng hàng mạng của 2 đồ thị 1 1 1( , )G V E= và 2 2 2( , )G V E= nếu nó thoả mãn các điều kiện sau: i) Mỗi nút 12,i ju v V∈ tương ứng với một cặp ݑ ∈ ଵܸ và ݒ ∈ ଶܸ. ii) Hai nút phân biệt ൏ ݑ, ݒ và ൏ ݑ′ , ݒ′ của ଵܸଶ phải thoả mãn ݑ ് ݑ′ và ݒ ് ݒ′ iii) Cạnh ሺ൏ ݑ, ݒ ,൏ ݑ′ , ݒ′ ሻ thuộc tập E12 khi và chỉ khi (ݑ, ݑ′ ሻ ∈ ܧଵvà ሺݒ, ݒ′ሻ ∈ ܧଶ. Định nghĩa 2. (Dóng hàng tối ưu toàn cục mạng tương tác protein) Một dóng hàng ܣଵଶ ൌ ሺ ଵܸଶ, ܧଵଶሻ là lời giải của bài toán dóng hàng toàn cục 2 mạng tương tác protein ܩଵ, ܩଶ nếu nó làm cực đại tiêu chí GNAS cho bởi công thức (1): 12 12 , ( ) (1 ) ( , ) i j i ju v GNAS A E similar u vα α ∀ = + − ∑ (1) trong đó α∈ ሾ0,1ሿ là tham số thể hiện mối tương quan giữa sự tương đồng về cấu trúc mạng và độ tương đồng về trình tự. Giá trị݈ܵ݅݉݅ܽݎ൫ݑ, ݒ൯ được tính xấp xỉ nhờ sử dụng BLAST bit-scores hay E-values. Theo nghiên cứu của Aladag và Erten [1] bài toán tìm tối ưu toàn cục của dóng hàng mạng đã được chứng minh là NP khó. III. THUẬT TOÁN ĐỀ XUẤT A. Lược đồ chung Cho các đồ thị 1 2,G G ; tham số α và các độ tương tự của các cặp đỉnh ,i ju v trong đó 1 2,i ju V v V∈ ∈ . Với mỗi tập con các cặp đỉnh ଵܸଶ của tập ଵܸ ൈ ଶܸ, ta ký hiệu { } { }1 212 1 12 12 2 12: , , : ,i i j j i jV u V u v V V v V u v V= ∈ ∈ = ∈ ∈ ( 12 iV là tập các cặp các đỉnh thuộc tập đỉnh iV của đồ thị iG đã được dóng hàng). Thuật toán ACOGA được xây dựng như dưới đây: Bước 1. Khởi tạo ma trận vết mùi, và tập A gồm m kiến. Bước 2. Thực hiện lặp trong khi chưa thoả mãn điều kiện dừng Với mỗi kiến ta tiến hành các bước sau: 2.1. Khởi tạo tập { }12 , i juV v= là cặp đỉnh có độ tương đồng lớn nhất. 2.2 Thực hiện lặp với k= 2 tới 1V 2.2.1. Tìm đỉnh 11 12iu V V∈ − có số cạnh tới các đỉnh trong 1 12V lớn nhất; 2.2.2.Tìm đỉnh 22 12jv V V∈ − theo thủ tục bước ngẫu nhiên được đặc tả ở mục B theo công thức (5) 2.2.3. Bổ sung ,i ju v vào ଵܸଶ; 2.2.4. Cập nhật lạiܧଵଶ dựa trên ଵܸଶ; 2.3. Thực hiện tìm kiếm cục bộ trên lời giải tốt nhất do các kiến tìm được để cải thiện chất lượng lời giải. 2.4. Cập nhật lại lời giải tốt nhất. 2.5. Cập nhật vết mùi theo quy tắc SMMAS dựa trên lời giải tốt nhất. Bước 3. Lưu lại lời giải tốt nhất. Trần Ngọc Hà, Hoàng Xuân Huấn 473 Thuật toán này được đặc tả trong hình 1. Hình 1. Đặc tả thuật toán ACOGA. Chú ý rằng ở bước 2.2.1, việc tìm 11 12iu V V∈ − có số cạnh tới các đỉnh trong 1 12V lớn nhất nhằm tăng số lượng các cạnh có thể được bảo toàn sau khi dóng hàng, nếu tìm được nhiều đỉnh tốt nhất thì sẽ lựa chọn ngẫu nhiên một đỉnh tìm được để dóng hàng. B. Các thành phần của ACOGA Đồ thị cấu trúc Đồ thị cấu trúc của thuật toán ACOGA được biểu thị trong hình 2, gồm 2 tầng, tầng thứ i thể hiện đồ thị iG . Các đỉnh ở tầng trên được kết nối với tất cả các đỉnh ở tầng dưới. Khi xây dựng lời giải, kiến sẽ xuất phát từ một đỉnh thuộc tầng 1 và lựa chọn dóng hàng với 1 đỉnh thuộc tầng 2 theo công thức (5). Hình 2. Đồ thị cấu trúc của thuật toán ACOGA Một dóng hàng toàn cục của 2 đồ thị theo định nghĩa 1 là một đường đi xuất phát từ 1 đỉnh của 1G dóng với 1 đỉnh của 2G sau đó quay lại 1G rồi tiếp tục dóng với 1 đỉnh của 2G , lặp lại cho tới khi tất cả các đỉnh của 1G đã được dóng hàng. Thuật toán 1: Thuật toán ACOGA Input: Đồ thị 1: ܩଵ ൌ ൫ ଵܸ, ܧଵ൯;Đồ thị 2: ܩଶ ൌ ൫ ଶܸ, ܧଶ൯; Độ tương đồng giữa các cặp đỉnh: ݈ܵ݅݉݅ܽݎ Tham số cân bằngα Output: Dóng hàng mạng ܣଵଶ ൌ ሺ ଵܸଶ, ܧଵଶሻ Begin Khởi tạo; // Khởi tạo ma trận vết mùi và m kiến (A); While (Chưa thỏa mãn điều kiện dừng) do for each kiến a A do // là cặp đỉnh có độ tương tự lớn nhất. for ݇=2 to | ଵܸ| do Update(ܧଵଶሻ end for end for Tìm kiếm cục bộ; Cập nhật lời giải tốt nhất; Cập nhật vết mùi theo quy tắc SMMAS; end while Ghi lại lời giải tốt nhất; End. G1 G2 474 MỘT THUẬT TOÁN TỐI ƯU ĐÀN KIẾN DÓNG HÀNG TOÀN CỤC MẠNG TƯƠNG TÁC PROTEIN Vết mùi và thông tin heuristic Vết mùi ߬ trên cạnh ,i j dóng đỉnh 1iu G∈ với đỉnh 2jv G∈ được khởi tạo bằng ߬௫ và sau đó được cập nhật lại sau mỗi vòng lặp theo công thức (6). Thông tin heuristic ߟ được tính theo công thức 4. (4) trong đó α là hằng số thể hiện mối tương quan giữa độ tương đồng về cấu trúc và tính tương đồng về trình tự. M là tổng số cạnh được bảo toàn sau dóng hàng nếu đỉnh iu được dóng với đỉnh jv , ( , )i jsimilar u v là độ tương đồng giữa 2 đỉnh iu và jv Thủ tục bước ngẫu nhiên để xây dựng dóng hàng Tại mỗi vòng lặp, đầu tiên kiến chọn một đỉnh 1iu V∈ , sau đó chọn đỉnh 2jv V∈ theo xác suất được cho bởi công thức (5) 2_ ( ) *[ ] ( ) *[ ] i a i b j ji j i a i b k kk R V p τ η τ η ∈ = ∑ (5) trong đó 22 2 12_R V V V= − là các đỉnh của đồ thị G2 chưa được dóng hàng. Sau khi lựa chọn được đỉnh 2jv V∈ để dóng với 1iu V∈ , kiến quay lại lựa chọn đỉnh tiếp theo của đồ thị G1để tiếp tục dóng hàng. Quá trình lặp lại cho đến khi tất cả các đỉnh của G1 được dóng hàng với các đỉnh của G2 Quy tắc cập nhật vết mùi Sau khi tất cả các kiến đã xây dựng lời giải, lời giải của kiến tốt nhất được áp dụng thủ tục tìm kiếm cục bộ để tăng chất lượng lời giải. Lời giải tốt nhất này được sử dụng để cập nhật vết mùi trên các cạnh theo quy tắc cập nhật mùi SMMAS[10], như dưới đây: (1 )i i ij j jτ ρ τ= − + Δ (6) * * maxi j min (i,j) best solution (i,j) best solution ρ τ ρ τ ∈⎧ Δ = ⎨ ∉⎩ (7) trong đóτmaxvàτmin là các tham số được cho trước, ρ∈ ሺ0,1ሻ là tham số bay hơi cho trước quy định 2 thuộc tính, ρ nhỏ thể hiện việc tìm kiếm quanh thông tin học tăng cường, ρ lớn thể hiện tính khám phá. Thủ tục tìm kiếm cục bộ Hình 3. Đặc tả thủ tục tìm kiếm cục bộ Trong mỗi vòng lặp, sau khi tất cả các kiến đã xây dựng xong lời giải. Lời giải tốt nhất ܣଵଶ được kiến xây dựng sẽ được áp dụng tìm kiếm cục bộ. Thủ tục tìm kiếm cục bộ được đặc tả như trong hình 3. Bước 1. Giữ lại nbest đỉnh thuộc tập A12 có score tốt nhất theo tiêu chí cho bởi công thức (3): ( ) ( ) ( ) ( )( )1- ,i i i iscore u w u similar u f uα α= × + × (3) trong đó 1iu V∈ và ݂ሺݑሻ là đỉnh thuộc ଶܸ được ghép với iu trong ܣଵଶ,w(ui) là số lượng nút j 1u V∈ mà 1,i ju u E∈ và 2( ), ( )i jf u f u E∈ Thuật toán 2: Thủ tục tìm kiếm cục bộ Input: Đồ thị 1: ܩଵ ൌ ൫ ଵܸ, ܧଵ൯;Đồ thị 2: ܩଶ ൌ ൫ ଶܸ, ܧଶ൯; Dóng hàng mạng ܣଵଶ; ݊௦௧ Output: Dóng hàng mạng tốt hơn Begin Giữ lại nbest cặp tốt nhất của V12 For=nbest+1 to |V1| do = find_next_node(); = choose_best_matched_node( ); V12=V12∪ Cập nhật end-for end * (1 )* ( , )ij i jM similar u vη α α= + − Trần Ngọc Hà, Hoàng Xuân Huấn 475 Bước 2. Thực hiện lặp với k =݊௦௧ 1 tới | ଵܸ|: 2.1. Thủ tục find_next_node(): Tìm đỉnh 11 12iu V V∈ − có số cạnh tới các đỉnh trong 112V lớn nhất. 2.2. Thủ tục choose_best_matched_node( iu ) tìm đỉnh 22 12jv V V∈ − mà khi bổ sung ,i ju v vào ଵܸଶ thì GNAS(A12) tính bởi công thức (1) lớn nhất, trong đó A12 là đồ thị có đỉnh là tập ଵܸଶ và các cạnh cảm sinh bởi ܩଵ, ܩଶ. 2.3. Bổ sung ,i ju v vào ଵܸଶ; 2.4. Cập nhậtܧଵଶ dựa trên ଵܸଶ; Sau mỗi lần thực hiện thủ tục tìm kiếm cục bộ ta có một dóng hàng mới làm input ܣଵଶ cho lần lặp tiếp theo, quá trình này lặp lại cho đến khi không cải tiến được GNAS(A12) nữa. IV. THỰC NGHIỆM Thực nghiệm được tiến hành để so sánh thuật toán ACOGA với thuật toán FastAn [6], là thuật toán mới nhất và đã được chững tỏ tốt hơn GNAS, trên 4 tập dữ liệu benchmark được sử dụng trong [1]. Thuật toán được chạy với nhiều giá trị ݊௦௧ khác nhau bao gồm 1%, 5%, 10%, 20% và 50%. Các kết quả thực nghiệm chỉ ra rằng với nbest=1% sẽ cho chất lượng lời giải tốt nhất. Đối với thuật toán đàn kiến, các tham số rho được khởi tạo từ đầu và số lượng kiến trong mỗi vòng lặp ảnh hưởng nhiều đến chất lượng lời giải. Qua nhiều thực nghiệm chúng tôi thấy với rho=0.3 sẽ cho chất lượng lời giải tốt nhất. Đối với số lượng kiến, nếu sử dụng nhiều kiến để xây dựng lời giải có thể cho được kết quả tốt hơn, tuy nhiên lại khiến thuật toán chạy lâu. Để cân bằng giữa hai yếu tố này, trong thực nghiệm chúng tôi chọn số kiến là 6. Các tham số Tmax được khởi tạo bằng 1 và min 1 2 1 | | | | T V V = + . Vì vậy các kết quả được trình bày ở đây tương ứng với giá trị nbest=1%, 0.3ρ = , nants=6 như đã phân tích ở trên. Các thuật toán được so sánh dựa trên 2 tiêu chí là tiêu chuẩn GNAS và EC (Edge Correctness – Số cạnh được bảo tồn qua dóng hàng, hay |E12|). Các thực nghiệm được chạy trên cùng một máy tính có cấu hình như sau: CPU Intel Core 2 Duo 2.53GHz, RAM DDR2 3GB và hệ điều hành Windows 7 32 bit. A. Dữ liệu Bộ dữ liệu được sử dụng so sánh để so sánh các phương pháp là 4 tập dữ liệu tiêu chuẩn được dùng để đánh giá chất lượng lời giải của SPINAL và FastAn. Đó là các mạng tương tác protein sau: Saccharomyces cerevisiae (sc), Drosophila melanogaster (dm), Caenorhabditis elegans(ce), and Homo sapiens (hs). Các mạng tương tác này thu được từ [22]. Mô tả về các tập dữ liệu này được chỉ ra trong Bảng 1. Từ các bộ dữ liệu đó chúng tôi tạo ra sáu cặp mạng để dóng hàng (ce-dm,ce-hs,ce-sc,dm-hs, dm-sc,hs-sc). Bảng 1. Mô tả bộ dữ liệu Bộ dữ liệu Số Protein Số tương tác ce 2805 4495 dm 7518 25635 sc 5499 31261 hs 9633 34327 B. Kết quả thực nghiệm Vì thuật toán ACOGA và FastAn là thuật toán ngẫu nhiên nên chúng tôi tiến hành chạy thuật toán 10 lần và sử dụng kết quả trung bình của 10 lần chạy để so sánh. Các thực nghiệm so sánh các thuật toán với các giá trị α lần lượt là 0.3, 0.4, 0.5, 0.6 và 0.7 như trong [1]. Bảng 2. So sánh thuật toán ACOGA và thuật toán FastAn theo 2 tiêu chuẩn GNAS và EC với các giá trị α khác nhau. Datasets α = 0.3 α = 0.4 α = 0.5 α = 0.6 α = 0.7 FASTAn ACOGA FASTAn ACOGA FASTAn ACOGA FASTAn ACOGA FASTAn ACOGA ce-dm 778.46 2560.7 798.67 2629.20 1034.20 2564.6 1057.34 2622.9 1290.11 2567.2 1327.15 2642 1545.86 2567.7 1601.13 2660.4 1801.24 2567.6 1861.08 2653.4 ce-hs 863.46 2842.8 885.47 2916.1 1144.17 2838.1 1177.49 2922.40 1429.89 2844.9 1461.74 2909.1 1708.81 2838.0 1758.37 2921.1 1994.87 2843.4 2049.1 2921 ce-sc 834.79 2761.1 857.45 2837.3 1109.93 2761.2 1144.56 2849.4 1389.21 2769.7 1435 2861.6 1663.39 2766.5 1688.11 2808 1936.83 2763.1 1996.96 2849 dm-hs 2260.31 7478.3 2315.78 7663 3007.11 7481.9 3052.08 7597 3755.36 7429.0 3803.79 7584.3 4496.45 7478.2 4574.12 7607.8 5242.32 7478.8 5319 7588.6 dm-sc 1977.82 6569.7 2023.60 6721 2631.85 6565.5 2653.53 6619 3290.03 6570.7 3337.87 6666.6 3950.16 6577.4 3989.68 6643.30 4603.41 6572.3 4651.2 6641.1 hs-sc 2268.21 7531.8 2300.318 7640 3017.96 7528.5 3048.78 7609.12 3772.96 7535.2 3838.3 7666.0 4520.51 7527 4640.28 7726.90 5279.88 7538.1 5422.18 7742 476 MỘT THUẬT TOÁN TỐI ƯU ĐÀN KIẾN DÓNG HÀNG TOÀN CỤC MẠNG TƯƠNG TÁC PROTEIN Các kết quả so sánh được thể hiện trong Bảng 2. Mỗi ô trong bảng thể hiện 2 tiêu chuẩn so sánh là tiêu chuẩn GNAS và tiêu chuẩn EC. Các kết quả tốt hơn được chúng tôi thể hiện bằng chữ in đậm. Qua bảng 2 ta có thể thấy rõ trong tất cả các trường hợp thì thuật toán ACOGA đều cho các kết quả tốt hơn so với thuật toán FastAn đối với cả 2 tiêu chuẩn là GNAS và EC. Về mặt thời gian chạy, do ACOGA là thuật toán metaheuristic được thực hiện với nhiều vòng lặp, nên thời gian chạy lâu hơn so với thuật toán FastAn (là một thuật toán theo hướng tiếp cận heuristic), vì vậy ở đây chúng tôi không đưa ra các bảng so sánh. V. KẾT LUẬN Bài báo này đề xuất một thuật toán dóng hàng toàn cục mạng tương tác protein dựa trên giải thuật tối ưu đàn kiến. Trong mỗi vòng lặp của thuật toán, tất cả các kiến xây dựng lời giải, sau đó kiến có chất lượng lời giải tốt nhất được lựa chọn để cập nhật vết mùi và áp dụng tìm kiếm cục bộ để tăng chất lượng lời giải. Các thực nghiệm trên bộ dữ liệu chuẩn đã chỉ ra rằng thuật toán chúng tôi đề xuất cho kết quả tốt hơn các thuật toán mới đề xuất đối với 2 tiêu chuẩn GNAS và EC đối với tất cả các trường hợp. Thủ tục tìm kiếm cục bộ được sử dụng trong thuật toán phụ thuộc nhiều vào giá trị nbest, hiện được chọn nbes t một cách thủ công. Trong thời gian tới chúng tôi sẽ nghiên cứu để có thể xác định được giá trị nbest một cách tự động để có thể cho chất lượng lời giải tốt nhất. Ngoài ra để tăng chất lượng lời giải còn có thể tăng số lượng kiến trong mỗi vòng lặp. Tuy nhiên để không tốn thời gian trong mỗi lần chạy thì cần phải tiến hành song song hoá thuật toán ACOGA. VI. TÀI LIỆU THAM KHẢO [1] Aladag, A.E. and Erten, C. (2013), SPINAL: scalable protein interaction network alignment. Bioinformatics, Vol. 29 no 7, 917–924 [2] Bader,G.D. and Hogue,C.W. (2002), Analyzing yeast protein-protein interaction data obtained from different sources. Nat. Biotechnol., 20, 991–997. [3] Banks,E. et al., (2008),NetGrep: fast network schema searches in interactomes. Genome Biology, 9,R138 [4] Chindelevitch,L. et al. (2010), Local optimization for global alignment of protein interaction networks. In: Pacific Symposium on Biocomputing,Hawaii,USA, pp. 123–132 [5] Chindelevitch L. et al. (2013), Optimizing a global alignment of protein interaction networks, Bioinformatics ,Vol. 29 no. 21,2765–2773. [6] Đỗ Đức Đông, Trần Ngọc Hà, Đặng Cao Cường, Đặng Thanh Hải, Hoàng Xuân Huấn. (2015), An efficient algorithm for global alignment of protein-protein interaction networks, Proceeding of ATC15 (to appear), có thể xem bản preprint tại: ftp://file.viasm.org/Web/TienAnPham-14/Preprint_1418.pdf. [7] Dost, B. et al. (2008),QNet: a tool for querying protein interaction networks. J. Comput. Biol., 15, 913–925 [8] Dutkowski,J. and Tiuryn,J. (2007), Identification of functional modules from conserved ancestral protein–protein interactions. Bioinformatics, 23, i149–i158. [9] Han,J.D. et al. (2004), Evidence for dynamically organized modularity in the yeast protein-protein interaction network. Nature, 430, 88–93. [10] H. Hoang Xuan, T. Nguyen Linh, D. Do Duc, H. Huu Tue, “Solving the Traveling Salesman Problem with Ant Colony Optimization: A Revisit and New Efficient Algorithms", REV Journal on Electronics and Communications, Vol. 2, No. 3–4, July – December,2012, 121-129 [11] B.H. Junker and F. Schreiber, Analysis of Bological Networks, wiley, 2008 [12] Kelley,B.P. et al. (2003), Conserved pathways within bacteria and yeast as revealed by global protein network alignment. Proc. Natl Acad. Sci. USA, 100, 11394–11399. [13] Kelley,B.P. et al. (2004), Pathblast: a tool for alignment of protein interaction networks. Nucleic Acids Res., 32,83–88. [14] Koyuturk,M. et al. (2006),Pairwise alignment of protein interaction networks. J. Comput. Biol., 13, 182–199. [15] Kuchaiev,O. et al. (2010), Topological network alignment uncovers biological function and phylogeny. J. R. Soc. Interface., 7, 1341–1354. [16] Kuchaiev,O. and Przulj, N. (2011) Integrative network alignment reveals large regions of global network similarity in yeast and human. Bioinformatics, 27, 1390–1396. [17] Kuhn HW: The Hungarian Method for the assignment problem. Naval Res Logistics Q 1955, 2:83-97. Trần Ngọc Hà, Hoàng Xuân Huấn 477 [18] Liao,C.S. et al. (2009) IsoRankN: spectral methods for global alignment of multiple protein networks. Bioinformatics, 25, i253–i258. [19] Memisevic,V. and Przulj,N. (2012), C-graal: common-neighbors-based global graph alignment of biological networks. Integr. Biol., 4, 734–743. [20] Milenkovic,T. et al. (2010), Optimal network alignment with graphlet degree vectors. Cancer Inform.,Vol.9, 121– 137. [21] Narayanan,M. and Karp,R.M. (2007), Comparing protein interaction networks via a graph match-and-split algorithm. J. Comput. Biol., Vol. 14, 892–907. [22] Park,D. et al. (2011) IsoBase: a database of functionally related proteins across PPI networks. Nucleic Acids Res., 39, 295–300 [23] Remm,M. et al. (2001), Automatic clustering of orthologs and in-paralogs from pairwise species comparisons. J. Mol. Biol., 314, 1041–1052. [24] Sharan,R. et al. (2005), Conserved patterns of protein interaction in multiple species. Proc. Natl Acad. Sci. USA, 102, 1974–1979. [25] Singh,R. et al. (2008), Global alignment of multiple protein interaction networks. In: Pacific Symposium on Biocomputing. pp. 303–314. [26] Zaslavskiy,M. et al. (2009) Global alignment of protein-protein interaction networks by graph matching methods. Bioinformatics, Vol.25, 259–267 AN EFFICIENT ANT BASED ALGORITHM FOR GLOBAL ALIGNMENT OF PROTEIN-PROTEIN INTERACTION NETWORKS Tran Ngoc Ha, Hoang Xuan Huan ABSTRACT - Global alignment of two protein-protein interaction networks is an important problem in bioinformatics/ computational biology. This is studied by many researchers. Accuracy aligned networks allow us to identify functional orthologous proteins. In this article, we introduce an ant-based algorithm for global network alignment called ACOGA. The experiments show that the proposed method outperforms the state-of-the-art algorithms .
File đính kèm:
- mot_thuat_toan_toi_uu_dan_kien_dong_hang_toan_cuc_mang_tuong.pdf