Đánh giá các công cụ hỗ trợ chẩn đoán bệnh với cách tiếp cận y học cá thể hóa trên dữ liệu Metagenomic
Trong những năm gần đây, dữ liệu Metagenomic hay còn gọi là dữ liệu “hệ đa gen” được
sử dụng ngày càng nhiều cho các nghiên cứu trong các tiếp cận “Y học cá thể hóa” với mục
tiêu cải thiện và nâng cao tính hiệu quả trong việc chăm sóc bảo vệ sức khỏe con người.
Nhiều nghiên cứu đã thực nghiệm phân tích trên bộ dữ liệu này và đề xuất nhiều phương
pháp để cải thiện độ chính xác trong phân tích. Việc ứng dụng công nghệ thông tin để xử lý
và hỗ trợ phân tích dữ liệu này phục vụ cho Y học cá thể là không thể thiếu bởi khối lượng
công việc xử lý và độ phức tạp là rất lớn. Với những lợi ích đầy tiềm năng của dữ liệu
Metagenomic đã được chứng minh qua nhiều nghiên cứu. Trong phạm vi bài báo này, nhóm
nghiên cứu giới thiệu và đánh giá những công cụ rất hữu ích phục vụ cho việc nghiên cứu
dữ liệu Metagenomic trong hỗ trợ chẩn đoán bệnh cho con người. Từ các nghiên cứu này,
chúng ta có thể phát triển những nghiên cứu mở rộng và sâu hơn để khám phá những ảnh
hưởng quan trọng của hệ sinh thái vi sinh vật trong cơ thể con người ảnh hưởng đến sức
khỏe và từ đó đề xuất những xu hướng chẩn đoán và điều trị phù hợp để nâng cao và cải
thiện sức khỏe con người
Tóm tắt nội dung tài liệu: Đánh giá các công cụ hỗ trợ chẩn đoán bệnh với cách tiếp cận y học cá thể hóa trên dữ liệu Metagenomic
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 10, Số 2, 2020 117-144 117 ĐÁNH GIÁ CÁC CÔNG CỤ HỖ TRỢ CHẨN ĐOÁN BỆNH VỚI CÁCH TIẾP CẬN Y HỌC CÁ THỂ HÓA TRÊN DỮ LIỆU METAGENOMIC Phan Tấn Tàia, Tạ Đặng Vĩnh Phúca, Phan Nguyễn Minh Thảoa, Nguyễn Thị Ngọc Chăma, Đào Công Tínha, Phạm Huỳnh Ngọca, Nguyễn Thanh Hảia* aKhoa Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ, Cần Thơ, Việt Nam *Tác giả liên hệ: Email: [email protected] Lịch sử bài báo Nhận ngày 18 tháng 01 năm 2020 Chỉnh sửa lần 01 ngày 18 tháng 3 năm 2020 | Chỉnh sửa lần 02 ngày 20 tháng 4 năm 2020 Chấp nhận đăng ngày 22 tháng 5 năm 2020 Tóm tắt Trong những năm gần đây, dữ liệu Metagenomic hay còn gọi là dữ liệu “hệ đa gen” được sử dụng ngày càng nhiều cho các nghiên cứu trong các tiếp cận “Y học cá thể hóa” với mục tiêu cải thiện và nâng cao tính hiệu quả trong việc chăm sóc bảo vệ sức khỏe con người. Nhiều nghiên cứu đã thực nghiệm phân tích trên bộ dữ liệu này và đề xuất nhiều phương pháp để cải thiện độ chính xác trong phân tích. Việc ứng dụng công nghệ thông tin để xử lý và hỗ trợ phân tích dữ liệu này phục vụ cho Y học cá thể là không thể thiếu bởi khối lượng công việc xử lý và độ phức tạp là rất lớn. Với những lợi ích đầy tiềm năng của dữ liệu Metagenomic đã được chứng minh qua nhiều nghiên cứu. Trong phạm vi bài báo này, nhóm nghiên cứu giới thiệu và đánh giá những công cụ rất hữu ích phục vụ cho việc nghiên cứu dữ liệu Metagenomic trong hỗ trợ chẩn đoán bệnh cho con người. Từ các nghiên cứu này, chúng ta có thể phát triển những nghiên cứu mở rộng và sâu hơn để khám phá những ảnh hưởng quan trọng của hệ sinh thái vi sinh vật trong cơ thể con người ảnh hưởng đến sức khỏe và từ đó đề xuất những xu hướng chẩn đoán và điều trị phù hợp để nâng cao và cải thiện sức khỏe con người. Từ khóa: Chẩn đoán bệnh; Học sâu; Máy học; Metagenomic; Phân tích gene; Y học cá thể. DOI: Loại bài báo: Bài báo nghiên cứu gốc có bình duyệt Bản quyền © 2020 (Các) Tác giả. Cấp phép: Bài báo này được cấp phép theo CC BY-NC 4.0 TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 118 EVALUATION OF ASSISTANCE TOOLS FOR DIAGNOSIS OF DISEASES BY APPROACHING TO PERSONALIZED MEDICINE ON METAGENOMIC DATA Phan Tan Taia, Ta Đang Vinh Phuca, Phan Nguyen Minh Thaoa, Nguyen Thi Ngoc Chama, Dao Cong Tinha, Pham Huynh Ngoca, Nguyen Thanh Haia* a The Faculty of Information Communication and Technology, Cantho University, Cantho, Vietnam. *Corresponding author: Email: [email protected] Article history Received: January 18th, 2020 Received in revised form (1st): March 18th, 2020 | Received in revised form (2nd): April 20th, 2020 Accepted: May 22nd, 2020 Abstract In recent years, Metagenomic data, or “multi-genome” data, has been increasingly used for research in “personalized medicine” approaches with the purpose of improving and enhancing effectiveness in human health care. Many studies have experimentally analyzed this data and proposed many methods to improve the accuracy of the analysis. Applying and integrating information technology to process and analyze Metagenomic data for personalized medicine approaches are necessary because of the enormous complexity of Metagenomic data. The potential advantages of Metagenomic data have been proven through many studies. Within the scope of this research, we introduce and evaluate useful tools for studying Metagenomic data in supporting the diagnosis of human disease and health conditions. From these studies, we may develop extensive and in-depth studies from previous studies to explore the important effect of the microbial ecosystem that is a rich set of microbial features for prediction and biomarker discovery in the human body. Moreover, there are trends diagnosis, appropriate treatments to improve and enhance human health. Keywords: Deep Learning; Disease diagnosis; Gene Analysis; Machine Learning; Metagenomic; Personalized Medicine. DOI: Article type: (peer-reviewed) Full-length research article Copyright © 2020 The author(s). Licensing: This article is licensed under a CC BY-NC 4.0 Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Công Tính, Phạm Huỳnh Ngọc, và Nguyễn Thanh Hải 119 1. GIỚI THIỆU VỀ METAGENOMIC 1.1. Tầm quan trọng và các hướng nghiên cứu hỗ trợ chăm sóc sức khỏe con người Metagenomic, hay còn gọi là “Di truyền học sinh thái”, hoặc “Di truyền học môi trường”, là thuật ngữ chỉ những nghiên cứu về hệ sinh thái đa gen trong một môi trường (Ví dụ, hệ sinh thái các vi khuẩn nằm trong môi trường ruột người). Hiện nay, đây là nguồn dữ liệu mới đầy tiềm năng để ứng dụng trong việc hỗ trợ chăm sóc và chẩn đoán ban đầu cho sức khỏe con người. Với việc phát triển nhanh chóng của Công nghệ thông tin, nhiều công cụ dựa trên nền tảng công nghệ đang ngày càng phổ biến phục vụ đắc lực cho việc phân tích dữ liệu. Ehrlich (2016) cho rằng nguồn dữ liệu này có thể hỗ trợ cho chẩn đoán bệnh, dự báo dò tìm những rủi ro có thể làm cho con người mắc các căn bệnh, và theo dõi các tiến độ điều trị bệnh. Trong một thời gian rất dài, trong y học thường áp dụng một phương pháp điều trị duy nhất cho một căn bệnh. Chúng ta thường bỏ qua các yếu tố riêng đặc biệt của mỗi người trong việc điều trị bệnh mà áp dụng một phương pháp đại trà cho tất cả các người bệnh. Điều này dẫn đến tốn kém khi phác đồ điều trị chỉ có một phương pháp riêng lẻ, không thể nào bao phủ đạt độ hiệu quả cho tất cả các trường hợp. Với sự ra đời của các công nghệ giải trình tự DNA đã hỗ trợ rất lớn cho y học phát triển sang một cách tiếp cận y tế mới, Y học cá thể hóa (Personalized Medicine) (The Academy of Medical Sciences, 2015; Dudley & Karczewski, 2014). Trong các tiếp cận này, các bệnh nhân sẽ được phân tích DNA để phân tích những đặc điểm riêng biệt có khả năng gây ra bệnh cho bệnh nhân và từ đó đề xuất phương pháp điều trị phù hợp riêng biệt cho chính bệnh nhân đó. Các nghiên cứu y học đã cho thấy có rất nhiều tác nhân hình thành nên mỗi loại bệnh, có bằng chứng mạnh mẽ rằng vi khuẩn trong ruột người đóng góp một phần lớn nguyên nhân gây ra các bệnh như viêm ruột (IBD), tiểu đường loại II (Type 2 diabetes), béo phì (Obesity), ung thư trực tràng (Colorectal Cancer), tự miễn dịch, và thoái hóa thần kinh mãn tính (Virgin & Todd, 2011). Thực chất số lượng vi sinh vật trong đó chủ yếu là ở đại tràng, gần bằng số lượng tế bào trong toàn bộ cơ thể nhưng chỉ có từ 10% đến 20% số vi khuẩn có trong đường ruột mỗi người là giống với những người khác (Rakel & Rakel, 2011). Vì thế, việc phân tích dữ liệu Metagenomic để có thể đưa ra phương pháp điều trị bệnh phù hợp cho từng bệnh nhân là điều hết sức cấp thiết hiện nay. Với những tiềm năng lợi ích rất lớn của dữ liệu này trong vấn đề chăm sóc sức khỏe con người nên đã có rất nhiều nghiên cứu đã thử nghiệm và trình bày đề xuất các phương pháp và các công cụ dựa trên việc ứng dụng Công nghệ thông tin để hỗ trợ việc phân tích dữ liệu này cho “Y học cá thể hóa” một cách có hiệu quả. Với phạm vi nghiên cứu đã thực hiện, chúng tôi đạt được một số kết quả: • Đánh giá về các công cụ hiện tại đang được nghiên cứu và triển khai để hỗ trợ chẩn đoán bệnh dựa trên dữ liệu Metagenomic. Từ những đánh giá này, có thể dùng để phát triển mở rộng các hướng nghiên cứu trên bộ dữ liệu này và hiểu được tầm quan trọng và ảnh hưởng của dữ liệu này trên sức khỏe con người. Những đánh giá có thể giúp phát triển mở rộng cải tiến những cách tiếp cận, TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 120 phương pháp khác nhau trong việc mở rộng phân tích sâu trên bộ dữ liệu đầy tiềm năng này. • Trình bày một số phân tích trên kết quả của một số nghiên cứu khác về một số bệnh khác nhau như xơ gan, ung thư trực tràng, viêm ruột, béo phì, và tiểu đường loại 2. Trong đó nhiều kết quả nghiên cứu đã chỉ ra những kết quả rất khả năng trong việc dùng những liệu vi sinh vật trong cơ thể con người để chẩn đoán bệnh. Dữ liệu Metagenomic bao gồm những vi sinh trong ruột người cũng có thể dùng để nhận biết các chế độ ăn kiêng, phân biệt các loại ruột, và các loại bệnh viêm ruột. Những nghiên cứu này cũng là tiềm năng để nghiên cứu về chế độ dinh dưỡng và chế độ ăn ở các vùng khác nhau, để từ đó kết hợp chẩn đoán, đưa ra các phương án đặc thù cho điều trị. Tuy nhiên cũng còn một số thử thách cho những bệnh như béo phì và tiểu đường loại 2 mà trong thời gian tới chúng ta có thể phát triển nâng cấp những mô hình có sẵn hoặc đề xuất mô hình mới từ các hướng đi đã có để cải thiện độ chính xác. • Chúng ta cũng phân nhóm các công cụ hỗ trợ phân tích dữ liệu Metagenomic theo các phương pháp như lựa chọn thuộc tính và các phương pháp giảm chiều. Các phương pháp trình bày dữ liệu để thích hợp cho các mô hình máy học như phương pháp trình bày dữ liệu dạng 1D, 2D (ảnh). • Chúng tôi cũng giới thiệu các công cụ máy học phân làm hai loại: Máy học cổ điển và học sâu. Như chúng ta thấy Rừng ngẫu nhiên (Random Forest–RF) đạt hiệu suất rất cao trong nhiều dự đoán thậm chí cao hơn cả học sâu ở vài trường hợp. Các thuật toán học sâu như các mạng nơ-ron tích chập cũng đạt được hiệu quả cao khi chuyển dữ liệu từ dạng số (1D) sang ảnh. • Chúng tôi cũng chọn một vài công cụ đại diện các cách tiếp cận khác nhau để thực hiện các dự đoán trên một số bệnh bao gồm bệnh xơ gan, béo phì, và tiểu đường loại 2. Bệnh xơ gan tương đối có thể dự đoán hiệu quả, tuy nhiên chúng ta vẫn còn gặp nhiều khó khăn khi dự đoán béo phì và tiểu đường loại 2. Chúng ta đánh giá đây là những bệnh rất thử thách và hấp dẫn cho các nghiên cứu nâng cao hiệu quả dự đoán trong tương lai. Phần trình bày tiếp theo trong nghiên cứu này có cấu trúc như sau. Nội dung còn lại trong Phần 1 chúng tôi sẽ nói về những tiềm năng trong việc áp dụng trí tuệ nhân tạo trong y học. Phần 2, chúng tôi sẽ đánh giá và tìm hiểu các nguồn dữ liệu Metagenomic cho việc nghiên cứu chuyên sâu trên bộ này, nguồn dữ liệu này đến từ các kho dữ liệu trên các tạp chí có uy tín. Phần tiếp theo là phân tích về các công cụ hiện có để hỗ trợ cho việc phân tích dữ liệu Metagenomic. Một số hiện dùng các giải thuật máy học cổ điển, và cũng ứng dụng những giải thuật học sâu để hỗ trợ chẩn đoán. Cuối cùng, chúng tôi tóm tắt lại những điểm chính của nghiên cứu trong phần “Kết luận”. Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Công Tính, Phạm Huỳnh Ngọc, và Nguyễn Thanh Hải 121 1.2. Trí tuệ nhân tạo trong Y học Ngày nay, Trí tuệ nhân tạo (Artificial Intelligence–AI) được con người đưa vào mọi lĩnh vực trong đời sống. Bởi vì, máy học nói riêng hay trí tuệ nhân tạo nói chung đều sử dụng các thuật toán, quy tắc, học sâu hỗ trợ con người tính toán và đưa ra kết luận mà không cần đầu vào trực tiếp của con người. Đặc biệt, đối với nhu cầu chăm sóc sức khỏe của con người ngày càng được chú trọng, các nhà nghiên cứu cho rằng AI mang lại tiềm năng khi áp dụng hầu hết trong lĩnh vực y học bao gồm đọc và phân tích thông tin hồ sơ y tế và thực hiện các hoạt động chuyên ngành chẳng hạn như quét CT giúp các chuyên gia giảm một lượng lớn công việc, nên họ chỉ cần tập trung vào các trường hợp phức tạp nhất khi mà robot có thể chưa đủ sự linh hoạt để giải quyết. Bên cạnh đó, hiện nay đã có rất nhiều ứng dụng AI được phát triển nhanh chóng, hỗ trợ bác sĩ chẩn đoán lâm sàng và xu hướng điều trị bệnh Y học chính xác (Precision Medicine) hay Y học cá thể hoá (Personalized Medicine). Tất cả những thông tin y khoa sẽ tạo ra một lượng dữ liệu cực lớn, phân tích và tích hợp bởi công nghệ tiên tiến như trí tuệ nhân tạo sẽ góp phần giải quyết xử lý và khai thác tốt lượng dữ liệu khổng lồ này. Hơn nữa, với cùng một loài vi khuẩn nhưng có thể chiếm ít hơn 50% gen giống nhau khi tìm thấy trong hai người vì môi trường hoạt động của chúng là khác nhau. Vì thế, quan trọng là không chỉ xác định các loại vi khuẩn trong một mẫu nhất định mà còn phải chú ý đến môi trường di truyền từng dòng của chúng. Tuy nhiên, điều này là một thách thức đáng kể với Big Data, đòi hỏi tiến bộ trong phương pháp thống kê và phần mềm mới để phân tích chính xác của dữ liệu khổng lồ Metagenomic. Do chuỗi Metagenomic có độ chệch lớn và các lỗi do đó phải được khắc phục trước khi chúng ta có thể so sánh các dữ liệu chính xác tất cả các mẫu. Điều này đã hạn chế sự hiểu biết của chúng ta cả về mức độ và tác động của sự biến đổi của vi sinh vật trong môi trường khác nhau, quan trọng nhất là các microbiome con người. Vì thế, ứng dụng để đưa công nghệ AI vào giải quyết vấn đề khó khăn này là hết sức cần thiết cho ngành y học hiện tại cũng như tương lai. 2. ĐẶC ĐIỂM DỮ LIỆU METAGENOMIC CHO NGHIÊN CỨU Kho dữ liệu Metagenomic là khá đa dạng phải trải qua nhiều thành phần xử lý dữ liệu. Ehrlich (2016) đã mô tả các tiến trình xử lý dữ liệu và được thể hiện trong Hình 1, để có được dữ liệu cho các phân tích, chúng ta cần trải qua nhiều giai đoạn xử lý. Ban đầu, dữ liệu được thu thập từ các mẫu phân của bệnh nhân. Phần thu thập này sẽ được đưa qua quá trình phân tích giải trình tự vật liệu di truyền (DNA). Từ các đoạn DNA này chúng ta cần tham chiếu vào bộ gen đã được các nhà nghiên cứu trước đó khám phá và công bố để biết được những đoạn DNA phân tích thuộc những loài nào. Sau quá trình tham chiếu này chúng ta sẽ được một bảng “Gene counts” (Bộ đếm gene). Bộ đếm gene ở đó chúng ta sẽ có kết quả tham chiếu những loài vi khuẩn đã biết. Từ các gene counts này chúng ta có thể tính toán các tỷ lệ phân bố (abundance) các thành phần vi khuẩn trong bệnh nhân cần phân tích. Relative abundance như một độ đo đa dạng sinh học và cho biết độ phổ biến hay độ hiếm của một loài so với các loài khác. TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 122 Hình 1. Tiến trình “định lượng Metagenomic” trong ruột người Nguồn: Ehrlich (2016). 3. MỘT SỐ PHƯƠNG PHÁP BIẾN ĐỔI DỮ LIỆU METAGENOMIC Bộ dữ liệu Metagenomic mang trong nó rất nhiều tiềm năng để chẩn đoán bệnh cũng như dự đoán được những rủi ro mắc bệnh. Tuy nhiên, bộ dữ liệu này còn khá “thô sơ” để đưa vào mô hình huấn luyện theo các phương pháp máy học cũng như học sâu (sẽ trình bày ở Mục 4) và thường đạt hiệu suất dự đoán thấp. Vì thế việc biến đổi dữ liệu là rất quan trọng, với mục đích chung là giảm bộ nhớ sử dụng cho huấn luyện, giảm thiểu số thuộc tính nhiễu, và tăng cường chọn ra những “đặc trưng” để tạo nên một mô hình học thật sự hiệu quả. 3.1. Lựa chọn thuộc tính Lựa chọn thuộc tính là một phương pháp giảm số lượng các thuộc tính đầu vào trong quá trình tạo ra một mô hình dự đoán có hiệu quả khi giảm được chi phí cho việc tính toán, các vấn đề bùng nổ bộ nhớ và tăng độ hiệu quả của mô hình tạo ra. Các phương pháp lựa chọn thuộc tính thực chất nhắm vào việc chọn ra những thuộc tính nào liên quan mật thiết đến kết quả đầu ra dựa vào việc thống kê. ... ong MetAML (Pasolli & ctg, 2016), chúng ta thấy kết quả của Selbal và Deepmg-CNN vượt trội đối với chẩn đoán bệnh xơ gan, riêng đối với bệnh béo phì và tiểu đường loại 2 thì giải thuật hồi quy tuyển tính của Deepmg cho kết quả tốt hơn các công bố trong (Pasolli & ctg, 2016). Dựa trên từng phương pháp chúng ta thấy được sự khác biệt rõ rệt về độ chính xác trong dự đoán bệnh. Tóm lại, qua chạy thực nghiệm bằng nhiều phương pháp, chúng tôi đề xuất sử dụng Deepmg-CNN (mô hình nơ ron tích chập) để dự đoán các bệnh xơ gan, béo phì, tiểu đường loại 2. Qua việc sử dụng các framework trên cho các thực nghiệm, chúng tôi nhận thấy cả ba đều hỗ trợ nhận các tập tin đầu vào với định dạng phổ biến như định dạng file csv. Sử dụng những ngôn ngữ phổ biến dành cho khoa học dữ liệu như R (Selbal), Python (Deepmg và PopPhy). Các framework này đều có trang thông tin hướng dẫn để người dùng có thể dễ dạng chạy các thực nghiệm. Tuy nhiên, Selbal yêu cầu phải tiền xử lý đối với giá trị thuộc tính có giá trị 0 bởi việc thay thế bởi một số nào đó hoặc tịnh tiến cộng tất cả giá trị trong bộ dữ liệu với một số không đổi (ví dụ như cộng thêm 1 cho dữ liệu về thành phần tổng các loài vi sinh trong các mẫu để tất cả giá trị đều khác 0), điều này có thể dẫn đến gây nhiễu và cho kết quả thấp trên một số dữ liệu (ví dụ như trên bệnh béo phì như đã thể hiện ở Bảng 5). Thêm nữa hiện tại Selbal chỉ hỗ trợ với giải thuật học với mô hình hồi quy tuyến tính được tích hợp cứng trong framework. Đối với PopPhy chỉ hỗ trợ với những bộ dữ liệu mà tác giả đã nghiên cứu với các bộ tham số mô hình học đều được thiết lập cứng, đối với những bộ dữ liệu mới cần phải có đề xuất mô hình mới nếu không kết quả sẽ đạt không cao nếu lấy cấu hình từ những bộ dữ liệu cũ đã được khảo sát. Riêng với Deepmg hỗ trợ với vùng rộng các tham số và hỗ trợ nhiều giải thuật học khác nhau từ giải thuật máy học cổ điển như Rừng ngẫu nhiên cho đến những giải thuật học sâu. Tuy nhiên việc chọn các tham số tối ưu trong một danh sách tham số quá dài là điều không đơn giản và đôi khi khó kiểm soát được chương trình. Bảng 5. Kết quả so sánh các framework khác nhau hỗ trợ phân tích dữ liệu Metagenomic dựa trên những tham số đề nghị của các tác giả Phương pháp Độ chính xác trung bình dự đoán (Accuracy) Xơ gan Béo phì Tiếu đường loại 2 Deepmg-Hồi quy tuyến tính 0.776 0.668 0.700 Deepmg-Mạng nơ-ron tích chập 0.918 0.660 0.656 PopPhy- Mạng nơ-ron tích chập 0.720 0.493 0.532 Selbal-Hồi quy tuyến tính 0.900 0.587 0.662 MetAML-RF 0.877 0.644 0.664 Nguồn: Pasolli & ctg (2016). TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 140 6. KẾT LUẬN Trong bài báo này chúng tôi đã trình bày những công cụ hỗ trợ cho việc phân tích nguồn dữ liệu mới Metagenomic hỗ trợ chẩn đoán bệnh cho con người. Bằng cách sử dụng các framework khác nhau như Popphy-CNN, Selbal, Deepmg, và một vài các framework đã được đề xuất khác đã mang đến kết quả vô cùng khả quan, mang tính khích lệ trong việc tìm ra các liệu pháp chữa trị đúng đắn cho từng cá nhân mắc bệnh, tạo ra những tiếp cận khác hơn so với y học truyền thống. Đây là một phần nằm trong nhóm phương pháp Y học cá thể hóa. Phương pháp này sẽ thay thế phương pháp truyền thống để nâng cao hiệu quả trong việc chẩn đoán và điều trị bệnh. Từ các kết quả được khảo sát qua các nghiên cứu ta thấy được những tiềm năng cho việc nghiên cứu phân tích dữ liệu Metagenomic trong việc chẩn đoán các căn bệnh ở người. Bộ dữ liệu Metagenomic với nhiều tiềm năng đã hỗ trợ giải quyết các vấn đề như: Tìm ra nguyên nhân bệnh, những loài vi khuẩn cốt yếu mà sự thay đổi về mật độ của chúng ảnh hưởng đến sức khỏe con người hay tình trạng bệnh của bệnh nhân. Từ đó đẩy mạnh nghiên cứu thuốc tiêu diệt hay tăng cường những chủng vi khuẩn cốt yếu đó. Thêm vào đó, cá nhân hóa việc điều trị bệnh, vì với mỗi người, biểu hiện cũng như phương pháp điều trị chung có nhiều trường hợp rủi ro chữa bệnh không thành công, chính vì vậy với phương pháp điều trị cá nhân hóa có thể giúp nâng cao hiệu suất chữa bệnh cho bệnh nhân. Bằng cách xác định nguyên nhân gây bệnh với mỗi người, và chỉ trên mỗi cơ thể mới tìm ra được cách giải quyết tốt nhất cho bệnh nhân đó và cứu họ thoát khỏi bệnh tật mà các phương pháp “đại chúng” có thể không phù hợp với “cơ địa” của họ. Trong tương lai, với sự hỗ trợ của Công nghệ thông tin, chúng tôi dự đoán sẽ có nhiều nghiên cứu phân tích và khám phá dựa trên sức mạnh và sự phát triển của công nghệ để chúng ta có thể thu thập và khám phá thêm những kiến thức về những ảnh hưởng của vi sinh vật sống trong môi trường cơ thể con người cùng với sự ảnh hưởng của chúng đối với sức khỏe con người nhằm hỗ trợ chăm sóc sức khỏe con người theo hướng tiếp cận Y học cá thể hóa. LỜI CẢM ƠN Nghiên cứu này được tài trợ bởi dự án, đề tài mã số T2020-12 của Trường Đại học Cần Thơ. TÀI LIỆU THAM KHẢO Abubucker, S., Segata, N., Goll, J., Schubert, A. M., Izard, J., Cantarel, Huttenhower, C. (2012). Metabolic reconstruction for Metagenomic data and its application to the human microbiome. PLOS Computational Biology, 8(6), 1-17. Bajaj, J. S., Betrapally, N. S., & Gillevet, P. M. (2015). Decompensated cirrhosis and microbiome interpretation. Nature, 525(7569), 1-4. Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32. Breiman, L., & Cutler, A. (2012). Breiman and Cutler’s random forests for classification and regression (Package randomForest). Retrieved from edu/~dcs/courses/math47/R/library/randomForest/html/00Index.html. Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Công Tính, Phạm Huỳnh Ngọc, và Nguyễn Thanh Hải 141 Cai, L., Wu, H., Li, D., Zhou, K., & Zou, F. (2015). Type 2 diabetes biomarkers of human gut microbiota selected via iterative sure independent screening method. PloS One, 10(10), 1-15. Chatelier, L. E., Nielsen, T., Qin, J., Prifti, E., Hildebrand, F., Falony, G., Pedersen, O. (2013). Richness of human gut microbiome correlates with metabolic markers. Nature, 500(7464), 541-546. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20, 273-297. Darling, A. E., Jospin, G., Lowe, E., Matsen, IV. F. A., Bik, H. M., & Eisen, J. A. (2014). PhyloSift: phylogenetic analysis of genomes and metagenomes. PeerJ, 2013(1), 1-28. Dinsdale, E. A., Edwards, R. A., Bailey, B. A., Tuba, I., Akhter, S., McNair, K., Ponomarenko, V. (2013). Multivariate Analysis of Functional Metagenomes. Frontiers, 4(41), 1-25. Ditzler, G., Polikar, R., & Rosen, G. (2015). Multi-layer and recursive neural networks for metagenomic classification. IEEE Transactions on NanoBioscience, 14(6), 608-616. Ditzler, G., Morrison, J. C., Lan, Y., & Rosen, G. L. (2015). Feature subset selection for metagenomics. BMC Bioinformatics, 16, 1-8. Dodge, S., & Karam, L. (2017). A study and comparison of human and deep learning recognition performance under visual distortions. New York, US: Institute of Electrical and Electronics Engineers Inc Publishing. Dudley, J. T., & Karczewski, K. J. (2014). Exploring personal genomics. Oxford, UK: Oxford University Press Publishing. Ehrlich, S. D. (2016). The human gut microbiome impacts health and disease. Comptes Rendus Biologies, 339(7-8), 319-323. Forslund, K., Hildebrand, F., Nielsen, T., Falony, G., Chatelier, L. E., Sunagawa, S., Pedersen, O. (2015). Disentangling type 2 diabetes and metformin treatment signatures in the human gut microbiota. Nature, 528, 262-266. Gevers, D., Kugathasan, S., Denson, LA., Vázquez-Baeza, Y., Van, T. W., Ren, B., Schwager, E., Knights, D., Song, S. J., Yassour, M., Morgan, X. C., Kostic, A. D., Luo, C., González, A., McDonald, D., Haberman, Y., Walters, T., Baker, S., Rosh, J., Stephens, M., Heyman, M., Markowitz, J., Baldassano, R., Griffiths, A., Sylvester, F., Mack, D., Kim, S., Crandall, W. (2014). The treatment naïve microbiome in new-onset Crohn’s disease. Cell Host Microbe, 15(3), 382-392. Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507. Hicilar, H., Nalbantoglu, O. U., Aran, O., & Bakir-Gungor, B. (2020). Inflammatory Bowel Disease Biomarkers of Human Gut Microbiota Selected via Ensemble Feature Selection Methods. Retrieved from https://www.semanticscholar.org/ TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 142 paper/Inflammatory-Bowel-Disease-Biomarkers-of-Human-Gut-Hacilar- Nalbantoglu/bf1b542425279483c24da74b2bfe40826eff76aa. Jiang, Y., Wang, J., Xia, D., & Yu, G. (2017). EnSVMB: Metagenomics Fragments Classification using Ensemble SVM and BLAST. Scientific Reports, 7(1), 1-10. Karlsson, F. H., Tremaroli, V., Nookaew, I., Bergström, G., Behre, C. J., Fagerberg, B., Bäckhed, F. (2013). Gut metagenome in European women with normal, impaired and diabetic glucose control. Nature, 498(7452), 99-103. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In D. S. Touretzky (Ed), Advances in neural information processing systems 2 (pp. 1097-1105). Vancouver, Canada: Neural Information Processing Systems Publishing. LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & Jackel, L. D. (1990). Handwritten digit recognition with a back-propagation network. In D. S. Touretzky (Ed), Advances in neural information processing systems 2 (pp. 396-404). Vancouver, Canada: Neural Information Processing Systems Publishing. LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444. Lin, Y. C. (2015). A new binning method for metagenomics by one-dimensional cellular automata. International Journal of Genomics, 2015, 1-6. Lo, C., & Marculescu, R. (2018). Accurate classification of host phenotypes from metagenomic data using neural networks. BMC Bioinformatics, 20, 1-14. Nguyen, T. H., Prifti, E., Chevaleyre, Y., Sokolovska, N., & Zucker, J. D. (2018). Disease Classification in Metagenomics with 2D Embeddings and Deep Learning. Retrieved from https://arxiv.org/abs/1806.09046. Nguyen, T. H., Prifti, E., Sokolovska, N., & Zucker, J. D. (2019). Disease Prediction Using Synthetic Image Representations of Metagenomic Data and Convolutional Neural Networks. New York, USA: IEEE Publishing. Nguyen, T. H., & Zucker, J. D. (2019). Enhancing metagenome-based disease prediction by unsupervised binning approaches. Paper presented at The 11th International Conference on Knowledge and Systems Engineering, Da Nang, Vietnam. Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12(85), 2825-2830. Pasolli, E., Truong, D. T., Malik, F., Waldron, L., & Segata, N. (2016). Machine learning meta-analysis of large metagenomic datasets: tools and biological insights. PLOS Computational Biology, 12(7), 1-26. Pasolli, E., Schiffer, L., Manghi, P., Renson, A., Obenchain, A., Truong, D. T., Waldron, L. (2017). Accessible, curated metagenomic data through ExperimentHub. Natural Methods, 14, 1023-1024. Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Công Tính, Phạm Huỳnh Ngọc, và Nguyễn Thanh Hải 143 Qin, J., Li, R., Raes, J., Arumugam, M., Burgdorf, K. S., Manichanh, C., Wang, J. (2010). A human gut microbial gene catalogue established by metagenomic sequencing. Nature, 464, 59-65. Qin, J., Li, Y., Cai, Z., Li, S., Zhu, J., Zhang, F., Wang, J. (2012). A metagenome- wide association study of gut microbiota in type 2 diabetes. Nature, 490, 55-60. Qin, N., Yang, F., Li, A., Prifti, E., Chen, Y., Shao, L., Li, L. (2014). Alterations of the human gut microbiome in liver cirrhosis. Nature, 513, 59-64. Rakel, D., & Rakel, R. E. (2011). Textbook of Family Medicine. Pennsylvania, USA: Saunders Publishing. Reiman, D., Metwally, A., & Dai, Y. (2017), Using convolutional neural networks to explore the microbiome, Engineering in Medicine and Biology Society (EMBC). Paper presented at The 39th Annual International Conference of the IEEE Engineering in Medicine and Biology Society, Seogwipo, South Korea. Reiman, D., Metwally, A. A., & Dai, Y. (2018). PopPhy-CNN: A phylogenetic tree embedded architecture for convolution neural networks for metagenomic data. Oxford, UK: Oxford University Express Publishing. Rivera-Pinto, J., Egozcue, J. J., Pawlowsky-Glahn, V., Paredes, R., Noguera-Julian, M., & Calle, M. L. (2018). Balances: a New Perspective for Micro- biome Analysis. mSystems, 3(4), 1-12. Saitta, L. (1995). Support-vector networks. Machine Learning, 20(3), 273-297. Statnikov, A., Henaff, M., Narendra, V., Konganti, K., Li, Z., Yang, L., Alekseyenko, A. V. (2013). A comprehensive evaluation of multicategory classification methods for microbiomic data. Microbiome, 1(1), 1-12. Svozil, D., Kvasnicka, V. & Pospichal, J.(1997). Introduction to multi-layer feed-forward neural networks. Chemometrics and intelligent laboratory systems. 39 (1), 43-62. The Academy of Medical Sciences. (2015). Stratified, personalised or P4 medicine: a new direction for placing the patient at the centre of healthcare and health education. Retrieved from https://acmedsci.ac.uk/viewFile/564091e072d41.pdf. Umeo, H., Kamikawa, N., Nishioka, K., & Akiguchi, S. (2009). Simulation of generalized synchronization processes on one-dimensional cellular automata. In R. Imre, M. Demiralp, & N. Mastorakis (Eds.), Proceedings of the 9th WSEAS International Conference on Simulation, Modelling and Optimization (pp. 350-357). Wiscosin, USA: World Scientific and Engineering Academy and Society (WSEAS) Publishing. Vincent, P., Larochelle, H., Lajoie, I., Bengio, Y., & Manzagol, P. A. (2010). Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion. Journal of machine learning research, 11, 3371-3408. Virgin, H. W., & Todd, J. A. (2011). Metagenomics and personalized medicine. Cell, 147(1), 44-56. TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 144 Wassan, J. T., Wang, H., Browne, F., & Zheng, H. (2018). A Comprehensive Study on Predicting Functional Role of Metagenomes Using Machine Learning Methods. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 16(3), 751-763. Zeller, G., Tap, J., Voigt, A. Y., Sunagawa, S., Kultima, J. R., Costea, P. I., Bork, P. (2014). Potential of fecal microbiota for early‐stage detection of colorectal cance. Molecular Systems Biology, 10(11), 1-18. Zou, H., & Hastie, T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67, 301-320.
File đính kèm:
danh_gia_cac_cong_cu_ho_tro_chan_doan_benh_voi_cach_tiep_can.pdf

