Đánh giá các công cụ hỗ trợ chẩn đoán bệnh với cách tiếp cận y học cá thể hóa trên dữ liệu Metagenomic

Trong những năm gần đây, dữ liệu Metagenomic hay còn gọi là dữ liệu “hệ đa gen” được
sử dụng ngày càng nhiều cho các nghiên cứu trong các tiếp cận “Y học cá thể hóa” với mục
tiêu cải thiện và nâng cao tính hiệu quả trong việc chăm sóc bảo vệ sức khỏe con người.
Nhiều nghiên cứu đã thực nghiệm phân tích trên bộ dữ liệu này và đề xuất nhiều phương
pháp để cải thiện độ chính xác trong phân tích. Việc ứng dụng công nghệ thông tin để xử lý
và hỗ trợ phân tích dữ liệu này phục vụ cho Y học cá thể là không thể thiếu bởi khối lượng
công việc xử lý và độ phức tạp là rất lớn. Với những lợi ích đầy tiềm năng của dữ liệu
Metagenomic đã được chứng minh qua nhiều nghiên cứu. Trong phạm vi bài báo này, nhóm
nghiên cứu giới thiệu và đánh giá những công cụ rất hữu ích phục vụ cho việc nghiên cứu
dữ liệu Metagenomic trong hỗ trợ chẩn đoán bệnh cho con người. Từ các nghiên cứu này,
chúng ta có thể phát triển những nghiên cứu mở rộng và sâu hơn để khám phá những ảnh
hưởng quan trọng của hệ sinh thái vi sinh vật trong cơ thể con người ảnh hưởng đến sức
khỏe và từ đó đề xuất những xu hướng chẩn đoán và điều trị phù hợp để nâng cao và cải
thiện sức khỏe con người
28 trang phuongnguyen 520
Download
Bạn đang xem 20 trang mẫu của tài liệu "Đánh giá các công cụ hỗ trợ chẩn đoán bệnh với cách tiếp cận y học cá thể hóa trên dữ liệu Metagenomic", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Đánh giá các công cụ hỗ trợ chẩn đoán bệnh với cách tiếp cận y học cá thể hóa trên dữ liệu Metagenomic

TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT Tập 10, Số 2, 2020 117-144 
117 
ĐÁNH GIÁ CÁC CÔNG CỤ HỖ TRỢ CHẨN ĐOÁN BỆNH 
VỚI CÁCH TIẾP CẬN Y HỌC CÁ THỂ HÓA TRÊN DỮ LIỆU 
METAGENOMIC 
Phan Tấn Tàia, Tạ Đặng Vĩnh Phúca, Phan Nguyễn Minh Thảoa, Nguyễn Thị Ngọc 
Chăma, Đào Công Tínha, Phạm Huỳnh Ngọca, Nguyễn Thanh Hảia* 
aKhoa Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ, Cần Thơ, Việt Nam 
*Tác giả liên hệ: Email: [email protected] 
Lịch sử bài báo 
Nhận ngày 18 tháng 01 năm 2020 
Chỉnh sửa lần 01 ngày 18 tháng 3 năm 2020 | Chỉnh sửa lần 02 ngày 20 tháng 4 năm 2020 
Chấp nhận đăng ngày 22 tháng 5 năm 2020 
Tóm tắt 
Trong những năm gần đây, dữ liệu Metagenomic hay còn gọi là dữ liệu “hệ đa gen” được 
sử dụng ngày càng nhiều cho các nghiên cứu trong các tiếp cận “Y học cá thể hóa” với mục 
tiêu cải thiện và nâng cao tính hiệu quả trong việc chăm sóc bảo vệ sức khỏe con người. 
Nhiều nghiên cứu đã thực nghiệm phân tích trên bộ dữ liệu này và đề xuất nhiều phương 
pháp để cải thiện độ chính xác trong phân tích. Việc ứng dụng công nghệ thông tin để xử lý 
và hỗ trợ phân tích dữ liệu này phục vụ cho Y học cá thể là không thể thiếu bởi khối lượng 
công việc xử lý và độ phức tạp là rất lớn. Với những lợi ích đầy tiềm năng của dữ liệu 
Metagenomic đã được chứng minh qua nhiều nghiên cứu. Trong phạm vi bài báo này, nhóm 
nghiên cứu giới thiệu và đánh giá những công cụ rất hữu ích phục vụ cho việc nghiên cứu 
dữ liệu Metagenomic trong hỗ trợ chẩn đoán bệnh cho con người. Từ các nghiên cứu này, 
chúng ta có thể phát triển những nghiên cứu mở rộng và sâu hơn để khám phá những ảnh 
hưởng quan trọng của hệ sinh thái vi sinh vật trong cơ thể con người ảnh hưởng đến sức 
khỏe và từ đó đề xuất những xu hướng chẩn đoán và điều trị phù hợp để nâng cao và cải 
thiện sức khỏe con người. 
Từ khóa: Chẩn đoán bệnh; Học sâu; Máy học; Metagenomic; Phân tích gene; Y học cá thể. 
DOI:  
Loại bài báo: Bài báo nghiên cứu gốc có bình duyệt 
Bản quyền © 2020 (Các) Tác giả. 
Cấp phép: Bài báo này được cấp phép theo CC BY-NC 4.0 
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 
118 
EVALUATION OF ASSISTANCE TOOLS FOR DIAGNOSIS 
OF DISEASES BY APPROACHING TO PERSONALIZED 
MEDICINE ON METAGENOMIC DATA 
Phan Tan Taia, Ta Đang Vinh Phuca, Phan Nguyen Minh Thaoa, 
Nguyen Thi Ngoc Chama, Dao Cong Tinha, Pham Huynh Ngoca, Nguyen Thanh Haia* 
 a The Faculty of Information Communication and Technology, Cantho University, Cantho, Vietnam. 
*Corresponding author: Email: [email protected] 
Article history 
Received: January 18th, 2020 
Received in revised form (1st): March 18th, 2020 | Received in revised form (2nd): April 20th, 2020 
Accepted: May 22nd, 2020 
Abstract 
In recent years, Metagenomic data, or “multi-genome” data, has been increasingly used for 
research in “personalized medicine” approaches with the purpose of improving and 
enhancing effectiveness in human health care. Many studies have experimentally analyzed 
this data and proposed many methods to improve the accuracy of the analysis. Applying and 
integrating information technology to process and analyze Metagenomic data for 
personalized medicine approaches are necessary because of the enormous complexity of 
Metagenomic data. The potential advantages of Metagenomic data have been proven 
through many studies. Within the scope of this research, we introduce and evaluate useful 
tools for studying Metagenomic data in supporting the diagnosis of human disease and health 
conditions. From these studies, we may develop extensive and in-depth studies from previous 
studies to explore the important effect of the microbial ecosystem that is a rich set of 
microbial features for prediction and biomarker discovery in the human body. Moreover, 
there are trends diagnosis, appropriate treatments to improve and enhance human health. 
Keywords: Deep Learning; Disease diagnosis; Gene Analysis; Machine Learning; 
Metagenomic; Personalized Medicine. 
DOI:  
Article type: (peer-reviewed) Full-length research article 
Copyright © 2020 The author(s). 
Licensing: This article is licensed under a CC BY-NC 4.0 
Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Công Tính, Phạm Huỳnh Ngọc, và 
Nguyễn Thanh Hải 
119 
1. GIỚI THIỆU VỀ METAGENOMIC 
1.1. Tầm quan trọng và các hướng nghiên cứu hỗ trợ chăm sóc sức khỏe con người 
Metagenomic, hay còn gọi là “Di truyền học sinh thái”, hoặc “Di truyền học môi 
trường”, là thuật ngữ chỉ những nghiên cứu về hệ sinh thái đa gen trong một môi trường 
(Ví dụ, hệ sinh thái các vi khuẩn nằm trong môi trường ruột người). Hiện nay, đây là 
nguồn dữ liệu mới đầy tiềm năng để ứng dụng trong việc hỗ trợ chăm sóc và chẩn đoán 
ban đầu cho sức khỏe con người. Với việc phát triển nhanh chóng của Công nghệ thông 
tin, nhiều công cụ dựa trên nền tảng công nghệ đang ngày càng phổ biến phục vụ đắc lực 
cho việc phân tích dữ liệu. Ehrlich (2016) cho rằng nguồn dữ liệu này có thể hỗ trợ cho 
chẩn đoán bệnh, dự báo dò tìm những rủi ro có thể làm cho con người mắc các căn bệnh, 
và theo dõi các tiến độ điều trị bệnh. 
Trong một thời gian rất dài, trong y học thường áp dụng một phương pháp điều 
trị duy nhất cho một căn bệnh. Chúng ta thường bỏ qua các yếu tố riêng đặc biệt của mỗi 
người trong việc điều trị bệnh mà áp dụng một phương pháp đại trà cho tất cả các người 
bệnh. Điều này dẫn đến tốn kém khi phác đồ điều trị chỉ có một phương pháp riêng lẻ, 
không thể nào bao phủ đạt độ hiệu quả cho tất cả các trường hợp. Với sự ra đời của các 
công nghệ giải trình tự DNA đã hỗ trợ rất lớn cho y học phát triển sang một cách tiếp cận 
y tế mới, Y học cá thể hóa (Personalized Medicine) (The Academy of Medical Sciences, 
2015; Dudley & Karczewski, 2014). Trong các tiếp cận này, các bệnh nhân sẽ được phân 
tích DNA để phân tích những đặc điểm riêng biệt có khả năng gây ra bệnh cho bệnh nhân 
và từ đó đề xuất phương pháp điều trị phù hợp riêng biệt cho chính bệnh nhân đó. Các 
nghiên cứu y học đã cho thấy có rất nhiều tác nhân hình thành nên mỗi loại bệnh, có bằng 
chứng mạnh mẽ rằng vi khuẩn trong ruột người đóng góp một phần lớn nguyên nhân gây 
ra các bệnh như viêm ruột (IBD), tiểu đường loại II (Type 2 diabetes), béo phì (Obesity), 
ung thư trực tràng (Colorectal Cancer), tự miễn dịch, và thoái hóa thần kinh mãn tính 
(Virgin & Todd, 2011). Thực chất số lượng vi sinh vật trong đó chủ yếu là ở đại tràng, 
gần bằng số lượng tế bào trong toàn bộ cơ thể nhưng chỉ có từ 10% đến 20% số vi khuẩn 
có trong đường ruột mỗi người là giống với những người khác (Rakel & Rakel, 2011). Vì 
thế, việc phân tích dữ liệu Metagenomic để có thể đưa ra phương pháp điều trị bệnh phù 
hợp cho từng bệnh nhân là điều hết sức cấp thiết hiện nay. 
Với những tiềm năng lợi ích rất lớn của dữ liệu này trong vấn đề chăm sóc sức 
khỏe con người nên đã có rất nhiều nghiên cứu đã thử nghiệm và trình bày đề xuất các 
phương pháp và các công cụ dựa trên việc ứng dụng Công nghệ thông tin để hỗ trợ việc 
phân tích dữ liệu này cho “Y học cá thể hóa” một cách có hiệu quả. Với phạm vi nghiên 
cứu đã thực hiện, chúng tôi đạt được một số kết quả: 
• Đánh giá về các công cụ hiện tại đang được nghiên cứu và triển khai để hỗ trợ 
chẩn đoán bệnh dựa trên dữ liệu Metagenomic. Từ những đánh giá này, có thể 
dùng để phát triển mở rộng các hướng nghiên cứu trên bộ dữ liệu này và hiểu 
được tầm quan trọng và ảnh hưởng của dữ liệu này trên sức khỏe con người. 
Những đánh giá có thể giúp phát triển mở rộng cải tiến những cách tiếp cận, 
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 
120 
phương pháp khác nhau trong việc mở rộng phân tích sâu trên bộ dữ liệu đầy 
tiềm năng này. 
• Trình bày một số phân tích trên kết quả của một số nghiên cứu khác về một số 
bệnh khác nhau như xơ gan, ung thư trực tràng, viêm ruột, béo phì, và tiểu đường 
loại 2. Trong đó nhiều kết quả nghiên cứu đã chỉ ra những kết quả rất khả năng 
trong việc dùng những liệu vi sinh vật trong cơ thể con người để chẩn đoán bệnh. 
Dữ liệu Metagenomic bao gồm những vi sinh trong ruột người cũng có thể dùng 
để nhận biết các chế độ ăn kiêng, phân biệt các loại ruột, và các loại bệnh viêm 
ruột. Những nghiên cứu này cũng là tiềm năng để nghiên cứu về chế độ dinh 
dưỡng và chế độ ăn ở các vùng khác nhau, để từ đó kết hợp chẩn đoán, đưa ra 
các phương án đặc thù cho điều trị. Tuy nhiên cũng còn một số thử thách cho 
những bệnh như béo phì và tiểu đường loại 2 mà trong thời gian tới chúng ta có 
thể phát triển nâng cấp những mô hình có sẵn hoặc đề xuất mô hình mới từ các 
hướng đi đã có để cải thiện độ chính xác. 
• Chúng ta cũng phân nhóm các công cụ hỗ trợ phân tích dữ liệu Metagenomic 
theo các phương pháp như lựa chọn thuộc tính và các phương pháp giảm chiều. 
Các phương pháp trình bày dữ liệu để thích hợp cho các mô hình máy học như 
phương pháp trình bày dữ liệu dạng 1D, 2D (ảnh). 
• Chúng tôi cũng giới thiệu các công cụ máy học phân làm hai loại: Máy học cổ 
điển và học sâu. Như chúng ta thấy Rừng ngẫu nhiên (Random Forest–RF) đạt 
hiệu suất rất cao trong nhiều dự đoán thậm chí cao hơn cả học sâu ở vài trường 
hợp. Các thuật toán học sâu như các mạng nơ-ron tích chập cũng đạt được hiệu 
quả cao khi chuyển dữ liệu từ dạng số (1D) sang ảnh. 
• Chúng tôi cũng chọn một vài công cụ đại diện các cách tiếp cận khác nhau để 
thực hiện các dự đoán trên một số bệnh bao gồm bệnh xơ gan, béo phì, và tiểu 
đường loại 2. Bệnh xơ gan tương đối có thể dự đoán hiệu quả, tuy nhiên chúng 
ta vẫn còn gặp nhiều khó khăn khi dự đoán béo phì và tiểu đường loại 2. Chúng 
ta đánh giá đây là những bệnh rất thử thách và hấp dẫn cho các nghiên cứu nâng 
cao hiệu quả dự đoán trong tương lai. 
Phần trình bày tiếp theo trong nghiên cứu này có cấu trúc như sau. Nội dung còn 
lại trong Phần 1 chúng tôi sẽ nói về những tiềm năng trong việc áp dụng trí tuệ nhân tạo 
trong y học. Phần 2, chúng tôi sẽ đánh giá và tìm hiểu các nguồn dữ liệu Metagenomic 
cho việc nghiên cứu chuyên sâu trên bộ này, nguồn dữ liệu này đến từ các kho dữ liệu 
trên các tạp chí có uy tín. Phần tiếp theo là phân tích về các công cụ hiện có để hỗ trợ cho 
việc phân tích dữ liệu Metagenomic. Một số hiện dùng các giải thuật máy học cổ điển, và 
cũng ứng dụng những giải thuật học sâu để hỗ trợ chẩn đoán. Cuối cùng, chúng tôi tóm 
tắt lại những điểm chính của nghiên cứu trong phần “Kết luận”. 
Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Công Tính, Phạm Huỳnh Ngọc, và 
Nguyễn Thanh Hải 
121 
1.2. Trí tuệ nhân tạo trong Y học 
Ngày nay, Trí tuệ nhân tạo (Artificial Intelligence–AI) được con người đưa vào 
mọi lĩnh vực trong đời sống. Bởi vì, máy học nói riêng hay trí tuệ nhân tạo nói chung đều 
sử dụng các thuật toán, quy tắc, học sâu hỗ trợ con người tính toán và đưa ra kết luận mà 
không cần đầu vào trực tiếp của con người. Đặc biệt, đối với nhu cầu chăm sóc sức khỏe 
của con người ngày càng được chú trọng, các nhà nghiên cứu cho rằng AI mang lại tiềm 
năng khi áp dụng hầu hết trong lĩnh vực y học bao gồm đọc và phân tích thông tin hồ sơ 
y tế và thực hiện các hoạt động chuyên ngành chẳng hạn như quét CT giúp các chuyên 
gia giảm một lượng lớn công việc, nên họ chỉ cần tập trung vào các trường hợp phức tạp 
nhất khi mà robot có thể chưa đủ sự linh hoạt để giải quyết. Bên cạnh đó, hiện nay đã có 
rất nhiều ứng dụng AI được phát triển nhanh chóng, hỗ trợ bác sĩ chẩn đoán lâm sàng và 
xu hướng điều trị bệnh Y học chính xác (Precision Medicine) hay Y học cá thể hoá 
(Personalized Medicine). Tất cả những thông tin y khoa sẽ tạo ra một lượng dữ liệu cực 
lớn, phân tích và tích hợp bởi công nghệ tiên tiến như trí tuệ nhân tạo sẽ góp phần giải 
quyết xử lý và khai thác tốt lượng dữ liệu khổng lồ này. 
Hơn nữa, với cùng một loài vi khuẩn nhưng có thể chiếm ít hơn 50% gen giống 
nhau khi tìm thấy trong hai người vì môi trường hoạt động của chúng là khác nhau. Vì 
thế, quan trọng là không chỉ xác định các loại vi khuẩn trong một mẫu nhất định mà còn 
phải chú ý đến môi trường di truyền từng dòng của chúng. Tuy nhiên, điều này là một 
thách thức đáng kể với Big Data, đòi hỏi tiến bộ trong phương pháp thống kê và phần 
mềm mới để phân tích chính xác của dữ liệu khổng lồ Metagenomic. Do chuỗi 
Metagenomic có độ chệch lớn và các lỗi do đó phải được khắc phục trước khi chúng ta 
có thể so sánh các dữ liệu chính xác tất cả các mẫu. Điều này đã hạn chế sự hiểu biết của 
chúng ta cả về mức độ và tác động của sự biến đổi của vi sinh vật trong môi trường khác 
nhau, quan trọng nhất là các microbiome con người. Vì thế, ứng dụng để đưa công nghệ 
AI vào giải quyết vấn đề khó khăn này là hết sức cần thiết cho ngành y học hiện tại cũng 
như tương lai. 
2. ĐẶC ĐIỂM DỮ LIỆU METAGENOMIC CHO NGHIÊN CỨU 
Kho dữ liệu Metagenomic là khá đa dạng phải trải qua nhiều thành phần xử lý dữ 
liệu. Ehrlich (2016) đã mô tả các tiến trình xử lý dữ liệu và được thể hiện trong Hình 1, 
để có được dữ liệu cho các phân tích, chúng ta cần trải qua nhiều giai đoạn xử lý. Ban 
đầu, dữ liệu được thu thập từ các mẫu phân của bệnh nhân. Phần thu thập này sẽ được 
đưa qua quá trình phân tích giải trình tự vật liệu di truyền (DNA). Từ các đoạn DNA này 
chúng ta cần tham chiếu vào bộ gen đã được các nhà nghiên cứu trước đó khám phá và 
công bố để biết được những đoạn DNA phân tích thuộc những loài nào. Sau quá trình 
tham chiếu này chúng ta sẽ được một bảng “Gene counts” (Bộ đếm gene). Bộ đếm gene 
ở đó chúng ta sẽ có kết quả tham chiếu những loài vi khuẩn đã biết. Từ các gene counts 
này chúng ta có thể tính toán các tỷ lệ phân bố (abundance) các thành phần vi khuẩn trong 
bệnh nhân cần phân tích. Relative abundance như một độ đo đa dạng sinh học và cho biết 
độ phổ biến hay độ hiếm của một loài so với các loài khác. 
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 
122 
Hình 1. Tiến trình “định lượng Metagenomic” trong ruột người 
Nguồn: Ehrlich (2016). 
3. MỘT SỐ PHƯƠNG PHÁP BIẾN ĐỔI DỮ LIỆU METAGENOMIC 
Bộ dữ liệu Metagenomic mang trong nó rất nhiều tiềm năng để chẩn đoán bệnh 
cũng như dự đoán được những rủi ro mắc bệnh. Tuy nhiên, bộ dữ liệu này còn khá “thô 
sơ” để đưa vào mô hình huấn luyện theo các phương pháp máy học cũng như học sâu (sẽ 
trình bày ở Mục 4) và thường đạt hiệu suất dự đoán thấp. Vì thế việc biến đổi dữ liệu là 
rất quan trọng, với mục đích chung là giảm bộ nhớ sử dụng cho huấn luyện, giảm thiểu 
số thuộc tính nhiễu, và tăng cường chọn ra những “đặc trưng” để tạo nên một mô hình 
học thật sự hiệu quả. 
3.1. Lựa chọn thuộc tính 
Lựa chọn thuộc tính là một phương pháp giảm số lượng các thuộc tính đầu vào 
trong quá trình tạo ra một mô hình dự đoán có hiệu quả khi giảm được chi phí cho việc 
tính toán, các vấn đề bùng nổ bộ nhớ và tăng độ hiệu quả của mô hình tạo ra. Các phương 
pháp lựa chọn thuộc tính thực chất nhắm vào việc chọn ra những thuộc tính nào liên quan 
mật thiết đến kết quả đầu ra dựa vào việc thống kê. 
 ... ong MetAML (Pasolli & ctg, 2016), chúng ta thấy kết quả của Selbal và Deepmg-CNN 
vượt trội đối với chẩn đoán bệnh xơ gan, riêng đối với bệnh béo phì và tiểu đường loại 2 
thì giải thuật hồi quy tuyển tính của Deepmg cho kết quả tốt hơn các công bố trong (Pasolli 
& ctg, 2016). Dựa trên từng phương pháp chúng ta thấy được sự khác biệt rõ rệt về độ 
chính xác trong dự đoán bệnh. Tóm lại, qua chạy thực nghiệm bằng nhiều phương pháp, 
chúng tôi đề xuất sử dụng Deepmg-CNN (mô hình nơ ron tích chập) để dự đoán các bệnh 
xơ gan, béo phì, tiểu đường loại 2. 
Qua việc sử dụng các framework trên cho các thực nghiệm, chúng tôi nhận thấy 
cả ba đều hỗ trợ nhận các tập tin đầu vào với định dạng phổ biến như định dạng file csv. 
Sử dụng những ngôn ngữ phổ biến dành cho khoa học dữ liệu như R (Selbal), Python 
(Deepmg và PopPhy). Các framework này đều có trang thông tin hướng dẫn để người 
dùng có thể dễ dạng chạy các thực nghiệm. Tuy nhiên, Selbal yêu cầu phải tiền xử lý đối 
với giá trị thuộc tính có giá trị 0 bởi việc thay thế bởi một số nào đó hoặc tịnh tiến cộng 
tất cả giá trị trong bộ dữ liệu với một số không đổi (ví dụ như cộng thêm 1 cho dữ liệu về 
thành phần tổng các loài vi sinh trong các mẫu để tất cả giá trị đều khác 0), điều này có 
thể dẫn đến gây nhiễu và cho kết quả thấp trên một số dữ liệu (ví dụ như trên bệnh béo 
phì như đã thể hiện ở Bảng 5). Thêm nữa hiện tại Selbal chỉ hỗ trợ với giải thuật học với 
mô hình hồi quy tuyến tính được tích hợp cứng trong framework. Đối với PopPhy chỉ hỗ 
trợ với những bộ dữ liệu mà tác giả đã nghiên cứu với các bộ tham số mô hình học đều 
được thiết lập cứng, đối với những bộ dữ liệu mới cần phải có đề xuất mô hình mới nếu 
không kết quả sẽ đạt không cao nếu lấy cấu hình từ những bộ dữ liệu cũ đã được khảo 
sát. Riêng với Deepmg hỗ trợ với vùng rộng các tham số và hỗ trợ nhiều giải thuật học 
khác nhau từ giải thuật máy học cổ điển như Rừng ngẫu nhiên cho đến những giải thuật 
học sâu. Tuy nhiên việc chọn các tham số tối ưu trong một danh sách tham số quá dài là 
điều không đơn giản và đôi khi khó kiểm soát được chương trình. 
Bảng 5. Kết quả so sánh các framework khác nhau hỗ trợ phân tích dữ liệu 
Metagenomic dựa trên những tham số đề nghị của các tác giả 
Phương pháp 
Độ chính xác trung bình dự đoán (Accuracy) 
Xơ gan Béo phì Tiếu đường loại 2 
Deepmg-Hồi quy tuyến tính 0.776 0.668 0.700 
Deepmg-Mạng nơ-ron tích chập 0.918 0.660 0.656 
PopPhy- Mạng nơ-ron tích chập 0.720 0.493 0.532 
Selbal-Hồi quy tuyến tính 0.900 0.587 0.662 
MetAML-RF 0.877 0.644 0.664 
Nguồn: Pasolli & ctg (2016). 
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 
140 
6. KẾT LUẬN 
Trong bài báo này chúng tôi đã trình bày những công cụ hỗ trợ cho việc phân tích 
nguồn dữ liệu mới Metagenomic hỗ trợ chẩn đoán bệnh cho con người. Bằng cách sử 
dụng các framework khác nhau như Popphy-CNN, Selbal, Deepmg, và một vài các 
framework đã được đề xuất khác đã mang đến kết quả vô cùng khả quan, mang tính khích 
lệ trong việc tìm ra các liệu pháp chữa trị đúng đắn cho từng cá nhân mắc bệnh, tạo ra 
những tiếp cận khác hơn so với y học truyền thống. Đây là một phần nằm trong nhóm 
phương pháp Y học cá thể hóa. Phương pháp này sẽ thay thế phương pháp truyền thống 
để nâng cao hiệu quả trong việc chẩn đoán và điều trị bệnh. Từ các kết quả được khảo sát 
qua các nghiên cứu ta thấy được những tiềm năng cho việc nghiên cứu phân tích dữ liệu 
Metagenomic trong việc chẩn đoán các căn bệnh ở người. Bộ dữ liệu Metagenomic với 
nhiều tiềm năng đã hỗ trợ giải quyết các vấn đề như: Tìm ra nguyên nhân bệnh, những 
loài vi khuẩn cốt yếu mà sự thay đổi về mật độ của chúng ảnh hưởng đến sức khỏe con 
người hay tình trạng bệnh của bệnh nhân. Từ đó đẩy mạnh nghiên cứu thuốc tiêu diệt hay 
tăng cường những chủng vi khuẩn cốt yếu đó. Thêm vào đó, cá nhân hóa việc điều trị 
bệnh, vì với mỗi người, biểu hiện cũng như phương pháp điều trị chung có nhiều trường 
hợp rủi ro chữa bệnh không thành công, chính vì vậy với phương pháp điều trị cá nhân 
hóa có thể giúp nâng cao hiệu suất chữa bệnh cho bệnh nhân. Bằng cách xác định nguyên 
nhân gây bệnh với mỗi người, và chỉ trên mỗi cơ thể mới tìm ra được cách giải quyết tốt 
nhất cho bệnh nhân đó và cứu họ thoát khỏi bệnh tật mà các phương pháp “đại chúng” có 
thể không phù hợp với “cơ địa” của họ. Trong tương lai, với sự hỗ trợ của Công nghệ 
thông tin, chúng tôi dự đoán sẽ có nhiều nghiên cứu phân tích và khám phá dựa trên sức 
mạnh và sự phát triển của công nghệ để chúng ta có thể thu thập và khám phá thêm những 
kiến thức về những ảnh hưởng của vi sinh vật sống trong môi trường cơ thể con người 
cùng với sự ảnh hưởng của chúng đối với sức khỏe con người nhằm hỗ trợ chăm sóc sức 
khỏe con người theo hướng tiếp cận Y học cá thể hóa. 
LỜI CẢM ƠN 
Nghiên cứu này được tài trợ bởi dự án, đề tài mã số T2020-12 của Trường Đại 
học Cần Thơ. 
TÀI LIỆU THAM KHẢO 
Abubucker, S., Segata, N., Goll, J., Schubert, A. M., Izard, J., Cantarel,  Huttenhower, 
C. (2012). Metabolic reconstruction for Metagenomic data and its application to 
the human microbiome. PLOS Computational Biology, 8(6), 1-17. 
Bajaj, J. S., Betrapally, N. S., & Gillevet, P. M. (2015). Decompensated cirrhosis and 
microbiome interpretation. Nature, 525(7569), 1-4. 
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32. 
Breiman, L., & Cutler, A. (2012). Breiman and Cutler’s random forests for classification 
and regression (Package randomForest). Retrieved from  
edu/~dcs/courses/math47/R/library/randomForest/html/00Index.html. 
Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Công Tính, Phạm Huỳnh Ngọc, và 
Nguyễn Thanh Hải 
141 
Cai, L., Wu, H., Li, D., Zhou, K., & Zou, F. (2015). Type 2 diabetes biomarkers of human 
gut microbiota selected via iterative sure independent screening method. PloS 
One, 10(10), 1-15. 
Chatelier, L. E., Nielsen, T., Qin, J., Prifti, E., Hildebrand, F., Falony, G.,  Pedersen, 
O. (2013). Richness of human gut microbiome correlates with metabolic markers. 
Nature, 500(7464), 541-546. 
Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20, 273-297. 
Darling, A. E., Jospin, G., Lowe, E., Matsen, IV. F. A., Bik, H. M., & Eisen, J. A. (2014). 
PhyloSift: phylogenetic analysis of genomes and metagenomes. PeerJ, 2013(1), 
1-28. 
Dinsdale, E. A., Edwards, R. A., Bailey, B. A., Tuba, I., Akhter, S., McNair, K.,  
Ponomarenko, V. (2013). Multivariate Analysis of Functional Metagenomes. 
Frontiers, 4(41), 1-25. 
Ditzler, G., Polikar, R., & Rosen, G. (2015). Multi-layer and recursive neural networks 
for metagenomic classification. IEEE Transactions on NanoBioscience, 14(6), 
608-616. 
Ditzler, G., Morrison, J. C., Lan, Y., & Rosen, G. L. (2015). Feature subset selection for 
metagenomics. BMC Bioinformatics, 16, 1-8. 
Dodge, S., & Karam, L. (2017). A study and comparison of human and deep learning 
recognition performance under visual distortions. New York, US: Institute of 
Electrical and Electronics Engineers Inc Publishing. 
Dudley, J. T., & Karczewski, K. J. (2014). Exploring personal genomics. Oxford, UK: 
Oxford University Press Publishing. 
Ehrlich, S. D. (2016). The human gut microbiome impacts health and disease. Comptes 
Rendus Biologies, 339(7-8), 319-323. 
Forslund, K., Hildebrand, F., Nielsen, T., Falony, G., Chatelier, L. E., Sunagawa, S.,  
Pedersen, O. (2015). Disentangling type 2 diabetes and metformin treatment 
signatures in the human gut microbiota. Nature, 528, 262-266. 
Gevers, D., Kugathasan, S., Denson, LA., Vázquez-Baeza, Y., Van, T. W., Ren, B., 
Schwager, E., Knights, D., Song, S. J., Yassour, M., Morgan, X. C., Kostic, A. 
D., Luo, C., González, A., McDonald, D., Haberman, Y., Walters, T., Baker, S., 
Rosh, J., Stephens, M., Heyman, M., Markowitz, J., Baldassano, R., Griffiths, A., 
Sylvester, F., Mack, D., Kim, S., Crandall, W. (2014). The treatment naïve 
microbiome in new-onset Crohn’s disease. Cell Host Microbe, 15(3), 382-392. 
Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with 
neural networks. Science, 313(5786), 504-507. 
Hicilar, H., Nalbantoglu, O. U., Aran, O., & Bakir-Gungor, B. (2020). Inflammatory 
Bowel Disease Biomarkers of Human Gut Microbiota Selected via Ensemble 
Feature Selection Methods. Retrieved from https://www.semanticscholar.org/ 
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 
142 
paper/Inflammatory-Bowel-Disease-Biomarkers-of-Human-Gut-Hacilar-
Nalbantoglu/bf1b542425279483c24da74b2bfe40826eff76aa. 
Jiang, Y., Wang, J., Xia, D., & Yu, G. (2017). EnSVMB: Metagenomics Fragments 
Classification using Ensemble SVM and BLAST. Scientific Reports, 7(1), 1-10. 
Karlsson, F. H., Tremaroli, V., Nookaew, I., Bergström, G., Behre, C. J., Fagerberg, B., 
 Bäckhed, F. (2013). Gut metagenome in European women with normal, 
impaired and diabetic glucose control. Nature, 498(7452), 99-103. 
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep 
convolutional neural networks. In D. S. Touretzky (Ed), Advances in neural 
information processing systems 2 (pp. 1097-1105). Vancouver, Canada: Neural 
Information Processing Systems Publishing. 
LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & 
Jackel, L. D. (1990). Handwritten digit recognition with a back-propagation 
network. In D. S. Touretzky (Ed), Advances in neural information processing 
systems 2 (pp. 396-404). Vancouver, Canada: Neural Information Processing 
Systems Publishing. 
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444. 
Lin, Y. C. (2015). A new binning method for metagenomics by one-dimensional cellular 
automata. International Journal of Genomics, 2015, 1-6. 
Lo, C., & Marculescu, R. (2018). Accurate classification of host phenotypes from 
metagenomic data using neural networks. BMC Bioinformatics, 20, 1-14. 
Nguyen, T. H., Prifti, E., Chevaleyre, Y., Sokolovska, N., & Zucker, J. D. (2018). Disease 
Classification in Metagenomics with 2D Embeddings and Deep Learning. 
Retrieved from https://arxiv.org/abs/1806.09046. 
Nguyen, T. H., Prifti, E., Sokolovska, N., & Zucker, J. D. (2019). Disease Prediction 
Using Synthetic Image Representations of Metagenomic Data and Convolutional 
Neural Networks. New York, USA: IEEE Publishing. 
Nguyen, T. H., & Zucker, J. D. (2019). Enhancing metagenome-based disease prediction 
by unsupervised binning approaches. Paper presented at The 11th International 
Conference on Knowledge and Systems Engineering, Da Nang, Vietnam. 
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O.,  
Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of 
Machine Learning Research, 12(85), 2825-2830. 
Pasolli, E., Truong, D. T., Malik, F., Waldron, L., & Segata, N. (2016). Machine learning 
meta-analysis of large metagenomic datasets: tools and biological insights. PLOS 
Computational Biology, 12(7), 1-26. 
Pasolli, E., Schiffer, L., Manghi, P., Renson, A., Obenchain, A., Truong, D. T.,  
Waldron, L. (2017). Accessible, curated metagenomic data through 
ExperimentHub. Natural Methods, 14, 1023-1024. 
Phan Tấn Tài, Tạ Đặng Vĩnh Phúc, Phan Nguyễn Minh Thảo, Nguyễn Thị Ngọc Chăm, Đào Công Tính, Phạm Huỳnh Ngọc, và 
Nguyễn Thanh Hải 
143 
Qin, J., Li, R., Raes, J., Arumugam, M., Burgdorf, K. S., Manichanh, C.,  Wang, J. 
(2010). A human gut microbial gene catalogue established by metagenomic 
sequencing. Nature, 464, 59-65. 
Qin, J., Li, Y., Cai, Z., Li, S., Zhu, J., Zhang, F.,  Wang, J. (2012). A metagenome-
wide association study of gut microbiota in type 2 diabetes. Nature, 490, 55-60. 
Qin, N., Yang, F., Li, A., Prifti, E., Chen, Y., Shao, L.,  Li, L. (2014). Alterations of 
the human gut microbiome in liver cirrhosis. Nature, 513, 59-64. 
Rakel, D., & Rakel, R. E. (2011). Textbook of Family Medicine. Pennsylvania, USA: 
Saunders Publishing. 
Reiman, D., Metwally, A., & Dai, Y. (2017), Using convolutional neural networks to 
explore the microbiome, Engineering in Medicine and Biology Society (EMBC). 
Paper presented at The 39th Annual International Conference of the IEEE 
Engineering in Medicine and Biology Society, Seogwipo, South Korea. 
Reiman, D., Metwally, A. A., & Dai, Y. (2018). PopPhy-CNN: A phylogenetic tree 
embedded architecture for convolution neural networks for metagenomic data. 
Oxford, UK: Oxford University Express Publishing. 
Rivera-Pinto, J., Egozcue, J. J., Pawlowsky-Glahn, V., Paredes, R., Noguera-Julian, M., 
& Calle, M. L. (2018). Balances: a New Perspective for Micro- biome Analysis. 
mSystems, 3(4), 1-12. 
Saitta, L. (1995). Support-vector networks. Machine Learning, 20(3), 273-297. 
Statnikov, A., Henaff, M., Narendra, V., Konganti, K., Li, Z., Yang, L.,  Alekseyenko, 
A. V. (2013). A comprehensive evaluation of multicategory classification 
methods for microbiomic data. Microbiome, 1(1), 1-12. 
Svozil, D., Kvasnicka, V. & Pospichal, J.(1997). Introduction to multi-layer feed-forward 
neural networks. Chemometrics and intelligent laboratory systems. 39 (1), 43-62. 
The Academy of Medical Sciences. (2015). Stratified, personalised or P4 medicine: a 
new direction for placing the patient at the centre of healthcare and health 
education. Retrieved from https://acmedsci.ac.uk/viewFile/564091e072d41.pdf. 
Umeo, H., Kamikawa, N., Nishioka, K., & Akiguchi, S. (2009). Simulation of generalized 
synchronization processes on one-dimensional cellular automata. In R. Imre, M. 
Demiralp, & N. Mastorakis (Eds.), Proceedings of the 9th WSEAS International 
Conference on Simulation, Modelling and Optimization (pp. 350-357). Wiscosin, 
USA: World Scientific and Engineering Academy and Society (WSEAS) 
Publishing. 
Vincent, P., Larochelle, H., Lajoie, I., Bengio, Y., & Manzagol, P. A. (2010). Stacked 
denoising autoencoders: Learning useful representations in a deep network with a 
local denoising criterion. Journal of machine learning research, 11, 3371-3408. 
Virgin, H. W., & Todd, J. A. (2011). Metagenomics and personalized medicine. Cell, 
147(1), 44-56. 
TẠP CHÍ KHOA HỌC ĐẠI HỌC ĐÀ LẠT [CHUYÊN SAN KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ] 
144 
Wassan, J. T., Wang, H., Browne, F., & Zheng, H. (2018). A Comprehensive Study on 
Predicting Functional Role of Metagenomes Using Machine Learning Methods. 
IEEE/ACM Transactions on Computational Biology and Bioinformatics, 16(3), 
751-763. 
Zeller, G., Tap, J., Voigt, A. Y., Sunagawa, S., Kultima, J. R., Costea, P. I.,  Bork, P. 
(2014). Potential of fecal microbiota for early‐stage detection of colorectal cance. 
Molecular Systems Biology, 10(11), 1-18. 
Zou, H., & Hastie, T. (2005). Regularization and variable selection via the elastic net. 
Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67, 
301-320.
File đính kèm:
danh_gia_cac_cong_cu_ho_tro_chan_doan_benh_voi_cach_tiep_can.pdf