Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh

Tóm tắt:

Bệnh động kinh được xem là căn bệnh liên quan đến rối loạn trong não phổ biến thứ hai và ảnh

hưởng đến khoảng 1% dân số thế giới. Đặc trưng của động kinh là sự xuất hiện bất chợt và mất

kiểm soát của cơn co giật (cơn động kinh). Trong bài báo này, chúng tôi đề xuất một phương pháp

sử dụng máy học vector hỗ trợ SVM (Support Vector Machine) để dự đoán cơn động kinh dựa trên

các bản ghi tín hiệu điện não đồ EEG (Electroencephalography). Phương pháp này sử dụng các đặc

trưng đơn biến của tín hiệu EEG nhằm phân loại bốn trạng thái tín hiệu EEG (bình thường, tiền động

kinh, động kinh và sau động kinh). Việc dự đoán chính xác cơn động kinh phụ thuộc vào khả năng

nhận dạng/phân biệt trạng thái tiền động kinh (pre-ictal) với ba trạng thái còn lại. Các kết quả mô

phỏng với cơ sở dữ liệu động kinh của Đại học Freiburg cho thấy tính hữu dụng của phương pháp

đề xuất.

12 trang phuongnguyen 11760

Download

Bạn đang xem tài liệu "Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Ứng dụng máy học vector hỗ trợ SVM trong dự đoán cơn động kinh

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
Số 21 39
ỨNG DỤNG MÁY HỌC VECTOR HỖ TRỢ SVM TRONG DỰ ĐOÁN CƠN ĐỘNG KINH
A METHOD BASED ON SVM TO PREDICT EPILEPTIC SEIZURES
Nguyễn Văn Sơn1*, Vương Hoàng Nam2, Đào Xuân Phúc1, Vũ Duy Thuận3
1Trường Đại học Mở Hà Nội, 2Trường Đại học Bách khoa Hà Nội, 3Trường Đại học Điện lực
Ngày nhận bài: 11/10/2019, Ngày chấp nhận đăng: 25/12/2019, Phản biện: TS. Nguyễn Hữu Phát
Tóm tắt:
Bệnh động kinh được xem là căn bệnh liên quan đến rối loạn trong não phổ biến thứ hai và ảnh
hưởng đến khoảng 1% dân số thế giới. Đặc trưng của động kinh là sự xuất hiện bất chợt và mất
kiểm soát của cơn co giật (cơn động kinh). Trong bài báo này, chúng tôi đề xuất một phương pháp
sử dụng máy học vector hỗ trợ SVM (Support Vector Machine) để dự đoán cơn động kinh dựa trên
các bản ghi tín hiệu điện não đồ EEG (Electroencephalography). Phương pháp này sử dụng các đặc
trưng đơn biến của tín hiệu EEG nhằm phân loại bốn trạng thái tín hiệu EEG (bình thường, tiền động
kinh, động kinh và sau động kinh). Việc dự đoán chính xác cơn động kinh phụ thuộc vào khả năng
nhận dạng/phân biệt trạng thái tiền động kinh (pre-ictal) với ba trạng thái còn lại. Các kết quả mô
phỏng với cơ sở dữ liệu động kinh của Đại học Freiburg cho thấy tính hữu dụng của phương pháp
đề xuất.
Từ khóa:
Máy học vector hỗ trợ (SVM), dự đoán cơn động kinh, tín hiệu điện não đồ (EEG).
Abstract:
Epilepsy is the second most common brain disorder and affects approximately 1% of the world’s
population. Epilepsy is characterized by the occurrence of unforeseenable and uncontrollable
seizures. In this paper, we propose a method based on SVM (Support Vector Machine) to predict
epileptic seizures using EEG (Electroencephalography) recordings. In this method, univariate features
are used to classify four states of EEG (inter-ictal, pre-ictal, ictal and post-ictal). Seizure forecasting
requires the ability to reliably identify a pre-ictal state that can be differentiated from the inter-ictal,
ictal, and post-ictal state. Computer simulation experiments with the Freiburg EEG database show
the utility of the proposed method.
Keywords:
Torque constant; permanent magnet synchronous machine, state estimation, nonlinear observation,
parameter identification.
1. GIỚI THIỆU
Động kinh là một bệnh mãn tính, do nhiều
nguyên nhân khác nhau gây ra, đặc trưng
là sự lặp đi lặp lại của các cơn do sự
phóng điện quá mức, đồng thời của các tế
bào thần kinh não bộ, dù cho triệu chứng
lâm sàng và cận lên sàng có thể khác
nhau. Các loại cơn động kinh được biểu
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
40 Số 21
hiện vô cùng đa dạng hình thành nên “thế
giới động kinh”. Ngày nay động kinh là
một vấn đề quan trọng của ngành y tế và
là bệnh lý mà xã hội và ngành y tế cần
đặc biệt quan tâm vì những di chứng nặng
nề của nó ảnh hưởng đến chất lượng cuộc
sống, khả năng học tập công tác, hòa nhập
cộng đồng và xã hội, đặc biệt là đối với
trẻ em. Hiện nay việc điều trị bằng thuốc
vẫn là lựa chọn hàng đầu, giúp hạn chế
tác hại của động kinh đối với người bệnh.
Tuy nhiên trong thực tế cuộc sống người
bệnh động kinh vẫn chịu ảnh hưởng nặng
nề bởi các cơn động kinh xuất hiện bất
chợt, không dự đoán được.
Điện não đồ (EEG - Electroencephalogram)
đo và biểu diễn sự thay đổi điện thế theo
thời gian của các điện cực được đặt ở các
vị trí khác nhau trên da đầu tương ứng với
các vùng của vỏ não. Thông qua các đặc
trưng biên độ, tần số, phân bố không gian,
hình thái, sự phân cực của điện thế, EEG
cho biết các thông tin về các hoạt động
của não. Dựa trên các thông tin đó, các
chuyên gia có thể đánh giá, phân tích các
biểu hiện bất thường của bộ não để phát
hiện bệnh động kinh dựa trên sự xuất hiện
các gai động kinh trong EEG.
Các nghiên cứu gần đây trên thế giới tập
trung theo hướng dự đoán và phát hiện
sớm cơn động kinh (dựa trên tín hiệu
EEG) với mục tiêu tạo ra các thiết bị gắn
kèm với người bệnh có khả năng phát
hiện cơn co giật trước khi cơn xảy ra.
Điều đó sẽ giúp người bệnh (đặc biệt trẻ
em) rất nhiều trong việc chủ động đối phó
với bệnh động kinh [1,2].
Trong bài báo này chúng tôi đưa ra một
phương pháp dự đoán trước cơn động
kinh sử dụng máy học vector hỗ trợ SVM
(Support Vector Machine) và các đặc
trưng được trích chọn từ tín hiệu EEG.
Kết quả đánh giá phương pháp đề xuất
được thực hiện trên bộ cơ sở dữ liệu về
động kinh của Đại học Freiburg (CHLB
Đức) [3].
2. MÔ HÌNH BÀI TOÁN DỰ ĐOÁN CƠN
ĐỘNG KINH
Trong bài báo, chúng tôi chọn nghiên cứu
bài toán phát hiện sớm (dự đoán) sự xuất
hiện cơn động kinh của người bệnh.
Trong trường hợp này đối tượng được
nghiên cứu là bản ghi tín hiệu điện não đồ
EEG đa kênh với các đặc trưng được lựa
chọn bao gồm biên độ, tần số cơ bản, hình
dạng và vị trí không gian ghi nhận trên da
đầu (scalp) và sẽ được phân loại dựa
trên các đặc trưng được học của các mẫu
học được lấy từ tín hiệu EEG của người
bệnh. Mô hình bài toán đề xuất thực chất
là một bài toán phân loại mẫu tín hiệu
EEG gồm các bước:
Thu thập dữ liệu;
Tiền xử lý dữ liệu;
Trích chọn các đặc trưng;
Phân loại và hậu xử lý.
2.1. Thu thập dữ liệu
Trong các công trình khoa học nghiên cứu
về nhận dạng, phát hiện bệnh lý động
kinh chủ yếu sử dụng các bộ cơ sở dữ liệu
(CSDL) chuẩn đã được đánh dấu (nhận
dạng) bởi các chuyên gia y tế. Trong bài
báo, chúng tôi đã sử dụng bộ CSDL của
Đại học Freiburg là một trong rất ít bộ
CSDL về động kinh được sử dụng phổ
biến trong nghiên cứu hiện nay. Bộ dữ
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
Số 21 41
liệu này gồm 18 bệnh nhân với tổng cộng
450 giờ ghi với 79 cơn động kinh [3].
2.2. Tiền xử lý tín hiệu
Quá trình này dùng để hạn chế và loại bỏ
nhiễu trong tín hiệu điện não EEG. Chúng
ta có ba cách: thứ nhất là ngăn chặn và
loại bỏ các nguồn gây nhiễu; thứ hai là tối
thiểu hóa ảnh hưởng của các nguồn nhiễu;
thứ ba là nhận dạng và loại bỏ các tín hiệu
nhiễu. Phương pháp tốt nhất để tín hiệu
không có nhiễu là ngăn chặn và loại bỏ
các nguồn gây nhiễu, tuy nhiên đối một số
loại nhiễu (như nhiễu do nháy mắt, nhiễu
cơ) thì phương pháp này không khả thi.
Thứ hai ta có thể hạn chế tối đa nhiễu
bằng bằng việc sử dụng các thiết bị kỹ
thuật đo đạc hiện đại có độ nhạy cao, khả
năng lọc nhiễu tốt, tuy nhiên phương pháp
này đắt tiền và phức tạp. Trong cách thứ
ba, bằng việc sử dụng các thuật toán xử lý
tín hiệu số chúng ta có thể khá dễ dàng
nhận dạng các nguồn nhiễu và loại bỏ
chúng. Phương pháp này không những
không yêu cầu các thiết bị phần cứng
phức tạp và đắt tiền mà còn có tính linh
hoạt rất cao trong nhận dạng và loại bỏ
nhiễu khỏi tín hiệu điện não. Tuy nhiên
trong phạm vi nghiên cứu của bài báo,
việc đánh giá kết quả dựa trên bộ CSDL
chuẩn (đã được xử lý nhiễu) nên quá trình
xử lý này được bỏ qua.
2.3. Trích chọn các đặc trưng
Mô hình cửa sổ trượt được sử dụng trong
trích chọn đặc trưng của tín hiệu EEG
(hình 1). Mỗi cửa sổ được xem như một
mẫu tín hiệu cần nhận dạng. Cửa sổ trượt
này có độ dài xác định trước trong đó các
đặc trưng về tín hiệu EEG sẽ được tính
toán (phân tích) trong cửa sổ đó [1,2]. Độ
dài của cửa số thường nằm trong khoảng
540 giây. Sau phân tích cửa sổ trượt sẽ
trả lại các giá trị phản ánh đặc trưng của
các kênh khác nhau hoặc giữa các kênh
của bản ghi EEG. Trong nghiên cứu này,
khoảng thời gian cửa sổ được chọn là 5s.
Khoảng thời gian cửa sổ trượt này phải
nhằm thỏa mãn 2 điều kiện:
Khoảng thời gian là đủ ngắn để quá
trình xử lý được xem là tĩnh (stationary
process).
Khoảng thời gian là đủ dài để “bắt”
(trích chọn) được các đặc trưng cụ thể của
các mẫu tín hiệu EEG.
Hình 1. Phương pháp cửa sổ trượt
để trích chọn các đặc trưng tín hiệu EEG
2.4. Phân loại và hậu xử lý
Trong bài toán phân loại này, chúng ta có
thể phân làm 4 loại tín hiệu (hình 2) gồm:
tín hiệu bình thường (ký hiệu là inter-
ictal), tiền động kinh (pre-ictal), động
kinh (ictal) và tín hiệu sau động kinh
(post-ictal).
Ictal: được xác định đoạn tín hiệu gắn
hoạt động động kinh trong não. Hoạt động
này có độ dài thay đổi nhưng thường kéo
dài gần khoảng ba phút [4].
Pre-ictal: được xác định là khoảng thời
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
42 Số 21
gian ngay trước khởi phát cơn động kinh
(seizure onset). Không có một định nghĩa
y học cụ thể nào về giai đoạn này nhưng
Mormann et al. 2007 [4] cho rằng đó là
những sự thay đổi điện sinh lý học kéo dài
nhiều phút đến hàng giờ trước cơn động
kinh.
Post-ictal: được xác định là khoảng
thời gian (thường 510 phút) hoạt động
của não ngay sau kết thúc cơn (seizure
offset) cho đến khi trở lại trạng thái bình
thường [4].
Inter-ictal: là đoạn tín hiệu không động
kinh (bình thường), còn gọi là nằm trước
trạng thái pre-ictal và nằm sau trạng thái
post-ictal.
Hình 2. Phân loại trạng thái tín hiệu động kinh
Trong mô hình bài toán, đầu ra phân loại
là giá trị nhãn gán liên quan đến các
vector đầu vào: chẳng hạn 1 đối với inter-
ictal, 2 cho pre-ictal, 3 cho ictal và 4 cho
post-ictal. Tuy nhiên điều chúng ta quan
tâm nhất trong dự đoán động kinh là trạng
thái tiền động kinh pre-ictal, do đó nhãn 2
trở thành nhãn quan trọng nhất. Quá trình
hậu xử lý dựa trên cơ sở phát hiện khoảng
thời gian tiền động kinh (pre-ictal), cho
phép chúng ta đưa ra các cảnh báo sớm về
cơn động kinh sắp xảy ra (hình 3).
Hình 3. Mô hình dự đoán đưa ra cảnh báo trước
cơn động kinh
3. PHƯƠNG PHÁP ĐỀ XUẤT
Phương pháp đề xuất được xây dựng dựa
trên mô hình bài toán dự đoán cơn động
kinh đã được trình bày trong phần 2 với
hai quá trình chính gồm: quá trình chọn
đặc trưng tín hiệu EEG và quá trình phân
loại và hậu xử lý.
3.1. Các đặc trưng tín hiệu EEG
Các đặc trưng này được sử dụng để phân
loại 4 trạng thái tín hiệu: bình thường, tiền
động kinh, động kinh và sau động kinh
(inter-ictal, pre-ictal, ictal và post-ictal) từ
bản ghi tín hiệu EEG của người bệnh
động kinh. Trong thực tế các loại cơn
động kinh biểu hiện rất đa dạng và bản
thân tín hiệu điện EEG có sự biến thiên
rất lớn (ngay cả đối với tín hiệu bình
thường) về các đặc trưng cơ bản như tần
số, biên độ, hình dạng và vị trí. Điều đó
có nghĩa không tồn tại những đặc trưng có
mối quan hệ định lượng chính xác với các
trạng thái tín hiệu EEG hoặc cơn động
kinh. Điều này dẫn đến trong dự đoán về
động kinh ta phải sử dụng nhiều đặc trưng
tín hiệu EEG.
Các đặc trưng này được chia làm hai loại:
đặc trưng đơn biến (univariate) được lấy
từ một kênh dữ liệu EEG [5] và đặc trưng
lưỡng biến/đa biến (bivariate/multivariate)
được tính toán dựa trên một cặp (hoặc
nhiều hơn) kênh tín hiệu EEG [6]. Trong
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
Số 21 43
bài báo, chúng tôi sử 22 đặc trưng đơn
biến của Jalil Rasekhi et al, 2013 [7] để
phát hiện động kinh. Dữ liệu EEG trước
tiên được phân đoạn theo từng cửa sổ 5s
và các đặc trưng đơn biến lấy từ cửa sổ tín
hiệu EEG sẽ thể hiện được các thông tin
về cả biên độ lẫn pha/tần số của từng
kênh tín hiệu EEG.
Câu hỏi đặt ra ở đây là liệu số lượng đặc
trưng được chọn đã đủ để dùng dự đoán
chính xác về cơn động kinh và việc lấy
thêm đặc trưng khác (chẳng hạn các đặc
trưng đa biến) liệu có làm tăng độ chính
xác của dự đoán?.
Thực tế việc sử dụng nhiều hơn số đặc
trưng có thể làm tăng độ chính xác trong
phân loại các trạng thái tín hiệu nhưng
đồng thời dẫn đến một khối lượng tính
toán vô cùng lớn. Điều đó có nghĩa chúng
ta không thể thực hiện xử lý gần như tức
thời (on-line) các tín hiệu EEG do độ trễ
xử lý là rất lớn.
Ngoài ra để đưa ra các cảnh báo dự đoán
về động kinh, chúng ta sử dụng thêm quá
trình hậu xử lý (mục 3.2). Quá trình này
sẽ đưa ra quyết định cuối cùng mà không
cần một độ chính xác gần như tuyệt đối ở
quá trình phân loại trạng thái tín hiệu.
3.2. Quá trình phân loại và hậu xử lý
Để xây dựng một hệ thống tự động phân
biệt được các trạng thái của tín hiệu điện
não đồ, chúng ta sử dụng máy học vector
hỗ trợ SVM [8]. Bản chất SVM là phân
loại nhị phân gồm 2 lớp (nhãn) đầu ra.
SVM gốc chỉ thiết kế cho bài toán phân
lớp nhị phân, tuy nhiên trong nhiều ứng
dụng thực tế thì buộc phải giải bài toán
phân loại nhiều lớp.
Vì vậy các mô hình SVM đa lớp cũng
được nghiên cứu và phát triển để đáp ứng
với các dạng bài toán phân loại nhiều lớp.
Để phân loại 4 lớp đối tượng (trường hợp
này) cần một tổ hợp SVM (SVM đa lớp).
Một số chiến lược thường dùng cho bài
toán SVM đa lớp: Một đối một, một đối
phần còn lại và chiến lược phân cấp.
Trong trường hợp này, kỹ thuật một đối
một (one-against-one) được sử dụng [9].
Kỹ thuật này được mô tả như sau:
Với mỗi cặp lớp phân loại, cần xây dựng
một máy phân lớp nhị phân, mỗi máy
phân lớp được huấn luyện trên một tập
con của tập huấn luyện mà tập con này
chỉ chứa các mẫu huấn luyện của cặp
lớpphân loại này. Như vậy, phải xây dựng
tất cả k(k-1)/2 máy phân lớp nhị phân với
k là số lớp (trường hợp này với 4 lớp
trạng thái tín hiệu chúng ta cần 6 máy học
SVM), các máy này được kết nối lại với
nhau và thông qua phương pháp bỏ phiếu
để đánh giá kết quả phân lớp cuối cùng,
lớp nào có số phiếu cao nhất sẽ được chọn
làm kết quả dự đoán (max-win). Chiến
lược này được sử dụng trong hầu hết các
phần mềm mã nguồn mở như SVMlight,
LIBSVM, SVMTorch và HeroSvm.
Trong đánh giá, đầu ra mạng SVM đa lớp
là các nhãn (giá trị số) gán liên quan đến
các vector đầu vào: 1 đối với inter-ictal, 2
cho pre-ictal, 3 cho ictal và 4 cho post-
ictal. Tuy nhiên điều chúng ta quan tâm
nhất trong dự đoán động kinh là phát hiện
trạng thái tiền động kinh pre-ictal để tạo
cảnh báo sớm về cơn động kinh sắp xảy
ra, do đó nhãn 2 trở thành nhãn quan
trọng nhất.
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
44 Số 21
Quá trình tạo ra cảnh báo được thực hiện
sau phân loại. Các SVM phân loại được
“huấn luyện” dựa trên các mẫu học
(learning). Một cách lý tưởng, thì các bộ
phân loại SVM này (đã được huấn luyện
tốt) sẽ phân loại chính xác tất cả các mẫu
trong bộ dữ liệu kiểm tra (test) và do đó
sẽ tạo ra được các đầu ra chính xác. Tuy
nhiên, trên thực tế, một hệ thống phân loại
sẽ không thể phân loại chính xác tuyết đối
tất cả các mẫu. Do đó nếu các đầu ra này
được sử dụng trực tiếp để dự đoán về cơn
động kinh thì sẽ dẫn đến với các mẫu bị
phân loại nhầm thành pre-ictal sẽ tạo ra
cảnh báo sai về cơn động kinh.
Để nâng cao chất lượng dự đoán, Teixeira
et al. (2012) đưa ra một thủ tục tạo cảnh
báo [10]. Do sai số phân loại, nên việc
xuất hiện một khoảng thời gian với chuỗi
nhãn phân loại toàn nhãn 2 (pre-ictal) là
điều ít khi xảy ra, tuy nhiên trong các
chuỗi nhãn nếu chuỗi nào có tần suất nhãn
2 nhiều thì có thể xem là khoảng thời gian
có dấu hiệu của trạng thái tiền động kinh.
Trong bài báo, chúng tôi đề xuất giải pháp
nếu trong một khoảng thời gian nào đó
của bản ghi tín hiệu EEG (được xem là
khoảng thời gian tiền động kinh, trong
phần mô phỏng chúng tôi chọn khoảng
thời gian này là 30 phút), nếu số lượng
phân loại là pre-ictal (nhãn 2) vượt quá
50% thì cảnh báo về khả năng sự xuất
hiện của cơn động kinh ở thời điểm tương
lai gần sẽ được đưa ra.
4. KẾT QUẢ MÔ PHỎNG
4.1. Các thông số mô phỏng
4.1.1. Chọn kênh tín hiệu EEG
Như đã giới thiệu trên trong 2.1, bộ
CSDL của ĐH Freiburg gồm 18 bệnh
nhân với tổng số khoảng 450 giờ ghi và
79 cơn động kinh. Mỗi bản ghi gồm tín
hiện của 27 kênh điện cực (hệ thống 10-
20) bao gồm: FT10, T10, TP10, F8, T4,
T6, FP2, F4, C4, P4, O2, FPZ, FZ, CZ,
PZ, OZ, FP1, F3, C3, P3, O1, F7, T3, T5,
FT9, T9, TP9. Ngoài ra còn có 2 kênh
dùng để ghi kèm dữ liệu tín hiệu điện tâm
đồ ECG (Electrocardiagram) của người
bệnh (hình 4).
Hình 4. Một phần bản ghi dữ liệu của một bệnh
nhân trong CSDL Freiburg với 27 kênh tín hiệu
EEG và 2 kênh tín hiệu ECG (trong đó các vị trí
EEG_ON và EEG-OFF đánh dấu vị trí bắt đầu và
kết thúc một cơn động kinh)
Trên thực tế, việc sử dụng tín hiệu ở tất cả
các kênh (27 kênh) sẽ dẫn đến khối lượng
tính toán cực lớn. Ngoài ra việc sử dụng
nhiều kênh tín hiệu cũng đồng nghĩa với
việc người bệnh phải gắn nhiều điện cực
trên người (trong trường hợp sử dụng các
thiết bị cầm tay phát hiện sớm động kinh).
Điều này sẽ gây ra sự bất tiện cho các
bệnh nhân. Do đó trong phần thực
nghiệm, chúng tôi chỉ sử dụng tổ hợp gồm
6 kênh tín hiệu (để nghiên cứu) nhằm phát
hiện sớm cơn động kinh. Sáu kênh tín
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
Số 21 45
hiệu được chọn theo tiêu chí bao phủ
không gian. Sáu kênh tín hiệu được chọn
gồm: F7, FZ, F8, T5, PZ và T6 cho cái
nhìn không quan tổng quan về trạng thái
não bệnh nhân. Theo tiêu chuẩn hệ thống
vị trí đặt điện cực 10-20 của quốc tế thì vị
trí đo F7, FZ, F8, T5, PZ và T6 bao phủ
các khu vực phía trước, giữa và vùng thái
dương.
4.1.2. Chọn đặc trưng tín hiệu
Chúng ta sử dụng một cửa sở trượt 5s để
trích chọn đặc trưng cho 6 kênh tín hiệu
EEG đã được chọn, mỗi cửa sổ 5s này
được xem là một mẫu phân loại thuộc một
trong 4 trạng thái (inter-ictal, pre-ictal,
ictal, post-ictal).
Do sử dụng đặc trưng đơn biến gồm 22
đặc trưng (mục 3.1), mỗi mẫu cần phân
loại (cửa sổ 5s của 6 kênh) sẽ có 132 giá
trị đặc trưng. Như vậy đầu vào của mạng
phân loại sẽ là các vector (mẫu) 132
chiều.
4.2. Kết quả mô phỏng và đánh giá
4.2.1. Bộ dữ liệu học và kiểm tra
Bộ CSDL EEG được chia làm hai phần:
bộ dữ liệu học, còn gọi là huấn luyện
(learning) và kiểm tra (testing). Bộ dữ liệu
học gồm khoảng 250 giờ ghi và 48 cơn
động kinh được sử dụng để tối ưu các
thông số của hệ thống phân loại (SVM đa
lớp) trong khi bộ dữ liệu kiểm tra (gồm
khoảng 200 giờ ghi và 31 cơn động kinh
còn lại, không được dùng trong quá trình
học) được sử dụng để kiểm tra tính hiệu
quả của bộ phân loại đã được thiết kế từ
quá trình học.
4.2.2. Một số kết quả mô phỏng và
thảo luận
Ở đây chúng ta tiến hành đánh giá dựa
trên bộ dữ liệu EEG của sáu kênh tín hiệu
(F7, FZ, F8, T5, PZ và T6) với khoảng
thời gian pre-ictal được chọn là 30 phút
trước cơn động kinh, post-ictal được chọn
là 10 phút sau cơn động kinh.
Trường hợp nếu xác định được trạng thái
tiền động kinh (pre-ictal) và cơn động
kinh xuất hiện trong khoảng thời gian sau
cảnh báo ta sẽ có một dự đoán dương tính
thật TP (True Positive) còn nếu không
xuất hiện cơn ta sẽ có một dự đoán dương
tính giả FP (False Positive). Khi trạng thái
tiền động kinh (pre-ictal) không được xác
định nhưng có cơn động kinh xuất hiện ta
sẽ có một dự đoán âm tính giả FN (False
Negative). Trong trường hợp này TP được
xem là cảnh báo đúng còn FP và FN là
các cảnh báo sai.
Để đánh giá kết quả ta sử dụng khái niệm
độ nhạy (SS-Sensitivity) và tỷ lệ đoán sai
(FPR/h- False Prediction per hour)[11].
SS được định nghĩa là tỷ lệ giữa số cơn
dự đoán được/tổng số cơn động kinh
trong bản ghi của người bệnh. Trong khi
FPR/h được định nghĩa:
1 False AlarmFPRh
Hours of Testing seizures preictal time
(1)
là tỷ lệ giữa số cảnh báo sai/ lượng thời
gian hữu dụng.
Trong đó cảnh báo sai xuất hiện trong
trường hợp có FP và FN (có cảnh báo
nhưng không có cơn động kinh và không
có cảnh báo nhưng lại xuất hiện cơn động
kinh). Để xác định lượng thời gian hữu
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
46 Số 21
dụng chúng ta lấy tổng số thời gian bản
ghi tín hiệu EEG của người bệnh trừ đi
tổng số thời gian dùng tạo cảnh báo (bằng
số cơn động kinh nhân với khoảng thời
gian pre-ictal được chọn) [11].
Về mặt lý thuyết kết quả thu được sẽ tối
ưu (tuyệt đối) nhất khi đạt giá trị
SS=100% và FPR/h=0 và trên thực tế
chúng ta mong muốn một kết quả thu
được với giá trị SS cao và FPR/h thấp.
Kết quả (tốt nhất) đối với bộ dữ liệu học
chúng ta thu được tỷ lệ phát hiện cơn
động kinh là 39/48 cơn, đạt tỷ lệ 81,25 %.
Dựa trên thông số đã học, chúng ta tiến
hành thử nghiệm trên bộ dữ liệu test. Kết
quả thu được tỷ lệ phát hiện cơn là 21/31
cơn, đạt tỷ lệ 67,74 %. Hình vẽ 5 thể hiện
tỷ lệ phát hiện cơn đông kinh của các
bệnh nhân trong bộ CSDL của Đại học
Freiburg với tỷ lệ trung bình (cả quá trình
học và test) là 75,9%. Điều này cho thấy
khả năng ứng dụng triển vọng của phương
pháp đề xuất trong bài báo. Trong mô
phỏng này, không có các cảnh báo sai
dương tính giả FP-False Positive (có cảnh
báo nhưng không xuất hiện cơn động
kinh). Trong bộ dữ liệu kiểm tra, với 10
cơn không nhận diện được, chúng ta có số
cảnh báo sai tương ứng với 10 dự đoán
âm tính giả FN và tỷ lệ FPR/h (đối với dữ
liệu kiểm tra) đạt được là 0,055. Việc
không có cảnh báo sai dương tính giả FP
và tỷ lệ FPR/h rất thấp cũng là một kết
quả hạn chế của bài báo do số lượng bệnh
nhân, số cơn và loại (vị trí ổ bệnh) động
kinh trong CSDL được đánh giá chưa
nhiều và đa dạng.
Mặc dù không có một tỷ lệ cụ thể chung
về giá trị SS tối thiểu hay FPR cực đại
dùng để đánh giá đối với các thuật toán,
Teixeira et al. 2014 [11] đã đưa ra tỷ lệ dự
đoán chấp nhận được (để ứng dụng trong
y tế) là phải dự đoán được (đúng) ít nhất
50% số cơn động kinh (SS>50%) và tỷ lệ
cảnh báo sai không quá 1 lần trong
khoảng thời gian 6 giờ (FPR/h<0,15) đối
với từng người bệnh. Trên thực tế, các
nghiên cứu khoa học gần đây nhất chưa
có công trình nào đạt được tỷ lệ dự đoán
này (cho cả hai thông số đánh giá) khi
đánh giá dựa trên một CSDL động kinh
đủ lớn.
Hình 5. Tỷ lệ phát hiện cơn động kinh của từng
bệnh nhân trong bộ CSDL Freiburg
Trong nghiên cứu gần đây của Teixeira et
al. 2014 [11], một đánh giá (thuât toán sử
dụng các đặc trưng đơn biến và SVM đa
lớp) trên 278 bệnh nhân được đưa ra.
CSDL này bao gồm các bản ghi thời gian
dài (gồm các bản ghi trung bình khoảng
70, 78 và 94 giờ) với xấp xỉ 22.291 giờ
ghi và tổng cộng 1.519 cơn động kinh ở
rất nhiều vị trí ổ bệnh khác nhau (thái
dương-temporal, phía trước-frontal, chính
giữa-central, thùy chẩm-occipital và thùy
đỉnh-parietal). Ưu điểm của tín hiệu EEG
thời lượng dài và liên tục là chứa khoảng
thời lượng dài đoạn tín hiệu bình thường
(inter-ictal). Điều đó rất quan trọng, đặc
biệt khi dùng để đánh giá chính xác về tỷ
lệ các cảnh báo sai. Kết quả tối ưu nhất
trong [11] thu được là 32% số người bệnh
có kết quả dự đoán chấp nhận được
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
Số 21 47
(SS>50% và FPR/h <0,15 cho từng người
bệnh).
5. KẾT LUẬN
Bài báo đã đưa ra một phương pháp dự
đoán trước cơn động kinh sử dụng máy
học vector hỗ trợ SVM đa lớp và các đặc
trưng đơn biến của 6 kênh tín hiệu EEG
gồm F7, FZ, F8, T5, PZ và T6. Mặc dù
việc mô phỏng mới chỉ được đánh giá trên
một bộ CSDL động kinh bị giới hạn (chỉ
với 18 bệnh nhân) nhưng với kết quả cho
phép dự đoán trước cơn động kinh với tỷ
lệ chính xác cao SS=67,74% đã cho thấy
khả năng triển vọng của phương pháp dự
đoán sớm cơn động kinh được đề xuất
trong bài báo.
LỜI CẢM ƠN
Các tác giả bài báo xin trân thành cảm ơn sự
hỗ trợ kinh phí nghiên cứu khoa học của Bộ
Giáo dục và Đào tạo thông qua đề tài cấp Bộ
mã số B2017-MHN.01.
TÀI LIỆU THAM KHẢO
[1] Yadollahahpour A. and Jalilifar M. (2014) “Seizure Prediction Methods: A review of the Curent
Predicting Techniques,” Biomedical & Pharmacology, vol.7(1), 153-162, 2014.
[2] Teixeira C.A. et al., (2011) “EPILAB: A software package for studies on the prediction of epileptic
seizures,” Journal of Neuroscience Methods, vol. 200, no. 2, pp. 257-271, Jul. 2011.
[3]
[4] Mormann F., Andrzejak R.G., Elger C.E., and Lehnertz K., (2007) “Seizure prediction: the long
and winding road.,” Brain: a journal of neurology, vol. 130, no. 2, pp. 314-33, Feb. 2007.
[5] Direito, B.; Duarte, J.; Teixeira, C. A; Schelter, B.; Le Van Q. M; Schulze-Bonhage, A.; Sales, F.;
Dourado, A.. (2011) "Feature selection in high dimensional EEG features spaces for epileptic
seizure prediction", IFAC Proceedings Volumes (IFAC-PapersOnline) 18, PART 1: 6206 - 62.
[6] Feldwisch-Drentrup H, Staniek M, Schulze-Bonhage A, Timmer J, Dickten H, Elger CE, Schelter B,
Lehnertz K.(2011) “Identification of preseizure states in epilepsy: a data-driven approach for
multichannel EEG recordings, “ Front Comput Neurosci 2011;5(0).
[7] Jalil Rasekhi, Mohammad Reza Karami Mollaei, Mojtaba Bandarabadi, Cesar A Teixeira, Antonio
Dourado (2013)“Preprocessing effects of 22 linear univariate features on the performance of
seizure prediction methods” Neurosci Methods 2013 Jul 6;217(1-2):9-16. Epub 2013 Dec 6.
[8] Cortes C. and Vapnik V., (1995) “Support-vector networks,” Machine Learning, vol. 20, no. 3, pp.
273-297, 1995.
[9] Hsu, C.W., and C.-J. Lin, (2002) “A Comparison of Methods for Multi-Class Support Vector
Machines” IEEE Trans. Neural Netw., 13, 415 - 425, 2002.
[10] Teixeira C., Direito B., Bandarabadi M., Dourado A. (2012) “Output regularization of SVM seizure
predictors: Kalman Filter versus the "Firing Power" method,”Conf Proc IEEE Eng Med Biol Soc.
2012;2012:6530-3
[11] Teixeira C., Direito B., Quyen L. V. Micheal, Dourado A. (2014), “Epileptic seizure predictor based
on computational intelligence techniques: A comparative study with 278 patients” Computer
methods and programs in biomedicine, May 2014.
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
48 Số 21
Giới thiệu tác giả:
Tác giả Nguyễn Văn Sơn tốt nghiệp đại học chuyên ngành điện tử viễn thông, nhận
bằng Thạc sĩ chuyên ngành kỹ thuật điện tử năm 2010 tại Trường Đại học Mở Hà
Nội. Hiện nay tác giả là giảng viên của Khoa Công nghệ điện tử - thông tin, Trường
Đại học Mở Hà Nội.
Lĩnh vực nghiên cứu: điện tử viễn thông, xử lý thông tin và tín hiệu.
Tác giả Vương Hoàng Nam tốt nghiệp đại học ngành điện tử viễn thông năm 2003,
nhận bằng Thạc sĩ và bằng Tiến sĩ ngành kỹ thuật viễn thông năm 2006 và 2013
tại Trường Đại học Bách khoa Hà Nội. Hiện nay tác giả là giảng viên Bộ môn Hệ
thống viễn thông, Viện Điện tử viễn thông, Trường Đại học Bách khoa Hà Nội.
Lĩnh vực nghiên cứu: điện tử viễn thông, xử lý thông tin và tín hiệu, AI trong tự
động hóa
Tác giả Đào Xuân Phúc tốt nghiệp Trường Đại học Bách khoa Hà Nội ngành điện
tử viễn thông, nhận bằng Thạc sĩ ngành kỹ thuật điện tử năm 2011 tại Trường Đại
học Mở Hà Nội. Hiện nay tác giả là giảng viên Khoa Công nghệ điện tử - thông tin
Trường Đại học Mở Hà Nội.
Lĩnh vực nghiên cứu: điện tử viễn thông, xử lý thông tin và tín hiệu.
Tác giả Vũ Duy Thuận tốt nghiệp đại học ngành đo lường và tin học công nghiệp,
nhận bằng Thạc sĩ ngành tự động hóa tại Trường Đại học Bách khoa Hà Nội năm
2004 và 2008, nhận bằng Tiến sĩ ngành điều khiển và tự động hóa tại Viện Hàn
lâm Khoa học và Công nghệ Việt Nam năm 2018. Hiện nay tác giả là giảng viên
Trường Đại học Điện lực.
Lĩnh vực nghiên cứu: điều khiển và tự động hóa, lập trình điều khiển.
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
Số 21 49
.
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ NĂNG LƯỢNG - TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
(ISSN: 1859 - 4557)
50 Số 21

File đính kèm:

ung_dung_may_hoc_vector_ho_tro_svm_trong_du_doan_con_dong_ki.pdf