Dự đoán xu thế chỉ số chứng khoán Việt Nam sử dụng phân tích hồi quy quá trình Gauss và mô hình tự hồi quy trung bình động
Tóm tắt: Trong bài báo, chúng tôi trình bày phương pháp dự đoán xu thế chỉ số chứng khoán Việt Nam (VN-Index) gồm
bốn bước, trong đó dữ liệu đầu vào là chuỗi thời gian chứa lịch sử chỉ số giá của VN-Index. Các tác giả thực hiện phân
tách dữ liệu đầu vào thành các chuỗi thời gian thành phần bao gồm: xu thế, thời vụ và ngẫu nhiên. Chúng tôi áp dụng
mô hình tự hồi quy trung bình động (ARMA: Autoregressive moving average) để dự đoán thành phần thời gian ngẫu
nhiên ở một bước kế tiếp, phân tích hồi quy quá trình Gauss (GPR: Gaussian process regression) để dự đoán thành phần
thời gian xu thế. Cuối cùng, kết quả dự đoán các thành phần riêng lẻ được tổng hợp lại để đưa ra kết quả dự đoán cuối
cùng cho phương pháp kết hợp GPR-ARMA. Trong bài báo cũng trình bày các kết quả cài đặt thử nghiệm và phân tích
hiệu quả của phương pháp được đề xuất.
Tóm tắt nội dung tài liệu: Dự đoán xu thế chỉ số chứng khoán Việt Nam sử dụng phân tích hồi quy quá trình Gauss và mô hình tự hồi quy trung bình động
Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông Dự đoán xu thế chỉ số chứng khoán Việt Nam sử dụng phân tích hồi quy quá trình Gauss và mô hình tự hồi quy trung bình động Huỳnh Quyết Thắng, Phùng Đình Vũ, Tống Văn Vinh Trường Đại học Bách khoa Hà Nội Tác giả liên hệ: Huỳnh Quyết Thắng, thanghq@soict.hust.edu.vn Ngày nhận bài: 28/08/2017, ngày sửa chữa: 26/10/2018, ngày duyệt đăng: 01/11/2018 Xem sớm trực tuyến: 08/11/2018, định danh DOI: 10.32913/rd-ict.vol1.no39.571 Biên tập lĩnh vực điều phối phản biện và quyết định nhận đăng: TS. Trịnh Quốc Anh Tóm tắt: Trong bài báo, chúng tôi trình bày phương pháp dự đoán xu thế chỉ số chứng khoán Việt Nam (VN-Index) gồm bốn bước, trong đó dữ liệu đầu vào là chuỗi thời gian chứa lịch sử chỉ số giá của VN-Index. Các tác giả thực hiện phân tách dữ liệu đầu vào thành các chuỗi thời gian thành phần bao gồm: xu thế, thời vụ và ngẫu nhiên. Chúng tôi áp dụng mô hình tự hồi quy trung bình động (ARMA: Autoregressive moving average) để dự đoán thành phần thời gian ngẫu nhiên ở một bước kế tiếp, phân tích hồi quy quá trình Gauss (GPR: Gaussian process regression) để dự đoán thành phần thời gian xu thế. Cuối cùng, kết quả dự đoán các thành phần riêng lẻ được tổng hợp lại để đưa ra kết quả dự đoán cuối cùng cho phương pháp kết hợp GPR-ARMA. Trong bài báo cũng trình bày các kết quả cài đặt thử nghiệm và phân tích hiệu quả của phương pháp được đề xuất. Từ khóa: Dự đoán xu thế VN-Index; Mô hình chuỗi thời gian; Hồi quy Gauss; Mô hình tự hồi quy trung bình động; Phương pháp kết hợp hồi quy Gauss và mô hình tự hồi quy trung bình động. Title: Vietnam Stock Index Trend Prediction using Gaussian Process Regression and Autoregressive Moving Average Model Abstract: In this paper, we present a four-step method to predict the trend of Vietnam Stock Index (VN-Index). The input of the method is a time series which contains price history of VN-Index over the years. We decompose VN-Index price history into three time-series components: trend, seasonal and random. The autoregressive moving average model is used to predict one step ahead for the random component. We apply first difference of the trend series and use Gaussian process regression to predict one step ahead for the trend component. Finally, the predicted results of all component are summed to produce the predicted result of the input series. Performance of the proposed method is also evaluated and presented. Keywords: VN-Index trend prediction; Time series model, Gaussian process regression, autoregressive moving average model. I. GIỚI THIỆU BÀI TOÁN VÀ TỔNG HỢP CÁC KẾT QUẢ NGHIÊN CỨU LIÊN QUAN Chỉ số chứng khoán Việt Nam (VN-Index) là chỉ số thể hiện xu hướng biến động giá của tất cả các cổ phiếu niêm yết tại sàn Giao dịch Chứng khoán Thành phố Hồ Chí Minh. Ở tầm vĩ mô, chỉ số này phản ảnh các quy luật cung cầu của thị trường chứng khoán (TTCK) và thường được sử dụng để đánh giá sự phát triển của nền kinh tế Việt Nam. Do đó, việc dự đoán đúng xu thế chỉ số VN-Index sẽ mang lại kết quả tốt cho nhà đầu tư khi tham gia vào thị trường. Phương pháp phân tích định lượng được sử dụng rộng rãi để giải quyết bài toán dự đoán biến động chỉ số chứng khoán. Có rất nhiều các mô hình định lượng khác nhau được áp dụng để giải quyết bài toán này như: phân tích hồi quy quá trình Gauss (GPR: Gaussian process regression) [1–3]; mô hình tự hồi quy trung bình động (ARMA: Autoregressive moving average) [4–6]; mạng nơ-ron nhân tạo [7]; mô hình mạng Bayes [8]; mô hình máy vector hỗ trợ [9]. Các tác giả trong [7] dự đoán giá đóng cửa hàng tuần của chỉ số chứng khoán Bombay TTCK Ấn Độ (BSE SENSEX) sử dụng mạng nơ-ron truyền thẳng nhiều lớp với việc điều chỉnh các trọng số thông qua thuật toán lan truyền ngược sai số. Mô hình mạng có một lớp đầu vào với 800 nơ-ron sử dụng hàm chuyển đổi Tan Sigmoid; ba lớp hàm ẩn tuyến 35 Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông tính với 600 nơ-ron mỗi lớp và một lớp đầu ra có 1 nơ-ron. Dữ liệu dùng để huấn luyện các trọng số trên mạng nơ-ron có độ dài 200 tuần, bao gồm giá đóng cửa hàng tuần của chỉ số BSE SENSEX; sự di chuyển giá trung bình trong 52 tuần giao dịch; sự di chuyển giá trung bình trong 5 tuần giao dịch; sự biến động giá trong 5 tuần giao dịch; dao động giá trong 10 tuần giao dịch. Kết quả cho thấy căn bậc hai sai số toàn phương trung bình (RMSE: Root mean square error) theo phương pháp này là 4.82% và sai số tuyệt đối trung bình (MAE: Mean absolute error) là 3.93%. Trong phương pháp sử dụng mạng Bayes, các tác giả trong [8] xây dựng mô hình nhân quả thể hiện sự phụ thuộc của xu thế tăng, giảm của chỉ số chứng khoán FTSE100 ở ngày kế tiếp vào xu thế tăng, giảm của chỉ số đó trong quá khứ, đồng thời trong mối tương quan với chỉ số Dow30 và chỉ số Nikkei225. Xác suất có điều kiện trên mỗi nút của mạng được tính toán dựa trên giải thuật K2 với bộ dữ liệu huấn luyện đầu vào từ tháng 1 năm 2005 đến tháng 12 năm 2006. Các tác giả tiến hành dự đoán cho các ngày giao dịch từ tháng 1 năm 2007 đến tháng 12 năm 2007. Kết quả cho thấy phương pháp này có độ chính xác dự đoán xu thế là 61.4%. Mô hình máy vector hỗ trợ (SVM: Support vector ma- chine) được giới thiệu trong bài báo [9] để dự đoán xu thế cho chỉ số chứng khoán của 13 công ty khác nhau từ năm 2004-2015. SVM được sử dụng như một công cụ để phân loại giữa hai lớp là lớp tăng và lớp giảm bằng cách học một siêu phẳng để phân lớp dữ liệu, và dựa vào dữ liệu lịch sử để dự đoán chỉ số chứng khoán của năm tiếp theo của một công ty thuộc lớp tăng hay lớp giảm. Kết quả cho thấy các tác giả dự đoán đúng cho xu thế của 10 trên 13 công ty trong năm 2014-2015. Trong phương pháp hồi quy [2, 3, 10, 11], người ta thường xây dựng mô hình dự báo theo cách tiếp cận kinh tế lượng, sử dụng một số biến kinh tế vĩ mô và biến tài chính tiền tệ mà theo lý thuyết kinh tế có tác động đến biến động thị trường chứng khoán làm biến giải thích trong mô hình hồi quy đa biến. Phương pháp GPR được trình bày chi tiết trong mục II-2 của bài báo này. Về cơ bản, đây là phương pháp được sử dụng trong học máy nhằm tìm kiếm các mẫu hình lặp lại trong dữ liệu chuỗi thời gian, qua đó thực hiện dự đoán xu thế tiếp theo của các điểm trong chuỗi thời gian. Các tác giả trong bài báo [3] thực nghiệm quá trình Gauss để dự đoán xu thế về giá đóng cửa của các cổ phiếu riêng lẻ theo một số lớp khác nhau các hàm hiệp phương sai như hàm hiệp phương sai lũy thừa bình phương, hàm hiệp phương sai lớp Matern, hàm hữu tỷ bậc hai. Dựa vào đánh giá thực nghiệm, các tác giả khẳng định rằng dữ liệu lịch sử càng dài cho kết quả dự đoán càng chính xác để tìm ra cổ phiếu tốt, và việc sử dụng hàm hiệp phương sai lũy thừa bình phương và hàm hiệp phương sai lớp Matern cho kết quả dự đoán xu thế tốt. Các tác giả trong [6] sử dụng mô hình tự hồi quy kết hợp trung bình động (ARIMA: Autoregressive integrated moving verage) để dự đoán giá cổ phiếu của 66 công ty từ bảy ngành khác nhau dựa trên bộ dữ liệu lịch sử giá của cổ phiếu các công ty với độ dài khoảng 23 tháng và tiến hành dự đoán cho một tháng kế tiếp. Để đánh giá các tham số cho mô hình các tác giả sử dụng bộ tham số sao cho tiêu chuẩn thông tin Akaike đạt giá trị nhỏ nhất. Chi tiết về mô hình tự hồi quy trung bình động được trình bày trong mục II-3 của bài báo này. Kết quả dự đoán các tác giả thu được có giá trị sai số phần trăm trung bình lớn hơn 85% trong tất cả các trường hợp. Các giả cũng đánh giá đây là hướng tiếp cận khả quan nhất trong dự đoán giá cổ phiếu [2, 3, 6]. Tại Việt Nam hiện có một số nghiên cứu liên quan đến dự báo chỉ số chứng khoán VN-Index [12–14]. Trong [12], các tác giả đề xuất kết hợp phương pháp chỉ số dẫn báo và hệ số tương quan giữa chỉ số thị trường chứng khoán của một sàn giao dịch với các biến dữ liệu giao dịch cổ phiếu trong việc xây dựng mô hình dự báo chỉ số thị trường chứng khoán trên dữ liệu. Tác giả thu thập từ dữ liệu sàn giao dịch Thành phố Hồ Chí Minh: dữ liệu từ 04/01/2010 đến 22/04/2016 được sử dụng để xây dựng mô hình dự báo, dữ liệu kiểm định là từ 25/04/2016 đến ngày 05/05/2016 (gồm 7 ngày giao dịch do các ngày từ 30/04/2016 đến 03/05/2016 là những ngày nghỉ lễ, sàn giao dịch không làm việc). Trong [13, 14], các tác giả áp dụng mô hình tự hồi quy phương sai không đồng nhất tổng quát (GARCH: Generalized autoregressive conditional heteroskedasticity). Mẫu dữ liệu bao gồm hai chỉ số của sàn giao dịch chứng khoán Việt Nam là chỉ số VN-Index và HNX-Index, được cung cấp bởi Sở Giao dịch Chứng khoán Thành phố Hồ Chí Minh (HOSE) và Sở Giao dịch Chứng khoàn Hà Nội (HNX), tương ứng, trong giai đoạn 2007-2015. Kết quả thực nghiệm cho mô hình GARCH, các tác giả khẳng định rằng biến động của các chỉ số chứng khoán trong quá khứ sẽ ảnh hưởng đến biến động trong hiện tại và có thể dự đoán trước, đồng thời cho thấy rằng Mô hình FIAPARCH là mô hình phù hợp nhất cho việc dự báo chỉ số VN-Index và HNX-Index. Mỗi mô hình ở trên có những ưu điểm và nhược điểm riêng và được áp dụng cho các bộ dữ liệu cụ thể. Trong khuôn khổ bài báo này, chúng tôi tập trung nghiên cứu các mô hình áp dụng trên bộ dữ liệu chuỗi thời gian, đó là GPR và mô hình ARMA. Chúng tôi kế thừa kết quả các phương pháp đã được nghiên cứu trong bài báo [3, 6, 10] bằng cách đề xuất một giải pháp kết hợp mô hình GPR và mô hình ARMA, gọi là GPR-ARMA. Phương pháp kết hợp GPR-ARMA được áp dụng để dự đoán xu thế chỉ số VN-Index dựa trên bộ dữ liệu lịch sử giá đóng cửa chỉ số VN-Index qua các ngày giao dịch. 36 Tập V-1, Số 39, 11.2018 Biến đổi GPR Kỳ vọng ARMA ̶ + Đầu ra 1 2 3 4 Hình 1. Phương pháp dự đoán kết hợp GPR-ARMA. Bố cục tiếp theo của bài báo được trình bày như sau. Mục II trình bày giải pháp đề xuất, mục III trình bày thử nghiệm thực tế đã cài đặt và mục IV là kết luận và hướng nghiên cứu tiếp theo. II. PHƯƠNG PHÁP KẾT HỢP GPR-ARMA Hình 1 mô tả tổng quan quá trình gồm bốn bước thực hiện của phương pháp kết hợp GPR-ARMA để dự đoán xu thế chỉ số VN-Index. Đầu vào của phương pháp là một chuỗi thời gian gọi là Yt . Bước 1: Phân tách chuỗi thời gian đầu vào Yt thành các chuỗi thời gian thành phần, bao gồm: chuỗi xu thế (gọi là Tt ), chuỗi thời vụ (gọi là St ), và chuỗi ngẫu nhiên (gọi là Rt ). Chuỗi thời gian Yt được tổng hợp lại theo phương pháp nhân sử dụng công thức nhân [10, 11] sau đây: Yt = Tt ∗ St ∗ Rt . (1) Bước 2: Áp dụng GPR để dự đoán chuỗi thời gian xu thế Tt . Trước tiên ta biến đổi chuỗi Tt bằng lấy sai phân bậc một của chuỗi xu thế đầu vào Tt để thu được chuỗi xu thế biến đổi DTt . Việc biến đổi này đảm bảo tính dừng của chuỗi DTt , là một trong những điều kiện đầu vào của phương pháp. Chuỗi DTt sẽ là đầu vào cho phương pháp dự đoán theo GPR. Gọi T∗ t ,n+1 là kết quả dự đoán chuỗi xu thế Tt tương ứng tại một thời điểm kế tiếp. Bước 3: Áp dụng mô hình ARMA để dự đoán chuỗi thời gian ngẫu nhiên Rt . Ta sẽ chỉ ra sau đây rằng chuỗi Rt có tính dừng nên Rt có thể là đầu vào trực tiếp cho phương pháp ARMA. Gọi R∗ t ,n+1 là giá trị dự đoán tại một điểm kế tiếp cho chuỗi Rt theo mô hình ARMA. Bước 4: Tổng hợp kết quả dự đoán từ bước 2 và bước 3. Để có được kết quả dự đoán cho chuỗi Yt , ngoài việc dự đoán cho chuỗi Tt và Rt ta phải biết được giá trị chuỗi thời vụ St . Do St thể hiện tính lặp lại của các giá trị trong một chu kỳ, nên ta hoàn toàn tính được giá trị tương ứng trong chu kỳ của St tại điểm đang dự đoán, gọi giá trị này là St ,n+1. Y ∗t ,n+1 là kết quả dự đoán tại một thời điểm kế tiếp cho chuỗi thời gian đầu vào được cho bởi công thức nhân sau: Y ∗t ,n+1 = T ∗ t ,n+1 ∗ R∗t ,n+1 ∗ St ,n+1. (2) Thu thập dữ liệu lịch sử Dự đoán giá đóng cửa ngày kế tiếp Dữ liệu lịch sử Thực hiện chiến lược đầu tư TTCK Cập nhật dữ liệu hiện tại Cập nhật kết quả dự đoán Thông tin kết thúc ngày giao dịch Kết quả dự đoán Hình 2. Quy trình thực hiện phương pháp GPR-ARMA. 0 50 100 150 200 250 300 350 520 540 560 580 600 620 640 660 680 Pr ic e Days Hình 3. Lịch sử giá đóng cửa của chỉ số VN-Index. Sau khi đã dự đoán tại một điểm kế tiếp, ta bổ sung giá trị quan sát thực tế tại điểm đã được dự đoán này vào tập huấn luyện và lặp lại các bước từ bước 1 đến bước 4 ở trên cho bộ dữ liệu đầu vào mới được bổ sung này để dự đoán cho điểm kế tiếp tiếp theo trong tập kiểm thử. Hình 2 mô tả quy trình thực hiện phương pháp dự đoán GPR-ARMA để dự đoán xu thế giá đóng cửa chỉ số VN-Index cho một ngày kế tiếp. 1. Phân tích dữ liệu đầu vào Bộ dữ liệu đầu vào là một chuỗi thời gian với các giá trị là giá đóng cửa của chỉ số VN-Index qua các ngày giao dịch. Hình 3 thể hiện biểu đồ lịch sử giá của chỉ số VN- Index từ ngày 02/02/2015 đến ngày 09/08/2016, tương ứng với 377 ngày giao dịch, được chúng tôi sử dụng là đầu vào cho phương pháp dự đoán GPR-ARMA. Dữ liệu lịch sử giá của chỉ số VN-Index được phân tách thành ba chuỗi thành phần: xu thế, thời vụ và ngẫu nhiên. Chuỗi xu thế được tính theo phương pháp trung bình động từ một phía theo công thức sau: XTi = Xi−4 + Xi−3 + Xi−2 + Xi−1 + Xi∑i j=i−4(1 − δ(Xj,0)) , (3) trong đó, δ(x, x ′) là hàm Kronecker, các giá trị Xj ( j ≤ 0; j > n) không xác định và được coi bằng 0. Chu kỳ chuỗi thời vụ được chúng tôi sử dụng là 5 ngày tương ứng với một tuần giao dịch trên TTCK. Để tính chuỗi thời vụ, ta 37 Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông lấy chuỗi thời gian ban đầu chia cho chuỗi xu thế, lấy trung bình giá trị tại các điểm có cùng ngày trong tuần từ thứ hai đến thứ sáu ta thu được mảng năm giá trị, lấy từng phần tử trong mảng này trừ đi giá trị trung bình của mảng, lặp theo chu kỳ 5 ngày các giá trị này ta sẽ thu được chuỗi thời vụ. Các giá trị trong chuỗi ngẫu nhiên thu được bằng cách lấy chuỗi thời gian đầu vào trừ đi chuỗi xu thế và chuỗi thời vụ tính toán ở trên. Hình 4 minh họa các chuỗi thành phần được phân tách từ chuỗi thời gian đầu vào. Đường trên cùng là chuỗi thời gian đầu vào. Đường thứ hai là chuỗi thời gian xu thế. Đường thứ ba là chuỗi thời gian thời vụ và đường cuối cùng là chuỗi thời gian ngẫu nhiên. Hình 4. Các thành phần của chuỗi thời gian đầu vào. Các phương pháp dự đoán dựa trên lý thuyết xác suất đều suy diễn dựa trên giả thiết độc lập giữa các giá trị của chuỗi, hay nói cách khác bộ dữ liệu đầu vào phải thỏa mãn điều kiện dừng. Qua phân tích biểu đồ hàm tự tương quan và phân phối các giá trị của chuỗi ngẫu nhiên, chúng tôi nhận thấy chuỗi ngẫu nhiên có tính dừng, còn chuỗi xu thế không có tính dừng. Chúng tôi biến đổi chuỗi xu thế bằng cách lấy sai phân bậc một của chuỗi xu thế để thu được chuỗi mới có tính dừng, gọi là chuỗi DTt . Tiếp đến, chúng tôi phân tập dữ liệu đầu vào thành tập huấn luyện và tập kiểm thử. Tập dữ liệu huấn luyện chứa các dữ liệu quan sát được và được dùng để huấn luyện mô hình giúp cho việc tìm ra các tham số mô hình theo cách suy diễn của mỗi phương pháp. Trong nghiên cứu này, tập huấn luyện là các giá trị nằm trong khoảng thời gian từ ngày 02/0 ... trong đó p( f |Y,X) gọi là xác suất hậu nghiệm (posterior), p(Y |X, f ) gọi là xác suất khả năng (likelihood), p( f |X) gọi là xác suất tiên nghiệm, và p(Y |X) gọi là xác suất biên (marginal likelihood). Các siêu tham số hàm hiệp phương sai tìm được sao cho hàm logarit của xác suất biên sau đây đạt giá trị lớn nhất [1]: log p(Y |X) = −1 2 YT (K)Y − 1 2 log |K | − n 2 log 2pi. (7) 38 Tập V-1, Số 39, 11.2018 Phương pháp được sử dụng để tìm điểm tối ưu cho hàm logarit xác suất biên ở trên là phương pháp Gradient liên hợp. Sau khi tìm được các siêu tham số cho hàm hiệp phương sai, ma trận hiệp phương sai K hoàn toàn xác định. Xác suất có điều kiện p( f ∗ | f ) mang ý nghĩa là, đối với bộ dữ liệu huấn luyện tại các điểm f , việc dự đoán tại các điểm dữ liệu kiểm thử f ∗ sẽ cho độ chính xác với xác suất bao nhiêu. Phân phối của xác suất có điều kiện p( f ∗ | f ) cũng là phân phối quá trình Gauss có dạng sau [1]: f∗ |X∗,X, f GP(m̂, k̂), (8) trong đó m̂ = K(X∗,X)K(X,X)−1 f k̂ = K(X∗,X∗) − K(X∗,X)K(X,X)−1K(X,X∗). Công thức (8) cho phép ta xác định kết quả dự đoán bằng việc lấy kỳ vọng f∗ tại các điểm thử X∗. Chuỗi xu thế biến đổi DTt là đầu vào cho phương pháp phân tích GPR. Gọi DT∗ t ,n+1 là kết quả dự đoán chuỗi DTt tại một điểm kế tiếp cho bởi công thức (8). Gọi T∗ t ,n+1 là kết quả dự đoán tại một điểm kế tiếp của chuỗi đầu vào Tt , first(·) là hàm lấy giá trị phần tử đầu tiên của chuỗi, sum(·) là hàm lấy tổng các giá trị của chuỗi. Đối với biến đổi lấy sai phân bậc một ta có kết quả sau: T∗t ,n+1 = first(Tt ) + sum(DTt ) + DT∗t ,n+1. (9) Công thức (9) cho phép truy ngược kết quả dự đoán chuỗi xu thế Tt từ kết quả dự đoán biển đổi xu thế DTt . 3. Mô hình tự hồi quy trung bình động Mô hình ARMA là một quá trình được tạo ra bởi từ tổ hợp giữa các giá trị của chuỗi trong quá khứ và các giá trị của nhiễu trong quá khứ và hiện tại. Công thức sau thể hiện mối quan hệ giữa các đại lượng trong mô hình [4, 10]: Yt − Φ1Yt−1 − · · · − ΦpYt−p = Xt + θ1Zt−1 + · · · + θqZt−q, hay tương ứng là Φ(B)Yt = θ(B)Zt, (10) trong đó, (Yt,Yt−1, . . .) là các giá trị của chuỗi thời gian đầu vào; (Zt, Zt−1, . . .) là các sai số tương ứng với nhiễu trắng, kí hiệu là Zt WN(0, σ2), B là toán tử dịch ngược thời gian (B jYt = Yt−1). Mô hình ARMA có các tham số là θ = (Φ1,Φ2, . . . ,Φp, θ1, θ2, . . . , θq, σ2). Các tham số của mô hình ARMA được xác định sao cho hàm logarit xác suất khả năng cho bởi công thức sau đây đạt giá trị lớn nhất [4, 5]: log p(θ |Y ) = − 1 2 n∑ j=1 (Yj − Y ∗j )2 σ2υj−1 − 1 2 n−1∑ j=0 log(σ2υj) − n 2 log(2pi). (11) Trong công thức (11), {vi} là kỳ vọng của sai số bình phương tại bước dự đoán tiếp theo. Sau khi xác định các tham số của mô hình, việc dự đoán tại một điểm kế tiếp thu được bằng các biến đổi chuỗi thời gian {Yi} thành chuỗi thời gian mới {Wi} như sau: Wt = { σ−1Yt, 1 ≤ t ≤ m, σ−1Φ(B)Yt, t > m. (12) Trong công thức (12), m = max(p,q). Giá trị dự đoán tại điểm kế tiếp của chuỗi {Wi} được cho bởi công thức sau [4, 5]: W∗n+1 = n∑ j=1 θnj(Wn+1−j −W∗n+1−j), 1 ≤ n < m, q∑ j=1 θnj(Wn+1−j −W∗n+1−j), n ≥ m. (13) Các hệ số θnj trong công thức (13) được xác định từ giải thuật Innovations [4, 5] cho bởi công thức đệ quy υ0 = κ(1,1), θn,n−k = υ−1k [κ(n + 1, k + 1) − k−1∑ j=0 θk ,k−jθn,n−jυj], υn = κ(n + 1,n + 1) − n−1∑ j=0 θ2n,n−jυj, (14) trong đó κ(i, j) là hàm tự tương quan giữa hai điểm (i, j) của chuỗi {Wi}. Từ công thức (12) và (13), với nhận xét Wt −W∗t = σ−1(Yt −Y ∗t ); ∀t ≥ 1, ta có kết quả dự đoán tại một điểm kế tiếp (t+1) theo mô hình ARMA cho bởi công thức (15) dưới đây. Y ∗n+1 = n∑ j=1 θnj(Yn+1−j − Y ∗n+1−j), 1 ≤ n < m, q∑ j=1 Yn+1−j + p∑ j=1 θnj(Yn+1−j − Y ∗n+1−j), n ≥ m. (15) III. CÀI ĐẶT VÀ ĐÁNH GIÁ THỰC NGHIỆM Chương trình thực hiện phương pháp dự đoán kết hợp GPR-ARMA được cài đặt bằng ngôn ngữ Python, chạy trên hệ điều hành Windows Server 64-bit, sử dụng các gói thư viện xử lý toán học và thống kê như Numpy, Scipy, Pandas, Statsmodels; gói thư viện xử lý đồ họa Matplotlib và gói thư viện xử lý phân tích GPR là PyGPs [15]. Đánh giá kết quả dự đoán ngoại suy của phương pháp kết hợp GPR-ARMA được thực hiện như sau: lặp qua từng điểm trong tập kiểm thử để dự đoán giá đóng cửa chỉ số chứng khoán VN-Index tại mỗi điểm kiểm thử đó theo công thức (2). Sau mỗi bước lặp ta bổ sung giá trị quan sát tại điểm được dự đoán vào tập huấn luyện và lặp lại các bước 39 Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông Hình 5. Kết quả dự đoán xu thế chỉ số VN-Index theo phương pháp ARMA. Hình 6. Kết quả dự đoán xu thế chỉ số VN-Index theo phương pháp GPR. thực hiện quá trình dự đoán. Phương pháp tối ưu hóa trong phân tích GPR được chúng tôi sử dụng là phương pháp Gradient liên hợp tuyến tính với số bước lặp khởi tạo là 30. Sử dụng kết quả bài báo [6], đối với mô hình tự hồi quy trung bình động ARMA, chúng tôi sử dụng tiêu chuẩn thông tin Akaike để tìm bộ tham số (p,q) ở mỗi bước lặp sao cho tiêu chuẩn thông tin Akaike đạt giá trị nhỏ nhất. Chúng tôi cài đặt thực nghiệm phương pháp dự đoán GPR-ARMA và thu được đồ thị biểu diễn trực quan kết quả dự đoán của phương pháp GPR-ARMA cho cho 81 ngày giao dịch trong tập kiểm thử từ 14/04/2016 đến 09/08/2016 như Hình 7. Tiếp đến, chúng tôi tiến hành cài đặt từng phương pháp dự đoán riêng lẻ là phân tích GPR và mô hình ARMA sử dụng cùng bộ dữ liệu đầu vào và thực hiện dự đoán cùng tập dữ liệu kiểm thử với phương pháp kết hợp GPR-ARMA. Phương pháp phân tích GPR và mô hình ARMA được cài đặt bằng cách biến đổi dữ liệu đầu vào sử dụng lấy sai phân bậc một. Dữ liệu biến đổi này là đầu vào cho từng phương pháp và thực hiện truy ngược kết quả dự đoán cho chuỗi thời gian đầu vào tương tự công thức (9). Kết quả thực nghiệm từng phương pháp riêng lẻ, chúng tôi thu được đồ thị biểu diễn kết quả dự đoán như sau. Từ các hình 5, 6 và 7, ta có thể nhận thấy phương pháp kết hợp GPR-ARMA cho kết quả dự đoán tốt hơn khi mật độ các ngày dự đoán đúng nhiều hơn so với từng phương pháp riêng lẻ. Để định lượng chính xác, chúng tôi coi bài toán dự đoán xu thế chỉ số chứng khoán VN-Index là một bài toán phân lớp, bao gồm lớp tăng và lớp giảm. Kết quả dự đoán được xếp vào lớp tăng khi dự đoán chỉ số VN- Hình 7. Kết quả dự đoán xu thế chỉ số VN-Index theo phương pháp GPR-ARMA. Bảng I BẢNG NHẦM LẪN KẾT QUẢ DỰ ĐOÁN XU THẾ THEO PHƯƠNG PHÁP KẾT HỢP GPR-ARMA Tất cả các lớp Thuộc lớp Không thuộc lớp Dự đoán thuộc lớp TP = 50 FP = 31 Dự đoán không thuộc lớp FN = 31 TN = 50 Bảng II CÁC ĐẠI LƯỢNG SAI SỐ DỰ ĐOÁN CỦA TỪNG PHƯỚNG PHÁP DỰ ĐOÁN ĐƯỢC NGHIÊN CỨU Phương pháp RMSE MAD MAPE ARMA 6,034 4,717 0,0075 GPR 8,176 6,416 0,0102 GPR-ARMA 6,015 4,564 0,0073 Index ngày giao dịch kế tiếp lớn hay bằng chỉ số VN-Index ngày giao dịch hiện tại. Kết quả dự đoán được xếp vào lớp giảm khi dự đoán chỉ số VN-Index ngày giao dịch kế tiếp nhỏ hơn chỉ số VN-Index ngày giao dịch hiện tại. Từ kết quả thực nghiệm phương pháp GPR-ARMA, chúng tôi thu được bảng nhầm lẫn dự đoán (Bảng I) [16]. Từ Bảng nhầm lẫn của kết quả dự đoán xu thế chỉ số VN- Index, chúng tôi tính độ chính xác kết quả dự đoán xu thế chỉ số VN-Index theo phương pháp kết hợp GPR-ARMA theo công thức sau [16]: PGPR-ARMA = TP TP + FP = 50 50 + 31 = 61,73%. (16) Thực hiện tính toán tương tự, chúng tôi thu được độ chính xác dự đoán xu thế chỉ số VN-Index của phương pháp phân tích GPR là 48,15% và độ chính xác của phương pháp ARMA là 41,98%. Các đại lượng đánh giá sai số dự đoán bao gồm RMSE, độ lệch trị tuyệt đối trung bình (MAD: Mean absolute deviation) và phần trăm sai số trị tuyệt đối trung bình (MAPE: Mean absolute percentage error) của từng phương pháp được cho trong Bảng II. Hình 8 biểu diễn trực quan đồ thị dự đoán chỉ số VN- Index của từng phương pháp. Như vậy kết quả thực nghiệm cho thấy so với từng phương pháp dự đoán riêng lẻ, phương pháp dự đoán kết hợp GPR-ARMA cho độ chính xác cao 40 Tập V-1, Số 39, 11.2018 0 10 20 30 40 50 60 70 560 580 600 620 640 660 680 Pr ic e Days 80 GPR-ARMA GPR ARMA Real prices Hình 8. Kết quả dự đoán giá chỉ số VN-Index của từng phương pháp dự đoán được nghiên cứu. nhất là 61,73%. Đồng thời, các sai số dự đoán thấp hơn so với từng phương pháp dự đoán riêng lẻ. IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng tôi đã trình bày một phương pháp mới giải bài toán dự đoán xu thế VN-Index nhờ việc phân tách chuỗi thời gian đầu vào và sử dụng kết hợp phân tích GPR và mô hình ARMA để dự đoán các chuỗi thời gian thành phần một cách hợp lý, qua đó tận dụng ưu điểm của từng phương pháp dự đoán riêng lẻ. Thành phần xu thế thể hiện xu thế rõ ràng hơn nhờ việc loại bỏ nhiễu là thành phần ngẫu nhiên, nên việc áp dụng phân tích GPR làm tăng khả năng học để nhận biết các mẫu hình lặp lại trong chuỗi xu thế. Thành phần ngẫu nhiên có tính dừng, có giá trị biến thiên ngẫu nhiên, nên phù hợp để áp dụng mô hình ARMA dự đoán cho thành phần ngẫu nhiên này. Kết quả dự đoán các thành phần riêng lẻ được tổng hợp lại để đưa ra kết quả dự đoán cuối cùng cho phương pháp kết hợp GPR-ARMA. Kết quả thực nghiệm cho thấy, với cùng bộ dữ liệu đầu vào và cùng tập kiểm thử tiến hành dự đoán, phương pháp kết hợp GRP- ARMA cho độ chính xác cao nhất là PGPR-ARMA = 61,73% (dự đoán đúng 50 ngày trong số 81 ngày tiến hành dự đoán). Các phương pháp dự đoán riêng lẻ là phân tích GPR và mô hình ARMA có độ chính xác dự đoán thấp hơn nhiều so với phương pháp kết hợp. Đồng thời, giá trị các sai số dự đoán RMSE, MAD và MAPE của phương pháp kết hợp GPR- ARMA đều thấp hơn so với từng phương pháp dự đoán riêng lẻ. Phương pháp của chúng tôi đã tận dụng được ưu điểm của từng phương pháp dự đoán riêng lẻ để có kết quả dự đoán tốt hơn. Từ đó khẳng định tính đúng đắn của phương pháp dự đoán kết hợp GPR-ARMA được đề xuất. Mỗi mô hình định lượng được sử dụng trong bài báo này đều có thể được cải tiến nhằm tăng độ chính xác dự đoán của phương pháp kết hợp GPR-ARMA. Với mô hình ARMA, việc biến đổi dữ liệu đầu vào phù hợp để làm giảm khoảng cách biến thiên giữa các điểm có thể tăng độ chính xác của phương pháp này. Với phân tích GPR, việc lựa chọn các lớp hàm hiệp phương sai tốt có thể cải thiện đáng kể độ chính xác của phương pháp này. Một hướng phát triển tiếp theo là sử dụng các giải thuật xấp xỉ để cải thiện tốc độ tính toán cho phân tích GPR khi dữ liệu đầu vào lớn. Cuối cùng, phương pháp GPR-ARMA là phương pháp dự đoán tổng quát cho chuỗi thời gian bất kì nên phương pháp này có thể sử dụng để dự đoán các chuỗi thời gian khác như giá cổ phiếu, hay giá của các chỉ số chứng khoán khác như chỉ số S&P 500, Nasdaq, Dow Jones, FTSE 100, BSE SENSEX. TÀI LIỆU THAM KHẢO [1] C. E. Rasmussen and C. K. Williams, “Gaussian processes for machine learning. 2006,” The MIT Press, Cambridge, MA, USA, vol. 38, pp. 715–719, 2006. [2] B. Wang and T. Chen, “Gaussian process regression with multiple response variables,” Chemometrics and Intelligent Laboratory Systems, vol. 142, pp. 159–165, 2015. [3] M. T. Farrell and A. Correa, “Gaussian process regression models for predicting stock trends,” Relation, vol. 10, pp. 1–9, 2007. [4] P. J. Brockwell, R. A. Davis, and M. V. Calder, Introduction to time series and forecasting, 2nd ed. Springer, 2010. 41 Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông [5] G. E. Box, G. M. Jenkins, G. C. Reinsel, and G. M. Ljung, Time series analysis: forecasting and control, 5th ed. John Wiley & Sons, 2015. [6] P. Mondal, L. Shit, and S. Goswami, “Study of effectiveness of time series modeling (arima) in forecasting stock prices,” International Journal of Computer Science, Engineering and Applications, vol. 4, no. 2, pp. 13–29, 2014. [7] G. Dutta, P. Jha, A. K. Laha, and N. Mohan, “Artificial neural network models for forecasting stock price index in the bombay stock exchange,” Journal of Emerging Market Finance, vol. 5, no. 3, pp. 283–295, 2006. [8] Y. Zuo and E. Kita, “Up/down analysis of stock index by us- ing bayesian network,” Engineering Management Research, vol. 1, no. 2, pp. 46–52, 2012. [9] S. S. Patil, K. Patidar, and M. Jain, “Stock market prediction using support vector machine,” International Journal of Current Trends in Engineering & Technology, vol. 2, no. 1, pp. 18–25, 2016. [10] T. Awokuse and T. Ilvento, “Using statistical data to make decisions-module 6: Introduction to time series fore- casting,” University of Delaware, College of Agriculture and Natural Resources, Food and Resource Economics, 2012. [Online]. Available: BUAD820/MOD604.pdf [11] E. Haven, P. Molyneux, J. O. Wilson, S. Fedotov, and M. Duygun, The Handbook of Post Crisis Financial Mod- elling. Springer, 2016. [12] Đỗ Văn Thành, Nguyễn Minh Hải, “Phân tích và dự báo chỉ số thị trường chứng khoán bằng sử dụng chỉ số báo trước,” in Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR’9), Cần Thơ, Việt Nam, Aug., pp. 559–565. [13] Hồ Thủy Tiên, Hồ Thu Hoài, Ngô Văn Toàn, “Mô hình hóa biến động thị trường chứng khoán: Thực nghiệm từ việt nam,” Tạp chí Khoa học ĐHQGHN: Kinh tế và Kinh doanh, vol. 33, no. 3, pp. 1–11, 2017. [14] M. H. Nguyen and O. Darné, “Forecasting and risk management in the vietnam stock exchange,” Laboratoire d’Economie et de Management Nantes-Atlentique Université de Nantes, 2018. [Online]. Available: https://halshs.archives- ouvertes.fr/halshs-01679456 [15] M. Neumann, S. Huang, D. E. Marthaler, and K. Kersting, “pygps: A python library for gaussian process regression and classification,” The Journal of Machine Learning Research, vol. 16, no. 1, pp. 2611–2616, 2015. [16] C. D. Manning, P. Raghavan, and H. Schu¨tze, Introduction to information retrieval. Cambridge University Press, 2012. Huỳnh Quyết Thắng sinh năm 1967 tại Hà Nội. Ông tốt nghiệp Trường Đại học Điện-Máy Varna, Cộng hòa Bungary, năm 1990; nhận bằng Tiến sĩ tại Trường Tổng hợp kỹ thuật Varna (TU Varna), Cộng hòa Bungary, năm 1995; nhận học hàm PGS năm 2007. Hiện nay, ông đang công tác tại Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội. Lĩnh vực nghiên cứu ông quan tâm là Techniques and Math models in Software Quality Prediction/Measurement; Secure Coding, Program Analysis; Methods in Software Development; Cost/Effort Evaluation. Phùng Đình Vũ sinh năm 1989 tại Nam Định. Ông tốt nghiệp Đại học và Thạc sĩ Công nghệ thông tin tại Trường Đại học Bách khoa Hà Nội năm 2012 và 2017. Lĩnh vực nghiên cứu ông quan tâm là Các mô hình định lượng như Gaussian Process, mạng Nơ-ron, Giải thuật di truyền, mạng Bayes, Support Vector Machine. Tống Văn Vinh sinh năm 1997 tại Hà Nội. Tác giả là sinh viên năm thứ tư, lớp Kỹ sư Tài năng, chuyên ngành Công nghệ Thông tin, Trường Đại học Bách khoa Hà Nội. Lĩnh vực nghiên cứu quan tâm của tác giả là Gaussian Process, mạng Nơ-ron, Support Vector Machine, mạng Bayes. 42
File đính kèm:
- du_doan_xu_the_chi_so_chung_khoan_viet_nam_su_dung_phan_tich.pdf