Mô hình dự báo tần suất cao đối với chỉ số thị trường chứng khoán

TÓM TẮT — Bài báo đề xuất phương pháp kết hợp kỹ thuật hồi quy nhiều biến và kỹ thuật phân tích thành phần chính (PCA) trên
tập các biến dữ liệu giao dịch cố phiếu có tương quan mẫu cao với chỉ số thị trường chứng khoán để xây dựng mô hình dự báo chỉ
số thị trường chứng khoán. Việc thực hành xây dựng mô hình dự báo được thực hiện trên dữ liệu thực theo ngày của sàn giao dịch
chứng khoán thành phố Hồ Chí Minh từ đầu năm 2010 đến nay. Kết quả dự báo bằng mô hình được xây dựng cho thấy triển vọng
tốt của phương pháp được đề xuất trong dự báo chỉ số thị trường chứng khoán cũng như nhiều chỉ số kinh tế - xã hội khác.
Từ khóa— Mô hình dự báo, chỉ số thị trường chứng khoán, phân tích thành phần chính, tần suất cao.
9 trang phuongnguyen 4740
Download
Bạn đang xem tài liệu "Mô hình dự báo tần suất cao đối với chỉ số thị trường chứng khoán", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Mô hình dự báo tần suất cao đối với chỉ số thị trường chứng khoán

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 
DOI: 10.15625/vap.2016.00037 
MÔ HÌNH DỰ BÁO TẦN SUẤT CAO ĐỐI VỚI CHỈ SỐ 
THỊ TRƯỜNG CHỨNG KHOÁN 
Đỗ Văn Thành1 và Nguyễn Minh Hải2 
1
Khoa Công nghệ thông tin, Trường Đại học Nguyễn Tất Thành 
2Khoa cơ bản, Trường Đại học Công nghiệp, Thành phố Hồ Chí Minh 
[email protected], [email protected]. 
TÓM TẮT — Bài báo đề xuất phương pháp kết hợp kỹ thuật hồi quy nhiều biến và kỹ thuật phân tích thành phần chính (PCA) trên 
tập các biến dữ liệu giao dịch cố phiếu có tương quan mẫu cao với chỉ số thị trường chứng khoán để xây dựng mô hình dự báo chỉ 
số thị trường chứng khoán. Việc thực hành xây dựng mô hình dự báo được thực hiện trên dữ liệu thực theo ngày của sàn giao dịch 
chứng khoán thành phố Hồ Chí Minh từ đầu năm 2010 đến nay. Kết quả dự báo bằng mô hình được xây dựng cho thấy triển vọng 
tốt của phương pháp được đề xuất trong dự báo chỉ số thị trường chứng khoán cũng như nhiều chỉ số kinh tế - xã hội khác. 
Từ khóa— Mô hình dự báo, chỉ số thị trường chứng khoán, phân tích thành phần chính, tần suất cao. 
I. GIỚI THIỆU 
Dự báo thị trường chứng khoán là vấn đề luôn được cộng đồng quốc tế quan tâm. Dự báo thị trường chứng 
khoán bao gồm 2 nội dung chính là dự báo chỉ số thị trường chứng khoán (nói gọn là chỉ số thị trường chứng khoán) và 
dự báo giá của các biến dữ liệu giao dịch cổ phiếu trên thị trường [9]. 
Hiện đã có hàng trăm bài báo nghiên cứu đề xuất các cách tiếp cận kỹ thuật dự báo thị trường chứng khoán. Đã 
có một số nghiên cứu điều tra và tổng quan tương đối có hệ thống về các kỹ thuật dự báo thị trưởng chứng khoán [9]. 
Theo đó các cách tiếp cận kỹ thuật dự báo thị trường chứng khoán đã được phân loại và được giới thiệu trong [3, 9]. 
Một số kỹ thuật dự báo thị trường chứng khoán được nghiên cứu nhiều trong vài năm gần đây cũng đã được giới thiệu 
trong [3], trong đó có kỹ thuật phân tích thành phần chính (PCA) [1-2, 5, 7, 10-14]. Những phương pháp kết hợp sử 
dụng kỹ thuật PCA với một hoặc một vài kỹ thuật khai phá dữ liệu khác như phương pháp học máy véc tơ hỗ trợ, giải 
thuật di truyền, mạng nơtron, trong phân tích và dự báo thị trường chứng khoán đang được quan tâm nghiên cứu ứng 
dụng [1, 4, 11-12, 14]. 
PCA là kỹ thuật được sử dụng để làm đơn giản hóa một tập dữ liệu phức tạp thành một tập dữ liệu nhỏ hơn và 
có thể hiểu dễ dàng hơn [6]. PCA khác với các kỹ thuật hồi qui nhiều biến ở chỗ các kỹ thuật hồi qui nhiều biến tập 
trung vào các suy luận thống kê hoặc xây dựng mô hình để giải thích hoặc dự báo mối quan hệ giữa các biến. PCA tóm 
lược các tập dữ liệu lớn và phức tạp bằng cách tạo ra các biến mới là tổ hợp tuyến tính có trọng số của các biến ban 
đầu. Mỗi biến mới được gọi là thành phần chính sẽ không tương quan với các thành phần chính khác. 
Với việc làm giảm số chiều các biến, PCA rất hữu ích trong phân tích thống kê nhiều biến. Các thành phần 
chính là dữ liệu tần suất cao nên mô hình dự báo có các biến giải thích là các thành phần chính được gọi là mô hình dự 
báo tần suất cao [4]. Hầu hết các mô hình dự báo kinh tế được giới thiệu trong [5] là được phát triển ở một số nước có 
trình độ khoa học phát triển trong những năm gần đây đều là những mô hình dự báo được xây dựng bằng phương pháp 
hồi quy nhiều biến trên tập các biến giải thích là các thành phần chính của tập biến gốc và chúng đều là những mô hình 
dự báo tần suất cao [1, 4, 11-12]. 
 Các công trình nghiên cứu trong [5] là những gợi ý quan trọng cho nghiên cứu bài báo này. Mục đích của bài 
báo này là đề xuất phương pháp xây dựng mô hình dự báo chỉ số thị trường chứng khoán bằng sử dụng phương pháp 
hồi qui nhiều biến, ở đó các biến giải thích là các thành phần chính của tập biến dữ liệu ban đầu. Các thành phần chính 
được lựa chọn sao cho nắm bắt được những thay đổi nhiều nhất như có thể của tập dữ liệu gốc. Do các biến mới là các 
thành phần chính nên trong mô hình dự báo sẽ không còn hiện tượng đa cộng tuyến và việc giải thích các yếu tố tác 
động thực sự đến thay đổi của chỉ số thị trường chứng khoán sẽ dễ dàng và chuẩn xác hơn. Nói ngắn gọn bài báo này sẽ 
kết hợp kỹ thuật phân tích hồi qui nhiều biến và kỹ thuật PCA nhiều biến trong việc dự báo chỉ số thị trường chứng 
khoán. Khác với hầu hết các nghiên cứu dự báo về thị trường chứng khoán bằng sử dụng các kỹ thuật khai phá dữ liệu 
trước đây, phương pháp dự báo này sẽ chú trọng đưa ra kết quả dự báo cụ thể chứ không đơn thuần chỉ là dự báo xu thế 
của thị trường. 
Việc thực hành xây dựng mô hình dự báo chỉ số thị trường chứng khoán theo phương pháp được đề xuất sẽ 
được thực hiện trên tập dữ liệu thực của sàn giao dịch chứng khoán Thành phố Hồ Chí Minh. 
Bài báo được cấu trúc thành 5 mục. Mục 2 tiếp theo sẽ giới thiệu một số công trình nghiên cứu liên quan. Mục 3 
sẽ trình bày phương pháp xây dựng mô hình dự báo tần suất cao đối với chỉ số thị trường chứng khoán. Mục 4 sẽ trình 
bày kết quả xây dựng mô hình dự báo chỉ số thị trường chứng khoán theo phương pháp được đề xuất trên tập dữ liệu 
thực tế theo tần suất ngày của sàn giao dịch chứng khoán Thành phố Hồ Chí Minh. Việc đánh giá chất lượng dự báo 
của mô hình cũng được thực hiện trong Mục này và Mục 5, cuối cùng, sẽ trình bày một số kết luận. 
300 MÔ HÌNH DỰ BÁO TẦN SUẤT CAO ĐỐI VỚI CHỈ SỐ THỊ TRƯỜNG CHỨNG KHOÁN 
II. NHỮNG NGHIÊN CỨU LIÊN QUAN 
Trong mục này sẽ tổng quan một số công trình nghiên cứu có sử dụng kỹ thuật PCA trong phân tích và xây 
dựng mô hình dự báo thị trường chứng khoán trong những năm gần đây. 
Wang Yansshan [14] đã sử dụng kết hợp kỹ thuật học máy véc tơ hỗ trợ và kỹ thuật PCA để làm giảm các điểm 
dữ liệu thành hai thành phần và quan sát thấy rằng có thể hình thành một cụm các cổ phiếu cùng thay đổi bằng việc sử 
dụng các thành phần được tạo ra từ PCA khi nghiên cứu dự báo chỉ số giá cổ phiếu tổng hợp KOSPI của Hàn Quốc và 
chỉ số thị trường chứng khoán Hangseng (HSI). 
Phân tích thành phần chính dạng hàm (FPCA) là tương tự như PCA nhiều biến thông thường nhưng ở đây 
trọng số của các thành phần chính (hay véc tơ riêng) là các hàm số phụ thuộc thời gian. Wang [13], đã sử dụng kỹ 
thuật FPCA để nghiên cứu về giá của 50 cổ phiếu giao dịch chính trên sàn giao dịch chứng khoán Thượng Hải. 
Wang [13] đã làm giảm số chiều và rút ra được những thành phần giàu ý nghĩa nhất. So sánh với PCA thông thường 
thì FPCA có thể giải quyết được vấn đề các chiều trong mẫu là khác nhau và nó là cách tiếp cận hợp lý để rút ra các 
yếu tố thay đổi chính. 
Mbeledogu [7], cũng đã sử dụng kỹ thuật PCA để giảm các biến dữ liệu giao dịch cổ phiếu thành 9 biến mới 
nhằm phục vụ cho hệ thống dự báo giao dịch cổ phiếu Nigiêria. Nghiên cứu này đã lựa chọn được các thành phần 
mang nhiều thông tin nhất và loại bỏ các thành phần dư thừa để nâng cao hiệu quả cho việc phân lớp, phân loại tiếp 
theo. Xa hơn kết quả bài báo sẽ hỗ trợ việc sử dụng PCA để nhận diện các yếu tố quan trọng nhất trong quá trình làm 
giảm đáng kể số lượng các biến đầu vào nhưng vẫn đảm bảo hiệu quả và đầy đủ thông tin cho việc phân lớp, phân loại. 
Carol Anne Hargreaves, Chandrika Kadirvel Mani [2] đã rút ngắn quá trình và thời gian xác định một cổ phiếu 
tốt bằng cách giảm số lượng các biến để phân tích và chỉ phân tích các biến quan trọng. Trong thực hành các tác giả đã 
chọn 22 biến chứa thông tin cơ bản về kinh tế vĩ mô hoặc thông tin về tài chính và thực hiện kỹ thuật PCA để giảm 22 
biến thành một số ít hơn đáng kể các biến. 
Có thể thấy rằng việc sử dụng đơn lẻ kỹ thuật PCA trong nghiên cứu thị trường chứng khoán chỉ có thể hỗ trợ 
làm giảm số lượng các biến đầu vào cần được phân tích, làm cho việc phân tích dữ liệu thị trường chứng khoán trở lên 
thuận lợi, dễ dàng hơn [2, 7, 13]. Việc kết hợp sử dụng kỹ thuật PCA và kỹ thuật học máy véc tơ hỗ trợ trong nghiên 
cứu thị trường chứng khoán [14] giúp cho có thể phân cụm, phân lớp dữ liệu, chỉ có thể hỗ trợ dự báo xu thế chưa hỗ 
trợ trực tiếp cho việc xây dựng mô hình dự báo thị trường chứng khoán nói chung, chỉ số thị trường chứng khoán nói 
riêng. 
Phân tích mô hình dự báo kinh tế ở mức quốc gia ở một số nước có trình độ khoa học phát triển được xây dựng 
trong những năm gần đây [5] có thể nhận thấy: 
- Việc lựa chọn các biến gốc đầu vào cho các biến phụ thuộc là dựa vào lý thuyết kinh tế. Các biến giải thích thường 
là các chỉ số thuộc tài khoản quốc gia, tài khoản thu nhập và tài khoản sản xuất nên nói chung chúng là khá lớn [4]. 
- Hầu hết các mô hình dự báo kinh tế trong [5] đều sử dụng kỹ thuật PCA để lựa chọn các thành phần chính 
thay thế các biến giải thích gốc ban đầu trong mô hình dự báo [1, 4, 11-12]. 
- Dạng phương trình hồi qui của biến phụ thuộc theo các thành phần chính có thể ở dạng tổng quát nhất là mô 
hình trễ phân bố tự hồi qui [1] hoặc ở dạng rút gọn hơn là hàm loga tuyến tính nhiều biến [4, 11-12]. Quá trình hồi qui 
nhiều biến có thể sử dụng thêm biến giả để loại bỏ những điểm dữ liệu bất thường và xem phần dư như là một mô hình 
ARMA để khắc phục hiện tượng tự tương quan chuỗi của phần dư cũng như kỳ vọng phần dư khác 0; xem xét đưa vào 
các yếu tố phi tuyến (tích chéo của các biến giải thích) khi xử lý phần dư của phương trình ước lượng có phương sai 
không đổi. 
Những nhận xét trên là những gợi ý cho thực hiện nghiên cứu xây dựng mô hình dự báo chỉ số thị trường chứng 
khoán, trong đó nhất là [1] trong việc chỉ định mô hình trễ phân bố tự hồi qui làm mô hình lý thuyết cho mô hình dự 
báo cần xây dựng. 
III. PHƢƠNG PHÁP XÂY DỰNG MÔ HÌNH DỰ BÁO 
Ký hiệu Y là biến chỉ số thị trường chứng khoán. Y là một biến véctơ, YT = (y1, y2, , ym), yi , i=1, 2, , m, là 
giá trị của biến Y ở ngày thứ i, m là số ngày giao dịch được thực hiện trên sàn. 
Ký hiệu Xj (j =1, 2, , n), là biến dữ liệu giao dịch cố phiếu thứ j và n là số các biến dữ liệu giao dịch cổ phiếu 
được niêm yết trên sàn, Xj cũng là biến véctơ, Xj
T
 = (xj1, xj2, , xjm), ở đây xjk là giá trị của Xj trong ngày thứ k, nó là 
tích của giá trung bình của biến dữ liệu giao dịch cổ phiếu Xj nhân với số lượng cổ phiếu này được giao dịch trong 
ngày thứ k. Ta có thể sử dụng mã cổ phiếu làm tên của biến dữ liệu giao dịch cổ phiếu. 
Đỗ Văn Thành, Nguyễn Minh Hải 301 
Ký hiệu A = (X1, X2, , Xn) là véc tơ mà mỗi phần tử của nó là véctơ cột m chiều. Nói cách khác A biểu diễn 
một ma trận mxn chiều: A = (xij), i = 1, 2, ,m , j = 1, 2, , n ở đây xij là giá trị giao dịch trong ngày giao dịch thứ i 
của biến dữ liệu giao dịch cố phiếu Xj. 
Phương pháp xây dựng mô hình dự báo tần suất cao đối với chỉ số thị trường chứng khoán được trình bày trong 
Hình 1 ở dưới và được giải thích tóm tắt như sau: 
3.1. Bƣớc 1: Lựa chọn các biến dữ liệu giao dịch cổ phiếu có tương quan mẫu cao với chỉ số thị trường chứng khoán 
1) Nếu số lượng các biến dữ liệu giao dịch cổ phiếu sàn không quá lớn (khuyến nghị là dưới 100) thì chuyển 
sang Bước 3; 
2) Tính tương quan mẫu giữa chỉ số thị trường chứng khoán Y và các biến dữ liệu giao dịch cổ phiếu Xj; 
3) Lựa chọn các biến dữ liệu giao dịch cổ phiếu có tương quan mẫu cao với chỉ số thị trường chứng khoán Y 
(mức tương quan mẫu cao do người dùng quyết định). 
Không giảm tổng quát, giả sử tất cả các biến dữ liệu giao dịch cổ phiếu Xj (j =1, 2, ., n) đều là các biến dữ 
liệu giao dịch cổ phiếu có tương quan mẫu cao với Y và chúng đều được chọn để thực hiện PCA. 
Hình 1. Phương pháp xây dựng mô hình dự báo tần suất cao đối với chỉ số thị trường chứng khoán 
302 MÔ HÌNH DỰ BÁO TẦN SUẤT CAO ĐỐI VỚI CHỈ SỐ THỊ TRƯỜNG CHỨNG KHOÁN 
3.2. Bƣớc 2: Tính toán và lựa chọn thành phần chính đại diện cho tập dữ liệu gốc 
4) Tính ma trận tương quan của tập các biến dữ liệu giao dịch cổ phiếu đã được lựa chọn ở Bƣớc 1, ký hiệu là 
ma trận vuông R bậc h (h≤n). 
5) Tính giá trị riêng và véc tơ riêng của ma trận R. 
6) Xác định số thành phần chính bằng cách sắp xếp giá trị riêng theo giá trị giảm dần và phân tích tỷ lệ tích lũy 
của các giá trị riêng. Tỷ lệ tích lũy của các giá trị riêng cũng chính là tỷ lệ nắm bắt những thay đổi của tập dữ liệu gốc 
của thành phần chính tương ứng với các giá trị riêng đó. Một số nhà nghiên cứu gợi ý nên giữ lại tất cả các thành phần 
chính có giá trị riêng lớn hơn 1 trong khi nhiều nhà nghiên cứu khác gợi ý nên giữ lại các thành phần chính có thể giải 
thích được từ 70% - 90% sự thay đổi trong tập dữ liệu gốc. 
Giả sử có k thành phần chính được giữ lại, ký hiệu là PC1, PC2, , PCk. khi đó (k ≤ h). 
7) Xác định các thành phần chính, nó là tổ hợp tuyến tính của tập dữ liệu gốc được chuẩn hóa với trọng số là 
các véc tơ riêng tương ứng. Cụ thể: 
 Giả sử V1, V2, ., Vk là các véc tơ riêng ứng với các thành phần chính PC1, PC2, , PCk. mỗi Vi là một véc tơ 
h chiều cụ thể Vi
T
 = (v1i, v2i, , vhi), khi đó thành phần chính PCi là véc tơ m chiều ứng với véc tơ riêng Vi được xác 
định như sau [6]: 
 PCi = v1i* ̂ + v2i* ̂ +  + vhi* ̂ , (1) 
ở đây ̂j = 
 ̿ 
, (2) 
trong đó ̿ , Sj tương ứng là kỳ vọng (giá trị trung bình) và độ lệch chuẩn của véc tơ Xj. Các véc tơ ̂j được gọi là véc 
tơ chuẩn hóa của véc tơ Xj. Nói cách khác các thành phần chính được tính theo h véc tơ cột của ma trận A được chuẩn 
hóa và lấy các véc tơ giá trị riêng làm trọng số. Véc tơ riêng Vi là trọng số của thành phần chính PCi tương ứng. 
3.3. Bƣớc 3: Xây dựng mô hình dự báo chỉ số thị trường chứng khoán tần suất cao 
8) Chia tập dữ liệu thành 2 tập. Tập dữ liệu thứ nhất để xây dựng mô hình dự báo và tập dữ liệu thứ 2 để kiểm 
định mô hình dự báo. 
9) Kiểm tra tính dừng và đưa về chuỗi dừng biến Y và các thành phần chính PC1, PC2, , PCk nhằm đảm bảo 
phép hồi qui trên các biến này là hồi qui đúng. Giả sử Y và các thành phần chính PC1, PC2, , PCk đều là chuỗi dừng. 
10) Hồi quy biến Y theo các thành phần chính theo công thức: 
t
q
q
i
kki
i
i
i
i uqYbiPCaiPCaiPCaY 
5
1
5
0
5
0
22
5
0
11 )()(...)()(
 (3) 
ở đây ut là phần dư của phương trình ước lượng được giả thiết là nhiễu trắng. Quá trình hồi qui được lặp đi lặp lại sao 
cho tất cả các tham số ước lượng i (i= 1, 2, , k) trong mô hình dự báo đều có ý nghĩa thống kê, theo thông lệ thường 
ở mức dưới 10%. 
Phương trình (3) thực chất thuộc dạng mô hình trễ phân bố tự hồi qui [15], nó hàm ý rằng giá trị của chỉ số thị 
trường chứng khoán Y không chỉ phụ thuộc các biến PC1, PC2, , PCk và đến trễ 5 của các biến này mà còn phụ thuộc 
vào trễ của chính nó. Độ dài trễ là 5 do các giao dịch trên thị trường chứng khoán được thực hiện theo 5 ngày làm việc 
của tuần. 
11) Phương trình ước lượng cuối cùng không chỉ phải đảm bảo các tham số ước lượng đều có ý nghĩa thống kê mà 
còn phải ổn định (hay vững), phần dư là nhiễu trắng và không có hiện tượng nội sinh phần dư. Mô hình dự báo khi đó được 
xem là ổn định, có ước lượng không chệch và là tốt nhất theo phương pháp hồi qui bình phương tối thiểu [8, 15]. 
12) Thực hiện kiểm định mô hình dự báo bằng cách: sử dụng mô hình được xây dựng trên tập dữ liệu thứ nhất 
để dự báo tập dữ liệu thứ 2 và so sánh kết quả dự báo với số  ... 
có tương quan mẫu với chỉ số thị trường chứng khoán là cao. 
Như đã biết nếu hệ số tương quan mẫu giữa 2 biến là dương thì hai biến này là biến đổi cùng chiều và ngược lại 
là biến đổi trái chiều bởi vậy việc lựa chọn ngưỡng cho hệ số tương quan mẫu cho các tương quan mẫu dương và âm 
nên là khác nhau. 
Nếu chọn ngưỡng hệ số tương quan mẫu dương là 0.49 và ngưỡng hệ số tương quan mẫu âm là -0.20 thì sẽ có 
25 các biến dữ liệu giao dịch cổ phiếu được chỉ ra trong Bảng 1. Tập dữ liệu về giá trị giao dịch của các biến này từ 
ngày 04/01/2010 đến ngày 05/5/2016 trở thành tập dữ liệu gốc. 
STT Mã cố phiếu Hệ số tƣơng quan mẫu STT Mã cố phiếu Hệ số tƣơng quan mẫu 
1 DLG 0.5996 14 MHC 0.5446 
2 DXG 0.6279 15 PVD 0.5810 
3 FLC 0.6353 16 PXS 0.5435 
4 FPT 0.5612 17 TCM 0.6483 
5 HAG 0.5208 18 TTF 0.6209 
6 HAR 0.5298 19 VHG 0.5870 
7 HCM 0.5963 20 BMC -0.2312 
8 HHS 0.4931 21 CLG -0.2226 
9 HPG 0.5581 22 LCM -0.2023 
10 HQC 0.5645 23 PNJ -0.2650 
11 HT1 0.5093 24 VMD -0.2893 
12 HVG 0.5385 25 VPK -0.3180 
13 IDI 0.4990 
Bảng 1. Các biến dữ liệu giao dịch cổ phiếu có tương quan mẫu cao với VNINDEX 
Bƣớc 2: Tính toán và lựa chọn thành phần chính đại diện cho tập dữ liệu gốc 
Trước hết xây dựng ma trận tương quan R của 25 biến dữ liệu được nêu trong Bảng 1. Mỗi phần tử của R là hệ 
số tương quan mẫu giữa 2 biến bất kỳ trong 25 biến dữ liệu giao dịch cổ phiếu được chọn. Do đó R là ma trận vuông 
đối xứng cấp 25x25 và RRT là dạng toàn phương xác định dương nên giá trị riêng của ma trận R sẽ là số dương. 
Đồ thị về các giá trị riêng của ma trận R được trình bày trong Hình 2 ở dưới. Theo đó có 5 giá trị riêng có giá trị 
lớn hơn 1, còn lại nhỏ hơn 1. Theo [6], điều đó hàm ý rằng có thể chọn ít nhất 5 thành phần chính để nghiên cứu cấu 
trúc của tập dữ liệu gốc cũng như làm các biến giải thích trong phân tích hồi qui nhiều biến trên tập dữ liệu gốc. 
Hình 2. Đồ thị các giá trị riêng được sắp thứ tự của ma trận tương quan R 
304 MÔ HÌNH DỰ BÁO TẦN SUẤT CAO ĐỐI VỚI CHỈ SỐ THỊ TRƯỜNG CHỨNG KHOÁN 
Phân tích cụ thể và chi tiết hơn về các giá trị riêng ta sẽ thấy, ma trận R có 25 giá trị riêng. Tổng các giá trị riêng 
là 25. Giá trị riêng lớn nhất là 8.9921, giá trị riêng thứ 2 là: 2.0265. Giá trị riêng thứ nhất lớn hơn giá trị riêng thứ 2 là 
6.9656. Tỷ lệ của giá trị riêng thứ nhất trên tổng các giá trị riêng là 0.3597 hàm ý rằng thành phần chính ứng với giá trị 
riêng này phản ánh được 35.97% sự thay đổi của tập dữ liệu gốc. Trong khi đó tỷ lệ giá trị riêng thứ 2 trên tổng các giá 
trị riêng là 0.0811 và thành phần chính ứng với giá trị riêng thứ 2 phản ánh được 8.11% sự thay đổi của tập dữ liệu gốc. 
Tỷ lệ của tổng hai giá trị riêng đầu tiên trên tổng các giá trị riêng (được gọi là giá trị tích lũy) là 11.0187 và tỷ lệ tích 
lũy của nó thể hiện hai thành phần chính đầu tiên phản ánh được bao nhiêu % sự thay đổi của tập dữ liệu gốc. Trong 
trường hợp này là 44.07%. 
Như vậy ta có thể thấy 8 thành phần chính tương ứng với 8 giá trị riêng đầu tiên phản ánh được 70.28% sự thay 
đổi của tập dữ liệu gốc. Một số nhà nghiên cứu khác cho rằng [6] việc lựa chọn số thành phần chính cần sao cho nó 
phản ánh được từ 70% đến 90% những thay đổi của tập dữ liệu gốc. 
Kết hợp hai gợi ý về lựa chọn số thành phần chính thay thế cho tập dữ liệu gốc trong [6], bài báo này đề xuất sử 
dụng 8 thành phần chính làm biến giải thích trong mô hình dự báo chỉ số thị trường chứng khoán VNINDEX. 
Số giá trị riêng: 25. 
Số thứ tự 
Giá trị 
riêng 
Chênh lệch giữa 2 
giá trị riêng 
Tỷ lệ trên tổng 
giá trị riêng 
Giá trị riêng 
tích lũy Tỷ lệ tích lũy 
1 8.992132 6.965577 0.3597 8.992132 0.3597 
2 2.026554 0.488001 0.0811 11.01869 0.4407 
3 1.538553 0.212911 0.0615 12.55724 0.5023 
4 1.325642 0.300307 0.0530 13.88288 0.5553 
5 1.025336 0.027213 0.0410 14.90822 0.5963 
6 0.998123 0.122096 0.0399 15.90634 0.6363 
7 0.876027 0.088688 0.0350 16.78237 0.6713 
8 0.787339 0.098074 0.0315 17.56971 0.7028 
9 0.689266 0.040528 0.0276 18.25897 0.7304 
10 0.648738 0.056668 0.0259 18.90771 0.7563 
11 0.592070 0.021553 0.0237 19.49978 0.7800 
12 0.570516 0.019259 0.0228 20.07030 0.8028 
13 0.551257 0.021945 0.0221 20.62155 0.8249 
14 0.529312 0.075979 0.0212 21.15087 0.8460 
15 0.453333 0.017841 0.0181 21.60420 0.8642 
16 0.435492 0.010644 0.0174 22.03969 0.8816 
17 0.424848 0.024578 0.0170 22.46454 0.8986 
18 0.400270 0.015855 0.0160 22.86481 0.9146 
19 0.384414 0.028449 0.0154 23.24922 0.9300 
20 0.355966 0.032409 0.0142 23.60519 0.9442 
21 0.323556 0.013374 0.0129 23.92874 0.9571 
22 0.310182 0.032247 0.0124 24.23893 0.9696 
23 0.277935 0.024296 0.0111 24.51686 0.9807 
24 0.253640 0.024141 0.0101 24.77050 0.9908 
25 0.229499 --- 0.0092 25.00000 1.0000 
Bảng 2. Các giá trị riêng và mức độ phản ánh sự thay đổi của tập dữ liệu gốc 
Bảng 3 bao gồm 8 véc tơ riêng tương ứng với 8 giá trị riêng đầu tiên. Mỗi véc tơ riêng trở thành trọng số của 
thành phần chính tương ứng. 
Thực hiện chuẩn hóa 25 biến dữ liệu giao dịch cổ phiếu (25 cột trong ma trận A) theo công thức (2) và thực hiện 
tính toán 8 thành phần chính PC1, PC2, , PC8 theo công thức (1) với các véc tơ trọng số được cho tương ứng với các 
thành phần chính (Bảng 3) ta sẽ nhận được 8 thành phần chính đầu tiên. Các thành phần khi đó đã được sắp thứ tự theo 
độ lớn của các giá trị riêng của chúng. 
Mã cổ 
phiếu PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 
DLG 0.23 -0.10 -0.18 -0.06 -0.23 0.30 -0.05 -0.02 
DXG 0.24 -0.04 -0.05 0.10 -0.15 0.09 0.00 0.28 
FLC 0.26 0.05 -0.04 -0.14 -0.03 -0.04 0.07 -0.31 
FPT 0.21 -0.01 0.19 0.32 -0.22 -0.02 0.19 -0.02 
HAG 0.21 0.15 0.22 0.09 0.09 -0.11 -0.33 0.17 
HAR 0.21 0.15 -0.03 -0.30 -0.14 -0.08 -0.47 -0.06 
Đỗ Văn Thành, Nguyễn Minh Hải 305 
Mã cổ 
phiếu PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 
HCM 0.23 0.05 0.11 0.36 0.03 -0.18 0.07 0.08 
HHS 0.18 -0.23 -0.28 0.06 -0.12 0.36 0.11 0.14 
HPG 0.20 -0.02 0.02 0.42 0.12 0.08 -0.11 0.02 
HQC 0.23 0.15 0.15 0.00 -0.30 0.07 -0.15 -0.28 
HT1 0.21 0.12 0.13 0.08 -0.13 -0.11 0.12 -0.53 
HVG 0.24 0.07 0.09 -0.18 0.36 -0.13 0.20 0.15 
IDI 0.23 0.13 0.00 -0.26 0.15 0.20 0.21 0.01 
MHC 0.21 -0.15 -0.06 -0.04 0.15 0.21 0.08 0.06 
PVD 0.24 -0.01 -0.03 -0.02 0.16 -0.01 0.06 0.00 
PXS 0.25 0.10 0.07 -0.17 0.21 -0.07 0.38 -0.06 
TCM 0.24 -0.06 0.11 0.20 -0.03 -0.24 0.11 0.23 
TTF 0.22 -0.07 -0.14 0.14 0.00 0.18 -0.30 0.16 
VHG 0.24 -0.03 -0.08 -0.36 0.17 0.04 -0.17 0.12 
BMC -0.08 0.52 -0.16 0.14 0.04 0.24 0.09 0.11 
CLG -0.04 0.18 0.51 -0.23 -0.25 -0.01 0.01 0.46 
LCM -0.04 0.49 0.17 0.06 0.02 0.43 -0.06 -0.08 
PNJ -0.09 -0.13 0.33 0.17 0.59 0.28 -0.25 -0.17 
VMD -0.09 -0.26 0.40 -0.08 -0.18 0.42 0.27 -0.01 
VPK -0.09 0.40 -0.34 0.11 0.04 0.00 0.19 0.13 
Bảng 3. Các véc tơ riêng tương ứng với 8 giá trị riêng đầu tiên 
Bƣớc 3: Xây dựng mô hình dự báo tần suất cao 
Thực hiện kiểm định Dickey – Fuller tăng cường về nghiệm đơn vị của biến VNINDEX và các thành phần 
chính ta thấy VNINDEX dừng sai phân bậc 1, còn tất các các thành phần chính PC1, PC2,, PC8 đều là chuỗi dừng. 
Do đó ta có thể hồi qui sai phân bậc 1 của VNINDEX theo 8 thành phần chính đầu tiên. 
 Chia tập số gốc thành 2 tập, tập thứ nhất gồm dữ liệu giao dịch từ các ngày 04/1/2010 đến 22/4/2016, tức có 
1567 quan sát, tập thứ 2 gồm dữ liệu giao dịch của các ngày từ 25/4/2016 đến các ngày 05/5/2016, gồm 7 quan sát. 
Thực hiện quá trình lặp phép hồi qui VNINDEX theo các biến PC1, PC2, , PC8 trên tập dữ liệu thứ nhất dựa 
theo công thức (3) bằng cách loại trừ dần các biến mà hệ số ước lượng của nó không có ý nghĩa thông kê, ta nhận được 
phương trình ước lượng sau: 
 Biến phụ thuộc D(VNINDEX) 
 Số quan sát: 1556 (sau khi điều chỉnh) 
Biến Hệ số Sai số chuẩn Mức ý nghĩa 
D(VNINDEX(-1)) 0.270726 0.025290 *** 
D(VNINDEX(-2)) -0.077034 0.026149 *** 
D(VNINDEX(-3)) 0.070167 0.026060 *** 
D(VNINDEX(-4)) -0.073430 0.024966 *** 
PC1(-2) -4.00E-09 2.49E-09 * 
PC2 5.62E-08 1.99E-08 *** 
PC2(-2) -3.79E-08 1.74E-08 ** 
PC3 6.21E-08 1.66E-08 *** 
PC3(-5) -5.22E-08 1.50E-08 *** 
PC6 7.06E-08 1.67E-08 *** 
PC6(-5) -5.10E-08 1.66E-08 *** 
 R
2
 = 0.11; Thống kê Durbin – Watson: 1.99477; 
Bảng 4. Phương trình ước lượng (hay mô hình dự báo) VNINDEX theo các thành phần chính 
Các ký hiệu: *, ** và *** trong Cột 4 (Bảng 4) tương ứng là các mức ý nghĩa thống kê dưới 10%, 5% và 1%. 
306 MÔ HÌNH DỰ BÁO TẦN SUẤT CAO ĐỐI VỚI CHỈ SỐ THỊ TRƯỜNG CHỨNG KHOÁN 
Phương trình ước lượng (hay mô hình dự báo) dưới dạng tường minh có dạng: 
 D(VNINDEX) = 0.271*D(VNINDEX(-1)) - 0.077*D(VNINDEX(-2)) + 0.070*D(VNINDEX(-3)) - 
0.073*D(VNINDEX(-4)) - 3.995*PC1(-2) + 5.625e-08*PC2 - 3.793e-08*PC2(-2) + 6.208e-08*PC3 - 5.218e-
08*PC3(-5) + 7.059e-08*PC6 - 5.101e-08*PC6(-5) 
Thực hiện các kiểm định Ramsey về tính ổn định của mô hình, kiểm định Jarque-Bera về phần dư có phân phối 
chuẩn và có kỳ vọng bằng 0, kiểm định Breusch-Godfrey về không có hiện tượng nội sinh phần dư và phần dư không 
tự tương quan, kiểm định Breusch-Pagan [14] về phương sai phần dư không đổi ta nhận được các kiểm định đều thỏa 
mãn. 
Đánh giá chất lượng dự báo của mô hình bằng cách sử dụng mô hình được xây dựng để dự báo chỉ số 
VNINDEX ở 7 phiên giao dịch tiếp theo. 
Giá trị của chỉ số VNINDEX thực tế và kết quả dự báo chỉ số này bằng sử dụng mô hình dự báo được trình bày 
trong Bảng 5. Phần trăm sai số tuyệt đối nói chung là khá nhỏ dưới 1%, trừ thứ 2 ngày 25/04/2016, phần trăm sai số 
tuyệt đối là trên 1%, nó thể hiện trong những ngày nghỉ cuối tuần có thể đã có những thông tin không tích cực đến thị 
trường chứng khoán và đã tác động xấu tới tâm lý, niềm tin thị trường của các nhà đầu tư. 
Thứ Ngày VNINDEX VNINDEXF % sai số 
Thứ 2 25/04/2016 596.60 586.84 -1.63 
Thứ 3 26/04/2016 594.35 599.70 0.90 
Thứ 4 27/04/2016 596.60 594.02 -0.43 
Thứ 5 28/04/2016 593.65 597.10 0.58 
Thứ 6 29/04/2016 595.45 592.16 -0.55 
Thứ 4 04/05/2016 597.75 597.52 -0.04 
Thứ 5 05/05/2016 602.15 600.47 -0.28 
Bảng 5. So sánh kết quả dự báo bằng mô hình với số liệu thực tế 
V. KẾT LUẬN 
Bài báo này trình bày một cách khá tóm tắt phương pháp xây dựng mô hình dự báo chỉ số thị trường chứng 
khoán bằng kết hợp sử dụng phương pháp hồi qui nhiều biến và kỹ thuật PCA trên tập dữ liệu gốc để tạo ra một số biến 
mới thay thế các biến trong tập dữ liệu này làm biến giải thích trong mô hình hồi qui nhiều biến. 
Thực hành phương pháp trên tập số liệu thực tế của sàn giao dịch chứng khoán Thành phố Hồ Chí Minh cho 
thấy mô hình dự báo có độ chính xác khá cao, mặc dù các thành phần chính được sử dụng trong xây dựng mô hình chỉ 
phản ánh 70,2% sự thay đổi của tập dữ liệu gốc gồm 25 biến dữ liệu giao dịch cổ phiếu có hệ số tương quan mẫu cao 
với chỉ số thị trường chứng khoán của sàn giao dịch. 
Nếu tăng số lượng biến dữ liệu giao dịch cổ phiếu trong tập dữ liệu thay thế tập dữ liệu ban đầu hoặc tăng số 
thành phần chính để nó phản ánh được tỷ lệ % cao hơn sự thay đổi của tập dữ liệu gốc thì chất lượng dự báo bằng sử 
dụng mô hình sẽ được cải thiện hơn. 
Phương pháp dự báo chỉ số thị trường chứng khoán trong bài báo này có thể được ứng dụng để dự báo nhiều 
sự kiện kinh tế - xã hội khác trong đó nhất là dự báo các chỉ tiêu kinh tế vĩ mô. 
TÀI LIỆU THAM KHẢO 
[1] Andrei Roudoi (2009), “Short-term forecasting of key indicators of the German economy”, in The Making of National Economic 
Forecasts, Edited by Lawrence R. Klein, Published by Edward Elgar, Cheltenham, UK • Northampton, MA, USA, pp. 121-148. 
[2] Carol Anne Hargreaves, Chandrika Kadirvel Mani (2015), “The Selection of Winning Stocks Using Principal Component 
Analysis”, American Journal of Marketing Research, Vol. 1, No. 3, 2015, pp. 183-188. 
[3] Đỗ Văn Thành và Nguyễn Minh Hải (2016), “Phân tích và dự báo chỉ số thị trường chứng khoán bằng sử dụng chỉ số báo trước 
“, Báo cáo Hội nghị FAIR, 2015, Cần Thơ, 04/8 – 5/8/2016, 8 trang. 
[4] Lawrence R. Klein (2009), “Background to national economic forecasts and the high-frequency model of the USA”, in The 
Making of National Economic Forecasts, Edited by Lawrence R. Klein, Published by Edward Elgar, Cheltenham, UK • 
Northampton, MA, USA, pp.1-26. 
[5] Lawrence R. Klein, “Background to national economic forecasts and the high-frequency model of the USA”, in The Making of 
National Economic Forecasts, Edited by Lawrence R. Klein, Published by Edward Elgar, Cheltenham, UK • Northampton, MA, 
USA, 2009, 403 pages. 
[6] Lindsay I Smith (2002), A tutorial on Principal Components Analysis. 
[7] Mbeledogu, N. N., Odoh, M., Umeh, M.N. (2012). “Stock feature extraction using Principle Component Analysis”. International 
Conference on Computer Technology and Science. IACSIT Press, Singapore DOI: 10.7763/IPCSIT, 2012, V47, 44. 
[8] Graham E., Granger C.W.J., Timmerman A. (2006), Hanbook of Economic Forecasting, Volume 1, Elsevier BV, 2006, 933 p. 
Đỗ Văn Thành, Nguyễn Minh Hải 307 
[9] Preethi, G. and Santhi, B.: “Stock Market Forecasting Techniques: A Survey”, Journal of theoretical and Applied Information 
technology, Vol 46, No 1, 2012, pp. 24-30. 
[10] Yacine A¨ıt-Sahalia and Dacheng Xiu, “Principal Component Analysis of High Frequency Data”, Working paper, Princeton 
University and University of Chicago, 47 pages, March 2015. 
[11] Yoshihisa Inada (2009), “A high-frequency forecasting model and its application to the Japanese economy”, in The Making of 
National Economic Forecasts, Edited by Lawrence R. Klein, Published by Edward Elgar, Cheltenham, UK • Northampton, MA, 
USA, 172-197. 
[12] Vladimir Eskin and Mikhail Gusev (2009), “High-frequency forecasting model for the Russian economy, in The Making of 
National Economic Forecasts, Edited by Lawrence R. Klein, Published by Edward Elgar, Cheltenham, UK • Northampton, MA, 
USA, pp. 93-120. 
[13] Wang, Z., Sun, Y., Stockli, P. (2014). “Functional Principal Components Analysis of Shanghai Stock Exchange 50 Index”. 
Discrete Dynamics in Nature and Society Volume 2014 (2014), Article ID 365204, 7 pages. 
[14] Wang Yanshan, In-Chan Choi. (2013).” Market Index and stock price direction prediction using Machine Learning Techniques: 
An empirical study on the KOSPI and HSI”. Science Direct, pp. 1-13. 
[15] William H. Greene, “Economic Analysis”, New York University, Seventh Edition, Prentice Hall, 2012. 
[16] www.eviews.com. 
HIGH-FREQUENCY FORECAST MODEL FOR STOCK MARKET INDEX 
Thanh Do Van and Hai Nguyen Minh
ABSTRACT — The paper proposed a methodology of combining techniques of multivariate regression and principal component 
analysis (PCA) on the stocks listed on a stock exchange and had high pattern correlations with the stock market index of this stock 
exchange to build a forecast model of stock market index. The practising to build forecast model of stock market index is 
implemented on real data from early 2010 to the present of Ho Chi Minh City’s Stock Exchange. The forecasted results using the 
built model show good prospects of the proposed methodology for building forecast models of stock market index as well as others 
socio-economic indicators.
File đính kèm:
mo_hinh_du_bao_tan_suat_cao_doi_voi_chi_so_thi_truong_chung.pdf