Chọn mô hình tốt nhất trong thống kê Bayes mờ và ứng dụng trong phân tích tài chính

TÓM TẮT

Trong phân tích tài chính, thông thường

người ta chỉ sử dụng giá đóng cửa và lựa chọn

phân phối của mô hình là phân phối chuẩn.

Tuy nhiên, chứng khoán biến động được ghi

nhận thông qua bộ bốn giá trị đó là các giá trị

giá mở cửa, giá cao nhất, giá thấp nhất và giá

đóng cửa. Do đó, chúng tôi sử dụng thêm giá

cao nhất và giá thấp nhất nhằm cung cấp thêm

thông tin với hy vọng đưa ra kết quả chính xác

hơn. Như vậy, bộ dữ liệu sẽ dao động trong một

khoảng biến động chứ không phải là một giá

trị, tức là dữ liệu dưới dạng số mờ. Và hơn

nữa, giả định một bộ dữ liệu tuân theo phân

phối chuẩn không phải lúc nào cũng thỏa mãn.

Mặt khác, việc kiểm định một dữ liệu có tuân

theo phân phối chuẩn hay không thông thường

theo kiểm định Jarque Bera hoặc kiểm định Chi

bình phương. Để thực hiện các kiểm đinh này

cần phải dựa vào giá trị p-value, nhưng hiện

nay có rất nhiều tranh cãi xung quanh việc sử

dụng giá trị p-value. Do đó, trong bài báo này

chúng tôi sử dụng ước lượng điểm Bayes mờ

cho dự báo nhằm lựa chọn phân phối phù hợp

nhất. Kết quả khi phân tích 9 mã cổ phiếu có

giá trị vốn hóa lớn tại thị trường chứng khoán

Việt Nam trong khoảng thời gian từ thời điểm

niêm yết đến ngày 06/11/2015 thấy rằng có một

số mã có các phân phối khác phù hợp hơn phân

phối chuẩn, một số mã cổ phiếu phù hợp với

phân phối chuẩn

pdf 12 trang phuongnguyen 3100
Bạn đang xem tài liệu "Chọn mô hình tốt nhất trong thống kê Bayes mờ và ứng dụng trong phân tích tài chính", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Chọn mô hình tốt nhất trong thống kê Bayes mờ và ứng dụng trong phân tích tài chính

Chọn mô hình tốt nhất trong thống kê Bayes mờ và ứng dụng trong phân tích tài chính
SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q2 - 2017 
Trang 144 
Chọn mô hình tốt nhất trong thống kê Bayes 
mờ và ứng dụng trong phân tích tài chính 
 Phạm Hoàng Uyên 
 Lê Thanh Hoa 
 Nguyễn Đình Thiên 
Trường Đại học Kinh tế - Luật, ĐHQG HCM - Email: hoalt@uel.edu.vn 
(Bài nhận ngày 22 tháng 12 năm 2016, hoàn chỉnh sửa chữa ngày 9 tháng 02 năm 2017) 
TÓM TẮT 
Trong phân tích tài chính, thông thường 
người ta chỉ sử dụng giá đóng cửa và lựa chọn 
phân phối của mô hình là phân phối chuẩn. 
Tuy nhiên, chứng khoán biến động được ghi 
nhận thông qua bộ bốn giá trị đó là các giá trị 
giá mở cửa, giá cao nhất, giá thấp nhất và giá 
đóng cửa. Do đó, chúng tôi sử dụng thêm giá 
cao nhất và giá thấp nhất nhằm cung cấp thêm 
thông tin với hy vọng đưa ra kết quả chính xác 
hơn. Như vậy, bộ dữ liệu sẽ dao động trong một 
khoảng biến động chứ không phải là một giá 
trị, tức là dữ liệu dưới dạng số mờ. Và hơn 
nữa, giả định một bộ dữ liệu tuân theo phân 
phối chuẩn không phải lúc nào cũng thỏa mãn. 
Mặt khác, việc kiểm định một dữ liệu có tuân 
theo phân phối chuẩn hay không thông thường 
theo kiểm định Jarque Bera hoặc kiểm định Chi 
bình phương. Để thực hiện các kiểm đinh này 
cần phải dựa vào giá trị p-value, nhưng hiện 
nay có rất nhiều tranh cãi xung quanh việc sử 
dụng giá trị p-value. Do đó, trong bài báo này 
chúng tôi sử dụng ước lượng điểm Bayes mờ 
cho dự báo nhằm lựa chọn phân phối phù hợp 
nhất. Kết quả khi phân tích 9 mã cổ phiếu có 
giá trị vốn hóa lớn tại thị trường chứng khoán 
Việt Nam trong khoảng thời gian từ thời điểm 
niêm yết đến ngày 06/11/2015 thấy rằng có một 
số mã có các phân phối khác phù hợp hơn phân 
phối chuẩn, một số mã cổ phiếu phù hợp với 
phân phối chuẩn. 
Từ khóa: Kiểm tra mô hình Bayes, dữ liệu mờ, ước lượng điểm Bayes mờ, ứng dụng trong phân tích 
tài chính 
1. GIỚI THIỆU 
Việc thu thập dữ liệu không phải lúc nào 
cũng thu được dữ liệu rõ, các dữ liệu có thể 
không chính xác do sai số của máy móc cũng 
như của con người. Do đó, trên thực tế dữ liệu 
thu thập được trình bày dưới dạng số mờ. Các 
tính toán thống kê mô tả đối với số mờ như 
trung bình mẫu mờ, phương sai mẫu mờ, phân 
phối thực nghiệm của mẫu mờ... được trình bày 
chi tiết trong (Frühwirth - Schnatter, 1992) . 
Tương tự như vậy, bài toán kiểm định giả 
thuyết cho dữ liệu mờ được chỉ ra trong bài 
(Römer and Kandel, 1995). Thêm vào đó, trong 
bài (Römer and Kandel, 1995), các tác giả đã 
trình bày không mức ý nghĩa cho kiểm định 
phân phối xác suất mờ và kiểm định tham số 
mờ. Việc kết hợp giữa phương pháp thống kê 
và lý thuyết tập mờ là một xu hướng cần thiết 
của thời đại đã được chứng minh trong bài báo 
(Taheri, 2003). Chính vì vậy, sự mở rộng của lý 
TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q2 - 2017 
Trang 145 
thuyết mờ trong thống kê Bayes là một vấn đề 
quan trọng không chỉ trong lý thuyết mà còn 
trong thực hành, đặc biệt là trong phân tích tài 
chính. 
Thật sự, thống kê Bayes là rất hữu ích khi 
cỡ mẫu nhỏ. Không chỉ vậy thống kê Bayes 
còn thể hiện ưu điểm khi kết hợp giữa định lý 
Bayes và dữ liệu mờ (Viertl and Hule, 1991). 
Trong bài báo này, các tác giả đã phân tích 
phân phối hậu nghiệm mờ, miền biến thiên hậu 
nghiệm nhỏ nhất cũng như hàm mật độ dự báo 
mờ. Chẳng hạn như, nếu dữ liệu được chọn 
tuân theo phân phối mũ, nghiên cứu chọn phân 
phối tiên nghiệm dạng liên hợp là phân phối 
gamma thì phân phối hậu nghiệm là phân phối 
gamma. Việc tính toán miền biến thiên hậu 
nghiệm nhỏ nhất có thể được tính toán qua 
chương trình máy tính, nhằm ước lượng tham 
số  cần ước lượng. Ngoài ra, phương pháp 
Bayes về kiểm định giả thuyết mờ được trình 
bày trong (Taheri and Behboodian, 2001), đồ 
thị mờ, phân phối xác suất mờ, miền ước lượng 
mờ, kiểm định giả thuyết mờ... được trình bày 
trong (Wu, 2005), dự báo mờ và quyết định 
thống kê được tính toán trong (Viertl, 2006). 
Trong suy luận Bayes mờ của dữ liệu không 
chỉ từ dữ liệu mờ, mà nó còn có thể thông qua 
phân phối tiên nghiệm mờ, cụ thể là qua tham 
số tiên nghiệm mờ được chỉ ra trong bài báo 
(Frühwirth-Schnatter, 1993) . Bởi vậy, có hai 
loại thông tin mờ đó là dữ liệu mờ 
* * *
1 2, ,..., nx x x thông qua hàm hợp lý 
* * *
1 2( ; , ,..., )nl x x x và thông tin tiên nghiệm mờ 
*( )  trong không gian tham  , cũng được 
chỉ ra như (Viertl, 2006). 
Hầu hết các nghiên cứu trước đây hạn chế 
trong một tham số, xem (Wu, 2004a). Giả sử 
rằng ta có n thành phần, mỗi thành phần i 
được trình bày như một biến ngẫu nhiên 
Bernoulli iY , với xác suất xuất hiện tính chất 
cần xét là p . Khi đó, tổng của các biến ngẫu 
nhiên iY độc lập thỏa mãn tính chất cần xét ký 
hiệu là
1
n
i
i
X Y
  . Với phân phối xác suất của
X là phân phối nhị thức. Thông thường, 
người ta sử dụng phân phối tiên nghiệm liên 
hợp của p là phân phối beta. Khi đó, phân phối 
hậu nghiệm của p cũng là phân phối beta. Vì 
vậy, ước lượng điểm Bayes pˆ với hàm tổn 
thất sai số bình phương phụ thuộc vào cận trên 
và cận dưới của tham số tại mức cut . 
Do đó, trường hợp mở rộng cho nhiều tham 
số với phân phối chuẩn hay phân phối Weibull 
được chỉ ra trong (Huang et al., 2006). Với dữ 
liệu mẫu 1 2( , ,..., )nD x x x , hàm phân phối mật 
độ xác suất với dữ liệu thực tế đã xác định 
( | )f x  . Trong không gian tham số  , giả sử 
phân phối tiên nghiệm là ( )  thì phân phối 
hậu nghiệm của tham số  được xác định như 
sau 
1 2 1 2( | ) ( | , ,..., ) ( ) ( ; , ,..., ).n nD x x x l x x x      
 (1) 
Người ta thường sử dụng phân phối tiên 
nghiệm Jeffrey cho hai tham số của phân phối 
chuẩn. Còn đối với phân phối Weibull thì 
người ta sử dụng trường hợp phân phối tiên 
nghiệm đều. Tổng quát, trong bài báo (Huang 
et al., 2006), các tác giả hệ thống một phương 
pháp xác định hàm thành viên cho phân phối 
nhiều tham số bởi giải thuật di truyền và mạng 
nhân tạo. Mặc dù vậy, đây là một phương pháp 
khó để xác định khoảng ước lượng hoặc miền 
mật độ hậu nghiệm nhỏ nhất... 
Dữ liệu thực tế có thể được giả sử tuân theo 
một số phân phối, như phân phối mũ, phân phối 
Weibull, phân phối gamma và phân phối log 
chuẩn... Tương ứng với các phân phối trên các 
hàm mật độ xác suất, ước lượng tham số, tỷ lệ 
thành công, tỷ lệ thất bại đã được trình bày 
trong bài (Shafiq and Viertl, 2016). 
Thông thường, trong thống kê tần suất 
chúng ta thường giả định rằng dữ liệu xấp xỉ 
SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q2 - 2017 
Trang 146 
phân phối chuẩn cho bài toán ước lượng hoặc 
kiểm định giả thuyết. Ngược lại, đối với thống 
kê Bayes, các nghiên cứu (Jha et al., 2009), 
(Carlin and Chib, 1995), (Rigoux et al., 2014) 
đã chỉ ra rằng việc kiểm định dạng phân phối 
của dữ liệu là hết sức quan trọng bởi vì, chỉ khi 
có dạng phân phối của dữ liệu, ta mới định ra 
được phân phối tiên nghiệm cho tham số ước 
lượng; làm cơ sở tìm phân phối hậu nghiệm để 
sử dụng cho các tính toán tiếp theo. 
Khi đó, chúng ta sẽ sử dụng kiểm định phi 
tham số để kiểm tra dạng phân phối của dữ 
liệu. Việc kiểm tra phân phối của dữ liệu thông 
thường dựa vào giá trị p - value của thuật toán 
kiểm tra mô hình, hoặc sử dụng phương pháp 
mô phỏng Monte Carlo (simulated Monte Carlo 
hoặc Markov chain Monte Carlo). Nhưng hiện 
nay, đang có rất nhiều tranh cãi về việc sử dụng 
p-value có thể dẫn đến sai lầm trong việc đưa 
ra quyết định đối với bài toán kiểm định giả 
thuyết (Goodman, 2008), (van Helden, 2016)... 
Bên cạnh đó, khi sử dụng phương pháp mô 
phỏng Monte Carlo (Markov chain Monte 
Carlo), cỡ mẫu và tính ổn định của mô phỏng 
cũng cần được quan tâm đúng mức tạo nên giá 
trị của kết quả thu được. Do đó, chúng ta rất 
cần một phương pháp để tìm phân phối tốt nhất 
xấp xỉ bộ dữ liệu. 
Trong bài nghiên cứu này, chúng tôi dựa 
vào kết quả dự báo đúng cho từng dạng phân 
phối thông dụng, nếu phân phối nào có kết quả 
dự báo đúng cao nhất thì dữ liệu phù hợp với 
phân phối đó nhất. Sau đó, chúng tôi đưa ra 
một danh sách các phân phối thích hợp cho dữ 
liệu tài chính khi mà đặc thù của dữ liệu giá 
chứng khoán nhận giá trị dương và không ổn 
định và trình bày công thức Bayes tương ứng 
trong phần 2 của bài báo. 
Trong phần 3 của bài báo, chúng tôi trình 
bày các công thức ước lượng điểm Bayes cho 
dữ liệu mờ.Và cuối cùng trong phần 4, chúng 
tôi sử dụng dữ liệu thực tế về giá chứng khoán 
nhằm ước lượng cho các quan sát tiếp theo. Với 
mỗi trường hợp, chúng ta có thể kết luận phân 
phối tốt nhất phù hợp với các dữ liệu thực tế. 
Phần cuối cùng của bài báo là kết luận và 
hướng mở rộng. 
2. DANH SÁCH CÁC PHÂN PHỐI XÁC 
SUẤT SỬ DỤNG TRONG THỐNG KÊ 
BAYES VỚI DỮ LIỆU TÀI CHÍNH 
Đối với dữ liệu tài chính, cụ thể là giá 
chứng khoán, mỗi phiên khung thời gian quan 
sát luôn có 4 thông tin về giá: mở cửa, thấp 
nhất, cao nhất và đóng cửa. Trong bốn loại giá 
trên, giá đóng cửa là quan trọng nhất. Do đó, 
thông thường chúng ta chỉ sử dụng giá đóng 
cửa để phân tích cũng như dự báo cho giá đóng 
cửa phiên tiếp theo. 
Như vậy, chúng ta đã mất khá nhiều thông 
tin về giá cao nhất và giá thấp nhất, ví dụ như 
giá đóng cửa gần giá thấp nhất thì nhiều khả 
năng giá đóng cửa của phiên tiếp theo có thể có 
xu hướng giảm... Trong bài báo này, chúng tôi 
cố gắng sử dụng thêm thông tin từ các bộ giá 
chứng khoán này. 
Như đã đề cập ở phần trước, dữ liệu trong 
tài chính thường không ổn định do đó chúng ta 
sẽ chuyển hóa dữ liệu giữa giá thấp nhất và giá 
đóng cửa tại thời điểm (ngày) t có dạng như 
sau 
1
The lowest price ( )
( ) ;
 Closing price( )
t
low t
t
(2) 
trong đó 
1( )low t : là giá thấp nhất chuyển hóa tại thời 
điểm t; 
The lowest price ( )t : là giá thấp nhất tại thời 
điểm t; 
Closing price( )t : là giá đóng cửa tại thời 
điểm t. 
TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q2 - 2017 
Trang 147 
Và 
1
The highest price ( )
( ) ,
Closing price ( )
t
high t
t
 (3) 
trong đó 
1( )high t : là giá thấp nhất chuyển hóa tại 
thời điểm t; 
The highest price ( )t : là giá cao nhất tại 
thời điểm t; 
Closing price( )t : là giá đóng cửa tại thời 
điểm t. 
Rõ ràng, giá trị 1( )low t nằm trong khoảng 
(0,1] và giá trị 1( )high t nằm trong khoảng 
 1, c với hằng số c. Đối với dữ liệu trong tài 
chính, hằng số c thường không quá lớn, đối với 
thị trường chứng khoán Việt Nam, trong giai 
đoạn quan sát, hằng số c lớn nhất nhận giá trị 
1.4196. 
Suy ra giá trị thấp nhất chuyển hóa 1( )low t 
và giá cao nhất chuyển hóa 1( )high t của dữ liệu 
phụ thuộc vào thời gian là ổn định. Vì vậy, 
chúng ta có hai bộ dữ liệu về giá thấp nhất 
chuyển hóa 1low và giá cao nhất chuyển hóa
1high , như là một số mờ tại cut với 0 . Ta 
dễ dàng nhận thấy, số mờ này luôn chứa giá trị 
1. 
Giả sử rằng mẫu ngẫu nhiên 1 2, ,..., nx x x 
bao gồm các quan sát độc lập và cùng phân 
phối. Tuy nhiên, trong thống kê Bayes, chúng 
ta chỉ cần các quan sát là thay đổi vị trí được và 
ổn định. Như vậy, các dữ liệu giá chuyển hóa 
chứng khoán theo thời gian thỏa mãn điều kiện 
và nhận giá trị dương nên chúng ta sẽ liệt kê 
một số phân phối phù hợp dưới đây: 
2.1. Phân phối chuẩn và đã biết phương 
sai 2 của tổng thể 
Giả sử hàm hợp lý là phân phối chuẩn
2( , )N   . Khi đó, chúng ta chọn phân phối 
tiên nghiệm liên hợp cho trung bình  là phân 
phối chuẩn 2
0 0( ) ~ ( , )N    . Phân phối hậu 
nghiệm cho trung bình cũng là phân phối chuẩn 
2
1 2( | , ,..., ) ~ ( , )nx x x N    xem (Bolstad, 
2013) và (Gelman et al., 2014), được xác định 
bởi công thức 
0
2 2
0
2 2 2
0
2 2
0
1 1 1
; .
1 1
n
n
n
 
 

  
 
 (4) 
Khi đó, trung bình của phân phối hậu 
nghiệm là: 
0
2 2
0
2 2
0
.
1 1N
n
n
 
 

 
 (5) 
2.2. Phân phối đều 
Giả sử hàm hợp lý là phân phối đều 
(0, )U , khi đó chúng ta chọn phân phối tiên 
nghiệm liên hợp cho tham số  là phân phối 
Pareto ( ) ~ ( , )mx k  P , với 1 2, ,..., nx x x sao 
cho ,i mx x 1,i n và 1k . 
Do đó, phân phối hậu nghiệm cho tham số 
 là phân phối Pareto 
1 2 1 2( | , ,..., ) ~ ( { , ,..., , }, )n m n mx x x x max x x x x k k n  P
(6) 
Khi đó, trung bình của phân phối hậu 
nghiệm cho 1k là 
1 2( ) ( { , ,..., , }) .
1 1
m n mk x k n max x x x x
k k n
 
U
 (7) 
2.3. Phân phối Pareto với trường hợp đã 
biết giá trị nhỏ nhất mx 
Giả sử hàm hợp lý là hàm Pareto ( , )mx kP , 
thì chúng ta chọn hàm phân phối tiên nghiệm 
liên hợp cho tham số hình dạng k là phân phối 
gamma ( ) ~ ( , )k G Chúng ta có phân phối 
hậu nghiệm cho tham số hình dạng k là phân 
phối gamma 
SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q2 - 2017 
Trang 148 
1 2( | , ,..., ) ~nk x x x 
1
,
n
i
mi
x
n ln
x
  
G . (8) 
Khi đó, trung bình của phân phối hậu 
nghiệm được xác đinh bởi công thức 
1
.
n
i
mi
n
x
ln
x




P
(9) 
2.4. Phân phối Weibull với đã biết tham 
số hình dạng  
Giả sử hàm hợp lý tuân theo phân phối 
Weibull ( , ) W , khi đó chúng ta chọn phân 
phối tiên nghiệm liên hợp cho tham số tỷ lệ  
là hàm gamma ngược ( ) ~ ( , )a b  I G . Do đó, 
chúng ta sẽ có phân phối hậu nghiệm cho tham 
số tỷ lệ  là phân phối gamma ngược 
1 2
1
( | , ,..., ) ~ ( , )
n
n i
i
x x x a a n b b x 
 I G
 (10) 
Trung bình của phân phối hậu nghiệm được 
xác định bởi công thức 
1 .
1 1
n
i
i
b x
b
a a n

 

W
 (11) 
2.5. Phân phối log chuẩn với trường hợp 
đã biết độ chính xác 
Giả sử hàm hợp lý có dạng log chuẩn
( ,1/ ) LN . Chúng ta chọn phân phối tiên 
nghiệm liên hợp cho tham số  là phân phối 
chuẩn 0 0( ) ~ ( ,1/ )N    . Khi đó, phân phối 
hậu nghiệm cho  là phân phối chuẩn 
0 0
1
1 2
0 0
( )
1 1
( | , ,..., ) ~ , .
n
i
i
n
ln x
x x x N
n n
  
  
    

 (12) 
Trung bình của phân phối hậu nghiệm được 
xác định bởi công thức 
0 0
1
0
( )
.
n
i
i
ln x
n
  
 
 

LN (13) 
2.6. Phân phối mũ 
Giả sử rằng hàm hợp lý có dạng phân phối 
mũ ( )E , chúng ta chon hàm phân phối tiên 
nghiệm liên hợp cho tham số  là phân phối 
gamma ( ) ~ ( , )  G . Do đó, chúng ta có 
phân phối hậu nghiệm cho tham số  cũng là 
phân phối gamma 
1 2
1
( | , ,..., ) ~ ,
n
n i
i
x x x n x   
G
(14) 
Trung bình của phân phối hậu nghiệm được 
xác định bởi công thức 
1
.
n
i
i
n
x



 
E (15) 
2.7. Phân phối gamma với điều kiện đã 
biết tham số hình dạng 
Nếu dữ liệu tuân theo phân phối gamma 
( , ) G , chúng ta sẽ chọn phân phối tiên 
nghiệm liên hợp cho tham số tỷ lệ  là phân 
phối gamma 0 0( ) ~ ( , )  G . Khi đó, phân 
phối hậu nghiệm cho tham số tỷ lệ  cũng là 
phân phối gamma 
1 2 0 0
1
( | , ,..., ) ~ ,
n
n i
i
x x x n x   
G
(16) 
Trung bình của phân phối hậu nghiệm được 
xác định bởi công thức 
0
0
1
.
n
i
i
n
x



 
G
 (17) 
2.8. Phân phối gamma ngược với điều 
kiện đã biết tham số hình dạng a 
Giả sử hàm hợp lý có dạng phân phối 
gamma ngược ( , )a bI G , chúng ta chọn hàm 
TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q2 ... à ngược lại thì dự báo sai. 
Trong bài báo này, chúng tôi muốn kiểm tra 
một dữ liệu tuân theo phân phối nào là tốt nhất. 
Phân phối nào tốt nhất thì có nhiều giá trị quan 
sát thật rơi vào khoảng dự báo. Chúng tôi cố 
gắng minh họa bằng dữ liệu thực nghiệm. 
SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q2 - 2017 
Trang 150 
4. ỨNG DỤNG ƯỚC LƯỢNG ĐIỂM 
BAYES CHO DỮ LIỆU MỜ TẠI MỨC 
cut =0 
Chúng ta sử dụng tập dữ liệu 1( )low t và 
1( )high t tương ứng với cận dưới và cận trên 
tại mức ,cut  =0. Sử dụng kỹ thuật tương tự 
trong (Wu, 2004b) cho ước lượng điểm Bayes 
mờ thích hợp với mỗi phân phối. 
4.1. Dữ liệu thực nghiệm 
Dữ liệu thực nghiệm được sử dụng là dữ 
liệu giá chứng khoán của sàn giao dịch chứng 
khoán Hà Nội, Việt Nam bao gồm 9 mã cổ 
phiếu. Các mã cổ phiếu này từ thời điểm bắt 
đầu lên sàn đến ngày 06/11/2015. Chúng tôi 
chọn 9 mã cổ phiếu này dựa vào giá trị của các 
mã cổ phiếu tại ngày 06/11/2015 theo bảng 1. 
Các cổ phiếu này có tính thanh khoản cao, điều 
này giúp cho giá cổ phiếu khó bị “làm giá” và 
dữ liệu sẽ tốt hơn. 
Bảng 1. Các mã cổ phiếu quan tâm 
Mã cổ phiếu ’DXP’ ’HAT’ ’MAS’ ’NTP’ ’SLS’ ’TCT’ ’VCS’ ’VNF’ ’WCS’ 
Ngày niêm yết 
(Ngày/ 
26 29 10 11 16 06 17 01 17 
Tháng/ 12 10 9 12 10 12 12 12 9 
Năm) 2005 2010 2009 2006 2012 2006 2007 2010 2010 
Tổng số quan sát dự 
báo 
2222 711 707 2096 406 2126 1801 934 1004 
4.2. Phân tích dữ liệu 
Trong bảng 2 thể hiện kết quả dự báo dựa 
trên danh sách các phân phối và tính toán của 
tác giả. 
Bảng 2. Tỷ lệ dự báo đúng dựa trên ước lượng điểm Bayes cho dữ liệu mờ 
Phân phối và 
mã cổ phiếu 
’DXP’ ’HAT’ ’MAS’ ’NTP’ ’SLS’ ’TCT’ ’VCS’ ’VNF’ ’WCS’ 
Chuẩn 0.9743 0.9789 0.9929 0.9690 0.9926 0.9708 0.9611 0.9636 0.9751 
Đều 0.9167 0.8636 0.8571 0.8726 0.9704 0.8960 0.8978 0.9111 0.8337 
Pareto 0.9770 0.8833 0.9321 0.9380 0.9803 0.9600 0.9672 0.9550 0.8815 
Weibull 0.9721 0.8861 0.9321 0.9380 0.9828 0.9633 0.9645 0.9540 0.8855 
Log chuẩn 0.9779 0.8790 0.9321 0.9399 0.9852 0.9610 0.9622 0.9529 0.8865 
Mũ 0.9779 0.8833 0.9321 0.9389 0.9803 0.9610 0.9656 0.9550 0.8825 
Gamma 0.3240 0.8270 0.8416 0.2171 0.6995 0.2855 0.3037 0.4989 0.4303 
Gamma ngược 0.3240 0.8270 0.8416 0.2166 0.6995 0.2855 0.3032 0.4989 0.4303 
Dựa vào bảng 2, chúng ta thấy rằng có một 
điều đặc biệt là các mã cổ phiếu HAT, MAS 
và SLS hầu như xấp xỉ đối với phân phối nào 
cũng đều cho kết quả dự báo tốt, mặc dù phân 
phối chuẩn vẫn là phân phối tốt nhất. Cụ thể là 
các mức dự báo đúng trên 80 phần trăm cho 
HAT và MAS, đúng trên 70 phần trăm cho mã 
cổ phiếu SLS. Còn đối với dự báo tốt nhất cho 
phân phối chuẩn tương ứng với ba mã cổ phiếu 
này có tỷ lệ dự báo đúng lần lượt là mã cổ 
phiếu HAT là 0.978, mã cổ phiếu MAS là 
0.993 và mã cổ phiếu SLS là 0.993. 
TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q2 - 2017 
Trang 151 
Tiếp theo đó, chúng ta thấy rằng các mã cổ 
phiếu DXP, NTP, TCT, VCS, VNF và WCS 
phù hợp với các phân phối chuẩn, đều, Pareto, 
Weibull, log chuẩn và phân phối mũ hơn phân 
phối gamma và gamma ngược, do tỷ lệ đúng 
cao hơn. Cụ thể là với mã cổ phiếu DXP có 
phân phối đúng tốt nhất là phân phối mũ và 
phân phôi log chuẩn với tỷ lệ dự báo đúng xấp 
xỉ 0.978. Các phân phối xấp xỉ đúng tiếp theo 
phù hợp với mã cổ phiếu DXP này là phân phối 
Pareto với tỷ lệ dự báo đúng là 0.977, phân 
phối chuẩn với tỷ lệ dự báo đúng là 0.974, phân 
phối Weibull với tỷ lệ dự báo đúng là 0.972 và 
phân phối đều với tỷ lệ dự báo đúng là 0.917. 
Tuy nhiên, khi chuyển qua xấp xỉ mã cổ phiếu 
DXP dưới dạng phân phối gamma hay phân 
phối gamma ngược thì tỷ lệ dự báo đúng chỉ 
xuống còn 0.324. 
Còn đối với các mã cổ phiếu NTP, TCT, 
VNF và WCS thì phân phối tốt nhất là phân 
phối chuẩn. Điều này phù hợp với hầu hết các 
nghiên cứu về giá chứng khoán hiện nay, khi 
họ coi phân phối xấp xỉ tốt nhất cho dữ liệu giá 
chứng khoán. 
Vậy có một câu hỏi đặt ra rằng, phải chăng 
vì khoảng dự báo quá rộng nên dự báo thì chắc 
chắn đúng. Do đó, chúng tôi sẽ hiệu chỉnh lại 
độ dài khoảng dự báo đúng. 
4.3. Hiệu chỉnh khoảng dự báo 
Trong thị trường chứng khoán Việt Nam, 
biên độ dao động đến 20 phần trăm cho hầu 
hết các mã cổ phiếu (trừ hai mã cổ phiếu 'VCS' 
dao động đến 35.29 phần trăm và 'VNF' dao 
động đến 25.74 phần trăm). Do đó, đầu tiên 
chúng ta thử thu hẹp miền dự báo trong khoảng 
10 phần trăm. Kết quả dự báo đúng cho phiên 
giao dịch tiếp theo với miền dự báo có độ dài 
10 phần trăm được tác giả thể hiện trong bảng 
3. 
Bảng 3. Miền dự báo 10 phần trăm 
Phân phối và 
các mã cổ phiếu 
’DXP’ ’HAT’ ’MAS’ ’NTP’ ’SLS’ ’TCT’ ’VCS’ ’VNF’ ’WCS’ 
Chuẩn 0.9001 0.5809 0.5827 0.8698 0.7931 0.8791 0.7512 0.7334 0.7610 
Đều 0.7912 0.4501 0.5573 0.7228 0.6650 0.8043 0.6219 0.5557 0.5000 
Pareto 0.9181 0.5724 0.5997 0.8440 0.8227 0.9280 0.7640 0.7430 0.6922 
Weibull 0.9181 0.5724 0.5997 0.8440 0.8227 0.9285 0.7618 0.7420 0.6873 
Log chuẩn 0.9190 0.5724 0.5997 0.8445 0.8227 0.9280 0.7618 0.7420 0.6892 
Mũ 0.9185 0.5724 0.5997 0.8449 0.8227 0.9276 0.7607 0.7388 0.6902 
Gamma 0.1566 0.4613 0.3607 0.0654 0.3079 0.1317 0.1321 0.1991 0.2151 
Gamma ngược 0.1566 0.4613 0.3607 0.0654 0.3079 0.1317 0.1321 0.1991 0.2151 
Theo kết quả của bảng 3, nếu chúng ta thu 
hẹp miền dự báo xuống còn 10 phần trăm thì 
các mã cổ phiếu DXP, NTP, SLS, TCT và 
VCS hầu như có tỷ lệ dự báo đúng không giảm 
nhiều so với khoảng dự báo gốc ban đầu. Tuy 
nhiên, hai mã cổ phiếu HAT và MAS có giảm 
tỷ lệ dự báo đúng một cách tương đối lớn, với 
mức giảm khoảng 40 phần trăm. Điều này có 
nghĩa là khoảng tin cậy của hai mã cổ phiếu 
HAT và MAS lớn, vì vậy khoảng biến động 
này dài nên ít có ý nghĩa trong thực tế. 
Trong khi đó các mã cổ phiếu DXP, SLS, 
TCT, VCS và VNF thích hợp với phân phối 
Pareto, Weibull, log chuẩn, mũ hơn phân phối 
chuẩn thì hai mã cổ phiếu NTP và WSS xấp xỉ 
SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q2 - 2017 
Trang 152 
phân phối chuẩn tốt hơn các phân phối khác. 
Dựa vào tỷ lệ dự báo đúng trong bảng 3, ta 
thấy với miền dự báo với khoảng sai lêch 10 
phần trăm vẫn còn ở mức xác suất tương đối 
cao, khoảng 70 đến 80 phần trăm. 
Như vậy, đây là một tín hiệu tốt cho ứng 
dụng của thống kê Bayes mờ trong phân tích tài 
chính. 
Bảng 4. Miền dự báo 5 phần trăm 
Phân 
phối và 
các mã 
cổ phiếu 
’DXP’ ’HAT’ ’MAS’ ’NTP’ ’SLS’ ’TCT’ ’VCS’ ’VNF’ ’WCS’ 
Chuẩn 0.6571 0.3235 0.4286 0.6398 0.5419 0.6308 0.4770 0.4722 0.4811 
Đều 0.4982 0.2293 0.3479 0.4046 0.3300 0.4581 0.3137 0.3062 0.2580 
Pareto 0.6760 0.3882 0.4668 0.6307 0.6502 0.6458 0.5097 0.5300 0.4771 
Weibull 0.6751 0.3882 0.4668 0.6312 0.6502 0.6468 0.5108 0.5268 0.4771 
Log 
chuẩn 
0.6742 0.3882 0.4668 0.6360 0.6478 0.6491 0.5097 0.5321 0.4811 
Mũ 0.6742 0.3882 0.4668 0.6369 0.6478 0.6496 0.5092 0.5332 0.4811 
Gamma 0.1071 0.2968 0.2702 0.0344 0.2365 0.0626 0.0772 0.1413 0.1434 
Gamma 
ngược 
0.1071 0.2968 0.2702 0.0344 0.2365 0.0626 0.0772 0.1413 0.1434 
Nguồn: Kết quả nghiên cứu 
Nếu chúng ta thu hẹp miền dự báo với 
khoảng biến động 5 phần trăm, kết quả được 
xác định trong bảng 4. Kết quả bây giờ không 
còn cao nữa. Tuy nhiên với khoảng biến động 
quá bé, miền dự báo chỉ còn khoảng 1/ 3 hoặc 
1/ 4 so với khoảng biến động cho phép. Do 
đó, chỉ các mã cổ phiếu DXP, NTP, SLS và 
TCT có tỷ lệ dự báo đúng là chấp nhận được, 
tức là ở khoảng trên 60 phần trăm. Tức là, các 
mã cổ phiếu này có xấp xỉ theo các phân phối 
Pareto, Weibull, log chuẩn, mũ thích hợp hơn 
so với phân phối chuẩn, cũng như phân phối 
đều, gamma và gamma ngược. Kết quả tương 
tự đối với các mã cổ phiếu TCT và SLS. Tuy 
nhiên, mã cổ phiếu NTP phù hợp với phân phối 
chuẩn hơn các phân phối khác. 
5. KẾT LUẬN 
Trong thực hành về phân tích dữ liệu theo 
thống kê Bayes, việc kiểm tra xem dữ liệu phù 
hợp với phân phối nào nhất là một vấn đề hết 
sức quan trọng. Có một số cách để kiểm tra mô 
hình tương tự như kiểm định chi square trong 
thống kê tần suất hoặc mô phỏng Monte Carlo. 
Tuy nhiên, cách kiểm tra mô hình này lại dựa 
vào giá trị p-value. Trong khi việc sử dụng giá 
trị p-value đang gây nhiều tranh cãi, nhóm tác 
giả cũng đã có một nghiên cứu liên quan đến 
vấn đề này trong bài báo (Nguyen et al., 2016). 
Còn nếu phương pháp sử dụng mô phỏng 
Monte Carlo cho phân phối hậu nghiệm, thì câu 
hỏi đặt ra là số lượng mô phỏng là bao nhiêu, 
đến khi nào thì ổn định... nhất là khi áp dụng 
trong tài chính với nhiều bộ dữ liệu, mỗi bộ dữ 
liệu bao gồm cả ngàn quan sát theo thời gian. 
Đặc biệt, trong trường hợp dữ liệu mờ việc 
kiểm tra mô hình của dữ liệu lại càng quan 
trọng. Do đó, trong bài báo này chúng tôi muốn 
lấy đúng thực tiễn để chứng minh cho vấn đề 
đưa ra. Tức là, chúng tôi giả định một số dạng 
phân phối thường gặp cho dữ liệu giá chứng 
TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q2 - 2017 
Trang 153 
khoán. Sau đó, sử dụng công thức Bayes cho 
từng dạng phân phối nhằm dự báo cho giá đóng 
cửa của phiên kế tiếp. Tỷ lệ dự báo tuân theo 
phân phối nào lớn hơn thì chứng tỏ dữ liệu tuân 
theo phân phối đó tốt hơn. 
Phương pháp sử dụng trong bài báo thông 
qua ước lượng điểm thống kê Bayes mờ, có 
hiệu chỉnh cho phù hợp trong phân tích tài 
chính. Kết quả dự báo với 9 mã cổ phiếu cho 
thấy tỷ lệ dự báo tương đối tốt ở mức 70 đến 90 
phần trăm khi sử dụng toàn bộ miền ước lượng 
điểm hoặc thu hẹp biên độ 10 phần trăm. Còn 
khi thu hẹp biên độ dao động là 5 phần trăm thì 
mức độ dự báo đúng khoảng 60 phần trăm. 
Hơn nữa, thông qua kết quả dự báo đúng, 
chúng tôi cũng đã chứng tỏ sự phù hợp của mô 
hình. Cách đánh giá này khác với cách đánh giá 
kết quả truyền thống khi mà độ phù hợp của 
mô hình được ẩn sau xác suất dự báo đúng. 
Với kết quả tương đối khả quan của bài 
báo, chúng tôi hy vọng ứng dụng của thống kê 
Bayes mờ áp dụng sâu rộng hơn vào trong phân 
tích tài chính với không chỉ sử dụng giá đóng 
cửa mà còn sử dụng thêm thông tin giá cao 
nhất và giá thấp nhất để dự báo. Đây là một kết 
quả hoàn toàn mới của chúng tôi khi chưa có ai 
sử dụng cách xử lý dữ liệu mới là thống kê 
Bayes mờ vào bộ dữ liêu theo cách hiệu chỉnh 
như vậy. 
Chúng tôi xin chân thành cảm ơn Giáo sư 
Nguyễn Trung Hưng, Trường Đại học New 
Mexico và Đại học Chiang Mai vì sự giúp đỡ 
tận tâm của ông đối với nghiên cứu của chúng 
tôi thông qua các Hội nghị, Hội thảo và các 
cuộc thảo luận. Bên cạnh đó, chúng tôi cũng 
cảm ơn Trường Đại học Kinh tế - Luật đã tài 
trợ cho chúng tôi trong khuôn khổ đề tài, với 
mã số CS 2016-13. 
SCIENCE & TECHNOLOGY DEVELOPMENT, Vol 20, No Q2 - 2017 
Trang 154 
Choosing the best model in fuzzy Bayesian 
statistics and its application in financial 
analysis 
 Pham Hoang Uyen 
 Le Thanh Hoa 
 Nguyen Dinh Thien 
University of Economics and Law, VNU HCM - Email: hoalt@uel.edu.vn 
ABSTRACT 
Analysts generally use closing price and 
normal distribution assumption for a model’s 
distribution in financial analysis. However, 
stock price fluctuation is reflected by a set of 
four values, namely opening, highest, lowest 
and closing prices. We therefore include the 
highest and the lowest prices to take into 
account more information in the hope of ending 
up with a more exact result as data contains a 
ranges of values instead of one only (i.e. the 
data is a form of fuzzy number). Moreover, the 
assumption that data is normally distributed is 
not always satisfied and Jacque Bera or Chi 
square tests are often employed to test the 
data’s normality. The tests require the use of p-
value which is quite controversial at present. 
This paper employs fuzzy Bayes point estimator 
to choose the most suitable distribution. On a 
sample of 9 stocks with large capitalization in 
Vietnam from their listed dates until November 
06, 2015, we found that some stocks have 
prices distributed more reasonably than 
normal distribution and some are not. 
Key word: Testing Bayes model, fuzzy data, the estimate of fuzzy Bayes point, application in 
financial analysis. 
TÀI LIỆU THAM KHẢO 
[1]. Bolstad, W.M. (2013), Introduction to 
Bayesian statistics. John Wiley & Sons. 
[2]. Carlin, B.P., Chib, S. (1995), Bayesian 
model choice via Markov chain Monte 
Carlo methods. J. R. Stat. Soc. Ser. B 
Methodol. 473–484. 
[3]. Frühwirth-Schnatter, S., On fuzzy Bayesian 
inference. Fuzzy Sets Syst. 60, 41–58 
(1993). 
[4]. Frühwirth-Schnatter, S. (1992), On 
statistical inference for fuzzy data with 
applications to descriptive statistics. Fuzzy 
Sets Syst. 50, 143–165. 
[5]. Gelman, A., Carlin, J.B., Stern, H.S., 
Rubin, D.B. (2014), Bayesian data analysis. 
Chapman & Hall/CRC Boca Raton, FL, 
USA. 
[6]. Goodman, S. (2008), A dirty dozen: twelve 
p-value misconceptions, in: Seminars in 
Hematology. Elsevier, pp. 135–140. 
[7]. Huang, H.-Z., Zuo, M.J., Sun, Z.-Q. (2006), 
Bayesian reliability analysis for fuzzy 
TẠP CHÍ PHÁT TRIỂN KH & CN, TẬP 20, SỐ Q2 - 2017 
Trang 155 
lifetime data. Fuzzy Sets Syst. 157, 1674–
1686. 
[8]. Jha, S.K., Clarke, E.M., Langmead, C.J. 
(2009), Legay, A., Platzer, A., Zuliani, P., A 
bayesian approach to model checking 
biological systems, in: International 
Conference on Computational Methods in 
Systems Biology. Springer, pp. 218–234. 
[9]. Nguyen, S.P., Pham, U.H., Nguyen, T.D., 
Le, H.T. (2016), A New Method for 
Hypothesis Testing Using Inferential 
Models with an Application to the 
Changepoint Problem, in: Integrated 
Uncertainty in Knowledge Modelling and 
Decision Making: 5th International 
Symposium, IUKM 2016, Da Nang, 
Vietnam, November 30-December 2, 2016, 
Proceedings. Springer, pp. 532–541. 
[10]. Rigoux, L., Stephan, K.E., Friston, K.J., 
Daunizeau, J. (2014), Bayesian model 
selection for group studies—revisited. 
Neuroimage 84, 971–985. 
[11]. Römer, C., Kandel, A. (1995), Statistical 
tests for fuzzy data. Fuzzy Sets Syst. 72, 1–
26. 
[12]. Shafiq, M., Viertl, R. (2016), On the 
Estimation of Parameters, Survival 
Functions, and Hazard Rates Based on 
Fuzzy Life Time Data. Commun. Stat.-
Theory Methods. 
[13]. Taheri, S.M. (2003), Trends in fuzzy 
statistics. Austrian J. Stat. 32, 239–257. 
[14]. Taheri, S.M., Behboodian, J. (2001), A 
Bayesian approach to fuzzy hypotheses 
testing. Fuzzy Sets Syst. 123, 39–48. 
[15]. Helden, J. (2016), Confidence intervals are 
no salvation from the alleged fickleness of 
the P value. Nat. Methods 13, 605–606. 
[16]. Viertl, R. (2011), Statistical methods for 
fuzzy data. John Wiley & Sons. 
[17]. Viertl, R. (2006), Univariate statistical 
analysis with fuzzy data. Comput. Stat. Data 
Anal. 51, 133–147. 
[18]. Viertl, R., Hule, H. (1991), On Bayes’ 
theorem for fuzzy data. Stat. Pap. 32, 115–
122. 
[19]. Wu, H.-C. (2005), Statistical hypotheses 
testing for fuzzy data. Inf. Sci. 175, 30–56. 
[20]. Wu, H.-C. (2004a), Fuzzy reliability 
estimation using Bayesian approach. 
Comput. Ind. Eng. 46, 467–493. 
[21]. Wu, H.-C. (2004b), Fuzzy Bayesian 
estimation on lifetime data. Comput. Stat. 
19, 613–633. 

File đính kèm:

  • pdfchon_mo_hinh_tot_nhat_trong_thong_ke_bayes_mo_va_ung_dung_tr.pdf