Bài giảng Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê
CHƯƠNG 8
Kiểm định giả thiết thống kê
(3LT + 3BT)
1. Khái niệm
Giả thiết thống kê (giả thiết) là các phát biểu
liên quan đến các số đặc trưng của ĐLNN, quy luật
phân phối của ĐLNN, tính độc lập của các ĐLNN
Kiểm định là dựa vào một mẫu cụ thể, thực hiện
một số thủ tục để đưa ra quyết định chấp nhận hoặc
bác bỏ giả thiết thống kê.
Giả thiết cần kiểm định ký hiệu Ho. Giả thiết
phải chấp nhận nếu bác bỏ Ho ký hiệu là H1.
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê
CHƯƠNG 8
Kiểm định giả thiết thống kê
(3LT + 3BT)
1. Khái niệm
Giả thiết thống kê (giả thiết) là các phát biểu
liên quan đến các số đặc trưng của ĐLNN, quy luật
phân phối của ĐLNN, tính độc lập của các ĐLNN
Kiểm định là dựa vào một mẫu cụ thể, thực hiện
một số thủ tục để đưa ra quyết định chấp nhận hoặc
bác bỏ giả thiết thống kê.
Giả thiết cần kiểm định ký hiệu Ho. Giả thiết
phải chấp nhận nếu bác bỏ Ho ký hiệu là H1.
Vì quyết định đưa ra chỉ dựa trên một mẫu cụ
thể nên quyết định có thể bị sai. Ta gọi sai lầm
loại I là quyết định bác bỏ Ho trong khi Ho đúng, sai
lầm loại II là quyết định chấp nhận Ho trong khi Ho
sai. Xác suất mắc sai lầm loại I gọi là mức ý nghĩa,
ký hiệu α.
Để tiến hành thủ tục kiểm định, trước tiên
người ta xây dựng tiêu chuẩn kiểm định như sau:
Xét ĐLNN X và các giả thiết Ho, H1.
Xét mẫu ngẫu nhiên X1, X2, , Xn. Tiêu chuẩn
kiểm định là một thống kê G = G(X1, X2, , Xn) được
chọn sao cho khi Ho đúng thì quy luật phân phối xác
suất của ĐLNN G được xác định.
Với mức ý nghĩa α, chọn miền bác bỏ Ho là Wα
sao cho:
P(G∈Wα /Ho) = α
Sau khi lấy mẫu cụ thể, hàm G có giá trị kiểm
định g. Quy tắc quyết định như sau:
* g∈Wα : bác bỏ Ho.
* g∉Wα : chấp nhận Ho.
2. Kiểm định số đặc trưng tổng thể
2.1 Kiểm định trung bình tổng thể
2.1.1 Kiểm định hai phía (H1 : µ ≠ µo)
Cho trước một mẫu cụ thể kích thước n, xét phát
biểu cho rằng giá trị µo là trung bình tổng thể µ với
mức ý nghĩa α. Để xem phát biểu trên có chấp nhận
được hay không, ta cần kiểm định giả thiết:
Ho: µ = µo với H1: µ ≠ µo
TH1,2,3 n > 30 hoặc "n ≤ 30, biết σ2 và tổng
thể có phân phối Chuẩn"
Khi một trong các trường hợp trên xảy ra thì với
mẫu ngẫu nhiên kích thước n,
X
/ n
− µ
σ
có phân phối
Chuẩn Chính Tắc hay được xấp xỉ với phân phối
Chuẩn Chính Tắc. Trường hợp chưa biết σ thì thay
bởi S.
Phân tích vấn đề theo cách I
Giả định Ho đúng, tức là µ = µo. Lúc này ĐLNN
− µ
σ
oX
/ n
có phân phối Chuẩn Chính Tắc, vì vậy biến
cố
− µ
σ
oX
/ n
≤ zα/2 xảy ra với xác suất 1–α. Với α từ 5%
trở xuống, ta cho rằng biến cố
− µ
σ
oX
/ n
≤ zα/2 chắc
chắn xảy ra trong thực tế, tức là với mẫu cụ thể kích
thước n nào cũng phải có
− µ
σ
ox
/ n
≤ zα/2. Nếu với một
mẫu cụ thể kích thước n, ta thấy
− µ
σ
ox
/ n
> zα/2 thì
đây là điều vô lý, chứng tỏ giả định µ = µo sai. Vậy
nếu dấu hiệu này xảy ra ta quyết định bác bỏ giả
thiết Ho.
Khi
− µ
σ
oX
/ n
có phân phối Chuẩn Chính Tắc thì
biến cố
− µ
σ
oX
/ n
> zα/2 vẫn có thể xảy ra với xác suất
α. Vậy lập luận để dẫn đến điều vô lý nêu trên có
thể bị sai với xác suất α, tức là quyết định bác bỏ giả
thiết Ho có thể gặp sai lầm với xác suất α.
Phân tích vấn đề theo cách II
Kết quả của việc ước lượng µ với độ tin cậy 1–α
cho thấy biến cố µ∈[X – ε, X+ ε], viết cách khác là
X– µ≤ ε, xảy ra với xác suất 1–α.
Giả định Ho đúng, tức là µ = µo, thì biến cố
X– µo≤ ε phải xảy ra với xác suất 1–α. Với α từ 5%
trở xuống, ta cho rằng biến cố X– µo≤ ε chắc chắn
xảy ra trong thực tế, tức là với mẫu cụ thể kích thước
n nào ta cũng phải có x– µo≤ ε. Nếu với một mẫu cụ
thể kích thước n, ta thấy x– µo> ε thì đây là điều
vô lý, chứng tỏ giả định µ = µo sai. Vậy nếu dấu hiệu
này xảy ra ta quyết định bác bỏ giả thiết Ho.
Ta có:
x – µo > ε = zα/2
n
σ ⇔
− µ
σ
ox
/ n
> zα/2
Vì độ tin cậy là 1–α nên ngay khi Ho đúng, biến
cố X– µo > ε vẫn có thể xảy ra với xác suất α. Vậy
lập luận để dẫn đến điều vô lý nêu trên có thể bị sai
với xác suất α, tức là quyết định bác bỏ giả thiết Ho
có thể gặp sai lầm với xác suất α.
Các phân tích trên gợi ý cho ta chọn:
Tiêu chuẩn kiểm định: G =
− µ
σ
oX
/ n
(Nếu chưa biết σ thì thay bởi S)
Miền bác bỏ Ho: Wα = (–∞, –zα/2)∩(zα/2, +∞)
TH4 n ≤ 30, chưa biết phương sai tổng thể
σ2, tổng thể có phân phối Chuẩn
Lúc này
− µX
S / n
có phân phối Student n–1 bậc tự
do. Tất cả lập luận bên trên đều áp dụng được, miễn
là thay zα/2 bởi t(n–1)α/2. Vậy ta chọn:
Tiêu chuẩn kiểm định: G =
− µoX
S / n
Miền bác bỏ Ho: Wα = (–∞, –tα/2)∩(tα/2, +∞)
Tóm tắt – Kiểm định hai phía trung bình tổng
thể (H1: µ ≠ µo)
Cho trước một mẫu cụ thể và mức ý nghĩa α.
Tính giá trị kiểm định (KĐ) và tra giá trị tới hạn
(TH). Nếu giá trị kiểm định có trị tuyệt đối lớn hơn
giá trị tới hạn thì bác bỏ Ho (KĐ > TH).
Công thức tính giá trị kiểm định:
− µ
σ
ox
/ n
(Nếu chưa biết σ thì thay bởi s)
Giá trị tới hạn được tra theo hai trường hợp:
n > 30 hoặc "n ≤ 30, biết σ2 và tổng thể có
phân phối Chuẩn"
Giá trị tới hạn: zα/2
n ≤ 30, chưa biết σ2 và tổng thể có phân
phối Chuẩn
Giá trị tới hạn: t(n–1)α/2
Ví dụ
(1) Trọng lượng ghi trên bao bì của một loại sản
phẩm 6Kg. Lấy ngẫu nhiên 121 sản phẩm và cân
thử thì tính được trọng lượng trung bình là 5,975Kg
và phương sai là 5,7596. Với mức ý nghĩa 5% thì
trọng lượng ghi trên bao bì có chấp nhận được
không?
Ta cần kiểm định giả thiết:
Ho: µ = µo "Trọng lượng ghi trên bao bì chấp
nhận được"
H1: µ ≠ µo "Trọng lượng ghi trên bao bì không
chấp nhận được"
Ta có:
n = 121 x = 5,975 µo = 6 s
2
= 5,7596 ⇒ s = 2,399
Giá trị kiểm định: KĐ =
− µox
s / n
= –0,1146
Giá trị tới hạn: α = 5% ⇒ TH = zα/2 = z0,025 = 1,96
=NORMSINV(1–0,025)
Điều kiện bác bỏ Ho là KĐ > TH không thoả, quyết
định chấp nhận giả thiết Ho.
Trọng lượng ghi trên bao bì chấp nhận được (với mức
ý nghĩa 5%).
(2) Đường kính của một chi tiết máy được sản xuất
theo chuẩn là 3,02cm. Lấy ngẫu nhiên 25 chi tiết và
đo thử thì tính được đường kính trung bình là 3,14cm
với độ lệch chuẩn là 0,275cm. Với độ tin cậy 95%
hãy cho biết các chi tiết sản xuất có đúng chuẩn
không ?
Ta cần kiểm định giả thiết:
Ho: µ = µo "Các chi tiết sản xuất đúng chuẩn"
H1: µ ≠ µo "Các chi tiết sản xuất không đúng
chuẩn"
Ta có: n = 25 x= 3,14 µo = 3,02 s = 0,275
Giá trị kiểm định: KĐ =
− µox
s / n
= 2,1818
Giá trị tới hạn:
1–α = 95% ⇒ TH = t(n–1)α/2 = t(24)0,025 = 2,0639
=TINV(0,025*2; 24)
Điều kiện bác bỏ Ho là KĐ > TH thoả, quyết định
bác bỏ giả thiết Ho, chấp nhận giả thiết H1.
Các chi tiết sản xuất không đúng chuẩn (với độ tin
cậy 95%).
2.1.2 Kiểm định phải (H1 : µ > µo)
Từ dữ liệu của một mẫu cụ thể, với mức ý nghĩa
α cho trước, ta cần kiểm định:
Ho: µ = µo với H1: µ > µo
TH1,2,3 n > 30 hoặc "n ≤ 30, biết σ2 và tổng
thể có phân phối Chuẩn"
Khi một trong các trường hợp trên xảy ra thì với
mẫu ngẫu nhiên kích thước n,
X
/ n
− µ
σ
có phân phối
Chuẩn Chính Tắc hay được xấp xỉ với phân phối
Chuẩn Chính Tắc. Trường hợp chưa biết σ thì thay
bởi S.
Giả định Ho đúng, tức là µ = µo. Do
− µ
σ
oX
/ n
có
phân phối Chuẩn Chính Tắc nên biến cố
− µ
σ
oX
/ n
≤ zα
xảy ra với xác suất 1–α. Vì vậy nếu với một mẫu cụ
thể kích thước n, ta thấy
− µ
σ
ox
/ n
> zα thì đây là điều
vô lý, chứng tỏ giả định µ = µo sai. Vậy nếu dấu hiệu
này xảy ra ta quyết định bác bỏ giả thiết Ho.
Khi
− µ
σ
ox
/ n
> zα xảy ra, tức là khi bác bỏ Ho, thì
ta vẫn có
− µ
σ
x
/ n
≤ zα, do đó
− µ
σ
ox
/ n
>
− µ
σ
x
/ n
. Điều này
chứng tỏ khi bác bỏ giả thiết Ho thì µ > µo.
Vậy ta chọn:
Tiêu chuẩn kiểm định: G =
− µ
σ
oX
/ n
(Nếu chưa biết σ thì thay bởi S)
Miền bác bỏ Ho: Wα = (zα, +∞)
TH4 n ≤ 30, chưa biết phương sai tổng thể
σ2, tổng thể có phân phối Chuẩn
Phân tích tương tự trên với phân phối Student,
ta chọn:
Tiêu chuẩn kiểm định: G =
− µoX
S / n
Miền bác bỏ Ho: Wα = (tα, +∞)
Tóm tắt – Kiểm định phải trung bình tổng thể
(H1: µ > µo)
Cho trước một mẫu cụ thể và mức ý nghĩa α. Ta
tính giá trị kiểm định (KĐ) và tra giá trị tới hạn
(TH). Nếu giá trị kiểm định lớn hơn giá trị tới hạn
thì bác bỏ Ho (KĐ > TH).
Công thức tính giá trị kiểm định:
− µ
σ
ox
/ n
(Nếu chưa biết σ thì thay bởi s)
Giá trị tới hạn được tra theo hai trường hợp:
n > 30 hoặc "n ≤ 30, biết σ2 và tổng thể có
phân phối Chuẩn"
Giá trị tới hạn: zα
n ≤ 30, chưa biết σ2 và tổng thể có phân
phối Chuẩn
Giá trị tới hạn: t(n–1)α
Ví dụ
Trọng lượng của một con gà khi xuất chuồng
được chọn ngẫu nhiên là ĐLNN có phân phối Chuẩn.
Trước đây, trọng lượng trung bình là 1,7Kg. Người ta
áp dụng phương pháp chăn nuôi mới và cân thử 25
con gà xuất chuồng thì tính được trọng lượng trung
bình là 1,87Kg và phương sai là 0,25. Hãy cho nhận
xét về phương pháp chăn nuôi mới với mức ý nghĩa
5%.
Do gà tăng trọng nên ta kiểm định giả thiết:
Ho: µ = µo "Phương pháp chăn nuôi mới không
làm gà tăng trọng"
H1: µ > µo "Phương pháp chăn nuôi mới làm gà
tăng trọng"
Ta có: n = 25 x= 1,87 µo = 1,7 s
2 = 0,25 ⇒ s =
0,5
Giá trị kiểm định: KĐ =
−x 1,7
s / n
= 1,7
Giá trị tới hạn: α = 5% ⇒ TH = t(n–1)α = t(24)0,05 =
1,711
=TINV(0,05*2; 24)
Điều kiện bác bỏ Ho là KĐ > TH không thoả, quyết
định chấp nhận giả thiết Ho.
Phương pháp chăn nuôi mới không làm gà tăng
trọng (với mức ý nghĩa 5%).
2.1.3 Kiểm định trái (H1 : µ < µo)
Từ dữ liệu của một mẫu cụ thể, với mức ý nghĩa
α cho trước, ta cần kiểm định:
Ho: µ = µo với H1: µ < µo
Phân tích tương tự trên, ta đi đến kết luận:
TH1,2,3 n > 30 hoặc "n ≤ 30, biết σ2 và tổng
thể có phân phối Chuẩn"
Tiêu chuẩn kiểm định: G =
− µ
σ
oX
/ n
(Nếu chưa biết σ thì thay bởi S)
Miền bác bỏ Ho: Wα = (–∞, –zα)
TH4 n ≤ 30, chưa biết phương sai tổng thể
σ2, tổng thể có phân phối Chuẩn
Tiêu chuẩn kiểm định: G =
− µoX
S / n
Miền bác bỏ Ho: Wα = (–∞, –tα)
Tóm tắt – Kiểm định trái trung bình tổng thể
(H1: µ < µo)
Cho trước một mẫu cụ thể và mức ý nghĩa α. Ta
tính giá trị kiểm định (KĐ) và tra giá trị tới hạn
(TH). Nếu giá trị kiểm định nhỏ hơn giá trị tới hạn
thì bác bỏ Ho (KĐ < TH).
Công thức tính giá trị kiểm định:
− µ
σ
ox
/ n
(Nếu chưa biết σ thì thay bởi s)
Giá trị tới hạn được tra theo hai trường hợp:
n > 30 hoặc "n ≤ 30, biết σ2 và tổng thể có
phân phối Chuẩn"
Giá trị tới hạn: –zα
n ≤ 30, chưa biết σ2 và tổng thể có phân
phối Chuẩn
Giá trị tới hạn: –t(n–1)α
Ví dụ
Mức tiêu hao nguyên liệu để sản xuất một sản
phẩm là ĐLNN có phân phối chuẩn. Mức tiêu hao
trung bình là 1,2Kg với độ lệch chuẩn 3,1Kg. Sau
một thời gian sản xuất, người ta kiểm tra mức sử
dụng nguyên liệu của 25 sản phẩm thì thu được bảng
sau:
Mức NL (Kg) 0,9 1,0 1,1 1,2 1,3
Số sản phẩm 4 5 6 7 3
Với mức ý nghĩa 5%, hãy cho nhận xét về mức
tiêu hao nguyên liệu trung bình.
Do lượng tiêu hao nguyên liệu trung bình giảm nên
ta kiểm định giả thiết:
Ho: µ = µo "Mức tiêu hao nguyên liệu trung bình
không thay đổi"
H1: µ < µo "Mức tiêu hao nguyên liệu trung bình
có giảm"
Ta có: n = 25 x = 1,1 µo = 1,2 σ = 3,1
Giá trị kiểm định: KĐ =
− µ
σ
ox
/ n
= –0,16
Giá trị tới hạn: α = 5% ⇒ TH = –zα = –z0,05 = –1,645
=–NORMSINV(1–0,05)
Điều kiện bác bỏ Ho là KĐ < TH không thoả, quyết
định chấp nhận giả thiết Ho.
Mức tiêu hao nguyên liệu trung bình không thay đổi
(với mức ý nghĩa 5%).
2.2 Kiểm định tỷ lệ tổng thể
Ta chỉ xét trường hợp khi n đủ lớn (npo ≥ 10 và
n(1–po) ≥ 10).
2.2.1 Kiểm định hai phía (H1 : p ≠ po)
Từ dữ liệu của một mẫu cụ thể, với mức ý nghĩa
α cho trước, ta cần kiểm định:
Ho: p = po với H1: p ≠ po
Theo giả thiết n đủ lớn,
−
−
F p
p(1 p) / n
được xấp xỉ
bởi phân phối Chuẩn Chính Tắc. Giả định Ho đúng,
tức là p = po,
−
−
o
o o
F p
p (1 p ) / n
có phân phối Chuẩn
Chính Tắc. Vì vậy, với mẫu cụ thể kích thước n, nếu
−
−
o
o o
F p
p (1 p ) / n
> zα/2 thì ta quyết định bác bỏ giả thiết
Ho. Vậy ta chọn:
Tiêu chuẩn kiểm định: G =
−
−
o
o o
F p
p (1 p ) / n
Miền bác bỏ Ho: Wα = (–∞, –zα/2)∩(zα/2, +∞).
Tóm tắt – Kiểm định hai phía tỷ lệ tổng thể
(H1: p ≠ po)
Cho trước một mẫu cụ thể và mức ý nghĩa α.
Tính giá trị kiểm định (KĐ) và tra giá trị tới hạn
(TH). Nếu giá trị kiểm định có trị tuyết đối lớn hơn
giá trị tới hạn thì bác bỏ Ho (KĐ > TH).
Công thức tính giá trị kiểm định:
−
−
o
o o
f p
p (1 p ) / n
Giá trị tới hạn: zα/2
Ví dụ
Người ta cho rằng tỷ lệ sinh viên trên 35 tuổi là
2%. Điều tra về tuổi của 800 sinh viên thì thấy có 24
sinh viên trên 35 tuổi. Với độ tin cậy 95%, hãy cho
biết ý kiến về tỷ lệ trên.
Ta cần kiểm định giả thiết:
Ho: p = po "Tỷ lệ sinh viên trên 35 tuổi là 2%"
H1: p ≠ po "Tỷ lệ sinh viên trên 35 tuổi không
phải là 2%"
Ta có: n = 800 f = 24/800 po = 2%
Giá trị kiểm định: KĐ =
−
−
o
o o
f p
p (1 p ) / n
= 2,0203
Giá trị tới hạn: 1–α = 95% ⇒ TH = zα/2 = z0,025 = 1,96
=NORMSINV(1–0,025)
Điều kiện bác bỏ Ho là KĐ > TH thoả, quyết định
bác bỏ giả thiết Ho, chấp nhận giả thiết H1.
Tỷ lệ sinh viên trên 35 tuổi không phải là 2% (với
độ tin cậy 95%).
2.2.2 Kiểm định phải (H1 : p > po)
Từ dữ liệu của một mẫu cụ thể, với mức ý nghĩa
α cho trước, ta cần kiểm định:
Ho: p = po với H1: p > po
Lập luận tương tự trên, ta chọn:
Tiêu chuẩn kiểm định: G =
−
−
o
o o
F p
p (1 p ) / n
Miền bác bỏ Ho: Wα = (zα, +∞)
Tóm tắt – Kiểm định phải tỷ lệ tổng thể
(H1: p > po)
Cho trước một mẫu cụ thể và mức ý nghĩa α.
Tính giá trị kiểm định (KĐ) và tra giá trị tới hạn
(TH). Nếu giá trị kiểm định lớn hơn ... lệch
chuẩn là 5,975Kg. Với mức ý nghĩa 4%, hãy cho kết
luận về mức chênh lệch trọng lượng của bầy gia súc
sau khi nuôi 3 tháng.
Vì độ lệch chuẩn giảm nên ta kiểm định giả thiết:
Ho: σ
2
= σo
2 "Mức chênh lệch trọng lượng bầy
gia súc 3 tháng tuổi không đổi so
với lúc 2 tháng tuổi"
H1: σ
2
< σo
2 "Mức chênh lệch trọng lượng bầy
gia súc 3 tháng tuổi giảm so với
lúc 2 tháng tuổi"
Ta có: n = 50 s2 = 5,9752 σo
2
= 6,2532
Giá trị kiểm định: KĐ =
2
2
o
(n 1)s−
σ
= 44,74
Giá trị tới hạn: α = 4%
⇒ TH = χ2(n–1)1–α = χ
2
(49)0,96 = 33,12
=CHIINV(0,96; 49)
Điều kiện bác bỏ Ho là KĐ < TH không thoả, quyết
định chấp nhận giả thiết Ho.
Mức chênh lệch trọng lượng bầy gia súc 3 tháng tuổi
không đổi so với lúc 2 tháng tuổi (với mức ý nghĩa
4%).
3. Kiểm định phi số
3.1 Kiểm định quy luật phân phối xác suất
3.1.1 Phương pháp ước lượng hợp lý tối đa
Xét ĐLNN X đã biết quy luật phân phối tổng
quát nhưng chưa biết một hay một số tham số. Một
hay một số tham số chưa biết ký hiệu là θ. Miền
chứa các giá trị hợp lệ của θ ký hiệu là Θ.
Xét mẫu cụ thể x1, x2,..., xn.
Xét trường hợp X là ĐLNN rời rạc.
Vì chưa biết θ nên giá trị P(X = xi) phụ thuộc θ.
Ta ký hiệu giá trị này là P(xi, θ).
Xác suất xảy ra biến cố (X = x1).(X = x2)(X = xn)
là:
L(θ) = P(x1, θ).P(x2, θ)...P(xn, θ)
Giá trị θ = θ (x1, x2,..., xn) làm cho xác suất của
biến cố tích trên đạt cực đại gọi là giá trị ước
lượng hợp lý tối đa của θ.
Hàm n biến ngẫu nhiên θ = θ (X1, X2,..., Xn) gọi
là hàm ước lượng hợp lý tối đa của θ.
θ cũng là điểm mà hàm L đạt cực đại trên miền
Θ. Do L là tích nên để đơn giản hoá việc tìm cực đại,
người ta thường xét hàm lnL.
Trường hợp X là ĐLNN liên tục, giá trị hàm
mật độ lúc này phụ thuộc θ, ta ký hiệu là f(x, θ).
Theo ý nghĩa của hàm mật độ, hàm L sẽ là:
L(θ) = f(x1, θ).f(x2, θ)...f(xn, θ)
Ví dụ
(1) Cho biết X~(λ).
a) Tìm hàm ước lượng hợp lý tối đa của λ.
b) Cho mẫu cụ thể của X:
X 1 2 3 4
Tần số 5 4 2 1
Tìm giá trị ước lượng hợp lý tối đa của λ.
a) L(λ) =
1x
1
e
x !
−λλ .
2x
2
e
x !
−λλ ...
nx
n
e
x !
−λλ =
1 2 nx x ... x
n
1 2 n
e
x !x !...x !
+ + +
− λλ
lnL(λ) = –nλ + (Σxi)lnλ – Σlnxi!
⇒
lnL∂
∂λ
= –n +
n
i
i 1
x
=
λ
∑
lnL∂
∂λ
= 0 ⇒ λ =
n
i
i 1
x
n
=
∑
⇒
2
2
lnL∂
∂λ
= –1 < 0
Chứng tỏ hàm L đạt cực đại tại λ =
n
i
i 1
x
n
=
∑
. Vậy
hàm ước lượng hợp lý tối đa của λ là λ =
n
i
i 1
X
n
=
∑
.
b) Với mẫu cụ thể dạng điểm có tần số ta tính được
n = Σni = 12, Σnixi = 10, vậy giá trị ước lượng hợp lý
tối đa của λ theo công thức trên là 10/12 = 0,83.
(2) Cho biết X~upslopeellipsis(µ, σ2). Tìm hàm ước lượng hợp lý
tối đa của µ, σ2.
L(µ, σ2) =
n 2
i
2
i 1
1 (x )
exp
22=
− µ
−
σσ pi
∏
=
( )
n
2
in 2
i 1
1 1
exp (x )
2
2 =
− − µ
σ σ pi
∑
lnL =
n
2
i2
i 1
1
(x )
2 =
− − µ
σ
∑ –
n
2
ln 2σ – nln 2pi
⇒
lnL∂
∂µ
=
n
i2
i 1
1
(x )
2 =
− µ
σ
∑
⇒
2
lnL∂
∂σ
=
n
2
i4
i 1
1
(x )
2 =
− µ
σ
∑ – 2
n
2σ
lnL∂
∂µ
=
2
lnL∂
∂σ
= 0 ⇒ µ =
n
i
i 1
1
x
n =
∑
σ2 =
n
2
i
i 1
1
(x )
n =
− µ∑
Bằng cách tính tiếp các đạo hàm riêng ta thấy
AC – B2 < 0 và A < 0 nên hàm L đạt cực đại tại
điểm (µ, σ2) nh trên.
Ta có các hàm ước lượng hợp lý tối đa của µ, σ2:
µ =
n
i
i 1
1
X
n =
∑ (=X ) σ2 =
n
2
i
i 1
1
(X X)
n =
−∑ (=
2ˆ
S )
3.1.2 Kiểm định phân phối của ĐLNN
Ta kiểm định giả thiết ĐLNN X có quy luật
phân phối xác suất Q gồm r tham số chưa biết với
mức ý nghĩa α. Các giả thiết:
Ho: X có phân phối xác suất theo quy luật Q.
H1: X có phân phối xác suất không theo quy luật
Q.
Giả định Ho đúng, tức là xem X có phân phối Q.
Xét mẫu ngẫu nhiên kích thước n. Chia miền giá trị
của X thành k tập hợp rời nhau S1, S2,..., Sk. Gọi Ni
là số lần X có giá trị thuộc Si, ni là giá trị của Ni ứng
với một mẫu cụ thể.
Các tham số của quy luật phân phối Q được ước
lượng hợp lý tối đa. Đặt pi = P(X∈Si).
Khi n đủ lớn (npi ≥ 10 với mọi i) thì ĐLNN
k 2
i i
ii 1
(N np )
np=
−∑ có quy luật phân phối xác suất xấp xỉ
với phân phối Chi Bình k–r–1 bậc tự do. Ta có:
P(
k 2
i i
ii 1
(N np )
np=
−∑ < χ2α) = 1–α
Vậy nếu với một mẫu cụ thể kích thước n, ta thấy
=
−∑
k 2
i i
ii 1
(n np )
np
> χ2α thì giả thiết Ho bị bác bỏ.
Theo phân tích trên, ta chọn:
Tiêu chuẩn kiểm định: G =
k 2
i i
ii 1
(N np )
np=
−∑
Miền bác bỏ Ho: Wα = (χ
2
α, +∞)
Vậy thủ tục kiểm định ĐLNN X có phân phối
xác suất theo quy luật Q với r tham số chưa biết như
sau:
Cho trước một mẫu cụ thể kích thước n dạng
điểm có tần số (xi, ni) và mức ý nghĩa α. Giả định X
có quy luật phân phối Q với r tham số chưa biết. Từ
mẫu cụ thể, ước lượng hợp lý tối đa để tính giá trị
của r tham số này. Cũng từ mẫu cụ thể, chọn các tập
hợp S1, S2,..., Sk phân chia miền giá trị X thành các
tập hợp rời nhau. Tính các xác suất pi = P(x∈Si).
Tính giá trị kiểm định (KĐ) và tra giá trị tới hạn
(TH). Nếu giá trị kiểm định lớn hơn giá trị tới hạn
thì bác bỏ Ho (KĐ > TH).
Công thức tính giá trị kiểm định:
k 2
i i
ii 1
(n np )
np=
−∑
Giá trị tới hạn: χ2(k–r–1)α
Ví dụ
(1) Dự đoán điểm thi của các sinh viên có tỷ lệ:
Điểm F D C B A
Tỷ lệ 5% 20% 35% 30% 10%
Sau khi thi, xem điểm của một số sinh viên:
Điểm F D C B A
Số sinh viên 5 15 40 25 15
Với mức ý nghĩa 5%, hãy cho biết dự đoán có
đúng không?
Gọi X là điểm của sinh viên gặp ngẫu nhiên. Ta cần
kiểm định giả thiết:
Ho : X có phân phối như bảng - dự đoán đúng.
H1 : X có phân phối khác bảng - dự đoán sai.
Miền giá trị của X là tập hợp {F, D, C, B, A}. Dựa
theo mẫu cụ thể, chia miền giá trị của X thành 5 tập
hợp S1, S2,..., S5. Tính các giá trị pi = P(x∈Si) theo
bảng phân phối dự đoán. Lập bảng tính giá trị tới
hạn:
Si ni pi npi (ni–npi)
2 (ni–npi)
2/npi
F 5 5% 5 0 0,00000
D 15 20% 20 25 1,25000
C 40 35% 35 25 0,71429
B 25 30% 30 25 0,83333
A 15 10% 10 25 2,50000
Σ 100 5,29762
Giá trị kiểm định: KĐ = 5,29762
Giá trị tới hạn:
k = 5 r = 0 α = 5%
⇒ TH = χ2(k–r–1)α = χ
2
(4)0,05 = 9,48773
=CHIINV(0,05;4)
Điều kiện bác bỏ Ho là KĐ > TH không thoả. Quyết
định chấp nhận giả thiết Ho.
Dự đoán đúng (mức ý nghĩa 5%).
(2) Gọi X là lượng khách vào quán trong khoảng
thời gian 30 phút. Quan sát 100 lần thì được bảng số
liệu sau:
X 1 2 3 4 5
Tần số 5 35 30 15 15
Với mức ý nghĩa 5%, hãy cho biết X có phải là
ĐLNN có phân phối Poisson không?
Ta cần kiểm định giả thiết:
Ho : X có phân phối (λ).
H1 : X có phân phối không theo quy luật Poisson.
Giả định Ho đúng, tức là xem X có phân phối (λ).
Tham số λ theo giá trị ước lượng hợp lý tối đa:
λ =
i i
i
n x
n
∑
∑
= 3
Miền giá trị của X là tập hợp số nguyên không âm.
Dựa theo mẫu cụ thể, chia miền giá trị của X thành
5 tập hợp S1, S2,..., S5. Tính các giá trị pi = P(x∈Si)
theo công thức của phân phối (3). Lập bảng tính giá
trị tới hạn:
Si ni pi npi (ni–npi)
2 (ni–npi)
2/npi
≤ 1 5 0,19915 19,915 222,4572 11,17034
2 35 0,22404 22,404 158,6592 7,08174
3 30 0,22404 22,404 57,69922 2,57540
4 15 0,16803 16,803 3,250809 0,19347
≥ 5 15 0,18474 18,474 12,06868 0,65328
Σ 100 21,67421
Giá trị kiểm định: KĐ = 21,67421
Giá trị tới hạn:
k = 5 r = 1 α = 5%
⇒ TH = χ2(k–r–1)α = χ
2
(3)0,05 = 7,815
=CHIINV(0,05;3)
Điều kiện bác bỏ Ho là KĐ > TH thoả. Quyết định
bác bỏ giả thiết Ho, chấp nhận giả thiết H1.
ĐLNN X có phân phối không theo quy luật Poisson
(mức ý nghĩa 5%).
(3) Gọi X là chiều cao (m) một loại cây. Lấy mẫu
một số cây và đo chiều cao thì được bảng số liệu sau:
X 4,5-5,5 5,5-6,5 6,5-7,5 7,5-8,5 8,5-9,5
Số cây 10 22 26 28 14
Với mức ý nghĩa 5%, hãy cho biết chiều cao loại
cây này có phải là ĐLNN có phân phối Chuẩn không?
Ta cần kiểm định giả thiết:
Ho : X có phân phối upslopeellipsis(µ, σ
2).
H1 : X có phân phối không theo quy luật Chuẩn.
Giả định Ho đúng, tức là xem X có phân phối upslopeellipsis(µ,
σ2). Tính các tham số µ, σ2 theo giá trị ước lượng hợp
lý tối đa. Lấy trung điểm xi của mỗi khoảng, ta có:
µ =
i i
i
n x
n
∑
∑
= 7,14
σ2 =
22
i i ii
i i
n x n x
n n
−
∑ ∑
∑ ∑
= 1,4404 ⇒ σ 1,2
Miền giá trị của X là tập số thực. Dựa theo mẫu cụ
thể, chia tập số thực thành 5 tập hợp S1, S2,..., S5.
Tính các giá trị pi = P(x∈Si) theo công thức của phân
phối upslopeellipsis(16,35; 5). Lập bảng tính giá trị kiểm định:
Si ni pi npi (ni–npi)
2 (ni–npi)
2/npi
≤ 5,5 10 0,08586 8,586 1,99801 0,23269
5,5-6,5 22 0,21104 21,104 0,80344 0,03807
6,5-7,5 26 0,32101 32,101 37,22219 1,15953
7,5-8,5 28 0,25355 25,355 6,99527 0,27589
≥ 8,5 14 0,12854 12,854 1,31397 0,10222
Σ 100 1,80841
Giá trị kiểm định: KĐ = 1,80841
Giá trị tới hạn:
k = 5 r = 2 α = 5%
⇒ TH = χ2(k–r–1)α = χ
2
(2)0,05 = 5,9915
=CHIINV(0,05; 2)
Điều kiện bác bỏ Ho là KĐ > TH không thoả. Quyết
định chấp nhận giả thiết Ho.
ĐLNN X có phân phối Chuẩn (mức ý nghĩa 5%).
3.2 Kiểm định tính độc lập của hai dấu hiệu
Xét hai thuộc tính của mỗi phần tổng thể mà ta
gọi là hai dấu hiệu A và B. Giả sử dấu hiệu A có h
trạng thái A1, A2,, Ah còn dấu hiệu B có k trạng
thái B1, B2,, Bk.
Gọi Ci (Dj) là biến cố gặp phần tử có trạng thái
Ai (Bj).
Hai dấu hiệu A và B gọi là độc lập nếu mọi cặp
biến cố Ci và Dj đều độc lập, tức là:
P(Ci.Dj) = P(Ci).P(Dj) i 1,k; j 1,h= =
Ta cần kiểm định giả thiết:
Ho : Dấu hiệu A và B độc lập.
H1 : Dấu hiệu A và B không độc lập.
Xét mẫu ngẫu nhiên kích thước n. Gọi Mi là số
lần gặp phần tử có trạng thái Ai, Nj là số lần gặp
phần tử có trạng thái Bj, Nij là số lần gặp phần tử có
trạng thái Ai và Bj. mi, nj, nij là các giá trị của Mi, Nj,
Nij ứng với một mẫu cụ thể kích thước n.
Khi n đủ lớn, theo định nghĩa Thống Kê của Xác
Suất, Mi/n, Nj/n và Nij/n sẽ xấp xỉ với P(Ci), P(Dj) và
P(Ci.Dj). Vậy nếu A và B độc lập thì mọi tần số Nij sẽ
gần bằng tần số kỳ vọng là Mi.Nj/n.
Giả định Ho đúng, khi n đủ lớn thì ĐLNN sau
có phân phối xấp xỉ phân phối Chi Bình (h–1)(k–1)
bậc tự do:
( )
= =
−
∑∑
2
h k
ij i j
i ji 1 j 1
N M .N / n
M .N / n
Với lưu ý
h k
ij
i 1 j 1
N n
= =
=∑∑ và
h k
i j
i 1 j 1
M N
= =
∑∑ = n2, biểu
thức trên được rút gọn thành
2h k
ij
i ji 1 j 1
N
n 1
M .N= =
−
∑∑ . Ta
có:
P(
2h k
ij
i ji 1 j 1
N
n 1
M .N= =
−
∑∑ < χ2α) = 1–α
Vậy nếu với một mẫu cụ thể kích thước n, ta thấy
= =
−
∑∑
2h k
ij
i ji 1 j 1
n
n 1
m .n
> χ2α thì giả thiết Ho bị bác bỏ.
Theo phân tích trên, ta chọn:
Tiêu chuẩn kiểm định: G =
2h k
ij
i ji 1 j 1
N
n 1
M .N= =
−
∑∑
Miền bác bỏ Ho: Wα = (χ
2
α, +∞)
Vậy thủ tục kiểm định dấu hiệu A và B độc lập
như sau:
Cho trước một mẫu cụ thể kích thước n dạng
bảng có tần số ((Ai, Bj), nij) và mức ý nghĩa α. Từ số
liệu mẫu ta lập bảng ghi tần số xuất hiện biến cố
Ci.Dj là nij. Tính tần số xuất hiện biến cố Ci (Dj) là
mi =
k
ij
j 1
n
=
∑ (ni =
h
ij
i 1
n
=
∑ ). Tính giá trị kiểm định KĐ và
tra giá trị tới hạn TH. Nếu giá trị kiểm định lớn hơn
giá trị tới hạn thì bác bỏ Ho (KĐ > TH).
Công thức tính giá trị kiểm định:
2h k
ij
i ji 1 j 1
n
n 1
m .n= =
−
∑∑
Giá trị tới hạn: χ2((h–1)(k–1))α
Ví dụ
(1) Để đánh giá ảnh hưởng của khuyến mại đến
thời gian sử dụng điện thoại di động, MobiVN điều
tra một số khách hàng và thu được số liệu sau:
Thời gian sử dụng đtdd Hình thức
khuyến mại Không đổi Có tăng Tăng mạnh
Giảm cước 26 24 10
Miễn phí sms 25 50 15
Với mức ý nghĩa 5% thì khuyến mại có ảnh
hưởng đến thời gian sử dụng điện thoại di động
không?
Ta cần kiểm định giả thiết:
Ho : Khuyến mại không ảnh hưởng đến thời gian
sử dụng điện thoại di động.
H1 : Khuyến mại có ảnh hưởng đến thời gian sử
dụng điện thoại di động.
Lập bảng để tính giá trị kiểm định:
nij Σ nij
2/minj Σ
26 24 10 60 0,2209 0,1297 0,0667 0,4173
25 50 15 90 0,1362 0,3754 0,1000 0,6115
Σ 51 74 25 150 Σ 1,0289
Giá trị kiểm định: KĐ = 150(1,0289 – 1) = 4,3279
Giá trị tới hạn:
h = 2 k = 3 α = 5%
⇒ TH = χ2((h–1)(k–1))α = χ
2
(2)0,05 = 5,9915
=CHIINV(0,05; 2)
Điều kiện bác bỏ Ho là KĐ > TH không thoả. Quyết
định chấp nhận giả thiết Ho.
Khuyến mại không ảnh hưởng đến thời gian sử dụng
điện thoại di động (với mức ý nghĩa 5%).
(2) Để biết giới tính của sinh viên có ảnh hưởng
hay không đến loại hình giải trí, người ta thăm dò
50 sinh viên và thu được số liệu sau:
Loại hình giải trí
Giới tính
Xem bóng đá Xem phim Nghe nhạc
Nam 20 5 5
Nữ 5 5 10
"Giới tính của sinh viên có ảnh hưởng đến loại hình
giải trí" có đúng không với mức ý nghĩa 5%?
Ta cần kiểm định giả thiết:
Ho : Giới tính của sinh viên không ảnh hưởng
đến loại hình giải trí.
H1 : Giới tính của sinh viên có ảnh hưởng đến
loại hình giải trí.
Lập bảng để tính giá trị kiểm định:
nij Σ nij
2/minj Σ
20 5 5 30 0,5333 0,0833 0,0556 0,6722
5 5 10 20 0,0500 0,1250 0,3333 0,5083
Σ 25 10 15 50 Σ 1,1806
Giá trị kiểm định: KĐ = 50(1,1806 – 1) = 9,0278
Giá trị tới hạn:
h = 2 k = 3 α = 5%
⇒ TH = χ2((h–1)(k–1))α = χ
2
(2)0,05 = 5,9915
=CHIINV(0,05; 2)
Điều kiện bác bỏ Ho là KĐ > TH thoả. Quyết định
chấp bác bỏ giả thiết Ho, chấp nhận giả thiết H1.
Nhận xét giới tính của sinh viên có ảnh hưởng đến
loại hình giải trí là đúng (với mức ý nghĩa 5%).
File đính kèm:
bai_giang_ly_thuyet_xac_suat_va_thong_ke_toan_chuong_8_kiem.pdf

