Bài giảng Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê
CHƯƠNG 8
Kiểm định giả thiết thống kê
(3LT + 3BT)
1. Khái niệm
Giả thiết thống kê (giả thiết) là các phát biểu
liên quan đến các số đặc trưng của ĐLNN, quy luật
phân phối của ĐLNN, tính độc lập của các ĐLNN
Kiểm định là dựa vào một mẫu cụ thể, thực hiện
một số thủ tục để đưa ra quyết định chấp nhận hoặc
bác bỏ giả thiết thống kê.
Giả thiết cần kiểm định ký hiệu Ho. Giả thiết
phải chấp nhận nếu bác bỏ Ho ký hiệu là H1.
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Lý thuyết xác suất và thống kê toán - Chương 8: Kiểm định giả thiết thống kê
CHƯƠNG 8 Kiểm định giả thiết thống kê (3LT + 3BT) 1. Khái niệm Giả thiết thống kê (giả thiết) là các phát biểu liên quan đến các số đặc trưng của ĐLNN, quy luật phân phối của ĐLNN, tính độc lập của các ĐLNN Kiểm định là dựa vào một mẫu cụ thể, thực hiện một số thủ tục để đưa ra quyết định chấp nhận hoặc bác bỏ giả thiết thống kê. Giả thiết cần kiểm định ký hiệu Ho. Giả thiết phải chấp nhận nếu bác bỏ Ho ký hiệu là H1. Vì quyết định đưa ra chỉ dựa trên một mẫu cụ thể nên quyết định có thể bị sai. Ta gọi sai lầm loại I là quyết định bác bỏ Ho trong khi Ho đúng, sai lầm loại II là quyết định chấp nhận Ho trong khi Ho sai. Xác suất mắc sai lầm loại I gọi là mức ý nghĩa, ký hiệu α. Để tiến hành thủ tục kiểm định, trước tiên người ta xây dựng tiêu chuẩn kiểm định như sau: Xét ĐLNN X và các giả thiết Ho, H1. Xét mẫu ngẫu nhiên X1, X2, , Xn. Tiêu chuẩn kiểm định là một thống kê G = G(X1, X2, , Xn) được chọn sao cho khi Ho đúng thì quy luật phân phối xác suất của ĐLNN G được xác định. Với mức ý nghĩa α, chọn miền bác bỏ Ho là Wα sao cho: P(G∈Wα /Ho) = α Sau khi lấy mẫu cụ thể, hàm G có giá trị kiểm định g. Quy tắc quyết định như sau: * g∈Wα : bác bỏ Ho. * g∉Wα : chấp nhận Ho. 2. Kiểm định số đặc trưng tổng thể 2.1 Kiểm định trung bình tổng thể 2.1.1 Kiểm định hai phía (H1 : µ ≠ µo) Cho trước một mẫu cụ thể kích thước n, xét phát biểu cho rằng giá trị µo là trung bình tổng thể µ với mức ý nghĩa α. Để xem phát biểu trên có chấp nhận được hay không, ta cần kiểm định giả thiết: Ho: µ = µo với H1: µ ≠ µo TH1,2,3 n > 30 hoặc "n ≤ 30, biết σ2 và tổng thể có phân phối Chuẩn" Khi một trong các trường hợp trên xảy ra thì với mẫu ngẫu nhiên kích thước n, X / n − µ σ có phân phối Chuẩn Chính Tắc hay được xấp xỉ với phân phối Chuẩn Chính Tắc. Trường hợp chưa biết σ thì thay bởi S. Phân tích vấn đề theo cách I Giả định Ho đúng, tức là µ = µo. Lúc này ĐLNN − µ σ oX / n có phân phối Chuẩn Chính Tắc, vì vậy biến cố − µ σ oX / n ≤ zα/2 xảy ra với xác suất 1–α. Với α từ 5% trở xuống, ta cho rằng biến cố − µ σ oX / n ≤ zα/2 chắc chắn xảy ra trong thực tế, tức là với mẫu cụ thể kích thước n nào cũng phải có − µ σ ox / n ≤ zα/2. Nếu với một mẫu cụ thể kích thước n, ta thấy − µ σ ox / n > zα/2 thì đây là điều vô lý, chứng tỏ giả định µ = µo sai. Vậy nếu dấu hiệu này xảy ra ta quyết định bác bỏ giả thiết Ho. Khi − µ σ oX / n có phân phối Chuẩn Chính Tắc thì biến cố − µ σ oX / n > zα/2 vẫn có thể xảy ra với xác suất α. Vậy lập luận để dẫn đến điều vô lý nêu trên có thể bị sai với xác suất α, tức là quyết định bác bỏ giả thiết Ho có thể gặp sai lầm với xác suất α. Phân tích vấn đề theo cách II Kết quả của việc ước lượng µ với độ tin cậy 1–α cho thấy biến cố µ∈[X – ε, X+ ε], viết cách khác là X– µ≤ ε, xảy ra với xác suất 1–α. Giả định Ho đúng, tức là µ = µo, thì biến cố X– µo≤ ε phải xảy ra với xác suất 1–α. Với α từ 5% trở xuống, ta cho rằng biến cố X– µo≤ ε chắc chắn xảy ra trong thực tế, tức là với mẫu cụ thể kích thước n nào ta cũng phải có x– µo≤ ε. Nếu với một mẫu cụ thể kích thước n, ta thấy x– µo> ε thì đây là điều vô lý, chứng tỏ giả định µ = µo sai. Vậy nếu dấu hiệu này xảy ra ta quyết định bác bỏ giả thiết Ho. Ta có: x – µo > ε = zα/2 n σ ⇔ − µ σ ox / n > zα/2 Vì độ tin cậy là 1–α nên ngay khi Ho đúng, biến cố X– µo > ε vẫn có thể xảy ra với xác suất α. Vậy lập luận để dẫn đến điều vô lý nêu trên có thể bị sai với xác suất α, tức là quyết định bác bỏ giả thiết Ho có thể gặp sai lầm với xác suất α. Các phân tích trên gợi ý cho ta chọn: Tiêu chuẩn kiểm định: G = − µ σ oX / n (Nếu chưa biết σ thì thay bởi S) Miền bác bỏ Ho: Wα = (–∞, –zα/2)∩(zα/2, +∞) TH4 n ≤ 30, chưa biết phương sai tổng thể σ2, tổng thể có phân phối Chuẩn Lúc này − µX S / n có phân phối Student n–1 bậc tự do. Tất cả lập luận bên trên đều áp dụng được, miễn là thay zα/2 bởi t(n–1)α/2. Vậy ta chọn: Tiêu chuẩn kiểm định: G = − µoX S / n Miền bác bỏ Ho: Wα = (–∞, –tα/2)∩(tα/2, +∞) Tóm tắt – Kiểm định hai phía trung bình tổng thể (H1: µ ≠ µo) Cho trước một mẫu cụ thể và mức ý nghĩa α. Tính giá trị kiểm định (KĐ) và tra giá trị tới hạn (TH). Nếu giá trị kiểm định có trị tuyệt đối lớn hơn giá trị tới hạn thì bác bỏ Ho (KĐ > TH). Công thức tính giá trị kiểm định: − µ σ ox / n (Nếu chưa biết σ thì thay bởi s) Giá trị tới hạn được tra theo hai trường hợp: n > 30 hoặc "n ≤ 30, biết σ2 và tổng thể có phân phối Chuẩn" Giá trị tới hạn: zα/2 n ≤ 30, chưa biết σ2 và tổng thể có phân phối Chuẩn Giá trị tới hạn: t(n–1)α/2 Ví dụ (1) Trọng lượng ghi trên bao bì của một loại sản phẩm 6Kg. Lấy ngẫu nhiên 121 sản phẩm và cân thử thì tính được trọng lượng trung bình là 5,975Kg và phương sai là 5,7596. Với mức ý nghĩa 5% thì trọng lượng ghi trên bao bì có chấp nhận được không? Ta cần kiểm định giả thiết: Ho: µ = µo "Trọng lượng ghi trên bao bì chấp nhận được" H1: µ ≠ µo "Trọng lượng ghi trên bao bì không chấp nhận được" Ta có: n = 121 x = 5,975 µo = 6 s 2 = 5,7596 ⇒ s = 2,399 Giá trị kiểm định: KĐ = − µox s / n = –0,1146 Giá trị tới hạn: α = 5% ⇒ TH = zα/2 = z0,025 = 1,96 =NORMSINV(1–0,025) Điều kiện bác bỏ Ho là KĐ > TH không thoả, quyết định chấp nhận giả thiết Ho. Trọng lượng ghi trên bao bì chấp nhận được (với mức ý nghĩa 5%). (2) Đường kính của một chi tiết máy được sản xuất theo chuẩn là 3,02cm. Lấy ngẫu nhiên 25 chi tiết và đo thử thì tính được đường kính trung bình là 3,14cm với độ lệch chuẩn là 0,275cm. Với độ tin cậy 95% hãy cho biết các chi tiết sản xuất có đúng chuẩn không ? Ta cần kiểm định giả thiết: Ho: µ = µo "Các chi tiết sản xuất đúng chuẩn" H1: µ ≠ µo "Các chi tiết sản xuất không đúng chuẩn" Ta có: n = 25 x= 3,14 µo = 3,02 s = 0,275 Giá trị kiểm định: KĐ = − µox s / n = 2,1818 Giá trị tới hạn: 1–α = 95% ⇒ TH = t(n–1)α/2 = t(24)0,025 = 2,0639 =TINV(0,025*2; 24) Điều kiện bác bỏ Ho là KĐ > TH thoả, quyết định bác bỏ giả thiết Ho, chấp nhận giả thiết H1. Các chi tiết sản xuất không đúng chuẩn (với độ tin cậy 95%). 2.1.2 Kiểm định phải (H1 : µ > µo) Từ dữ liệu của một mẫu cụ thể, với mức ý nghĩa α cho trước, ta cần kiểm định: Ho: µ = µo với H1: µ > µo TH1,2,3 n > 30 hoặc "n ≤ 30, biết σ2 và tổng thể có phân phối Chuẩn" Khi một trong các trường hợp trên xảy ra thì với mẫu ngẫu nhiên kích thước n, X / n − µ σ có phân phối Chuẩn Chính Tắc hay được xấp xỉ với phân phối Chuẩn Chính Tắc. Trường hợp chưa biết σ thì thay bởi S. Giả định Ho đúng, tức là µ = µo. Do − µ σ oX / n có phân phối Chuẩn Chính Tắc nên biến cố − µ σ oX / n ≤ zα xảy ra với xác suất 1–α. Vì vậy nếu với một mẫu cụ thể kích thước n, ta thấy − µ σ ox / n > zα thì đây là điều vô lý, chứng tỏ giả định µ = µo sai. Vậy nếu dấu hiệu này xảy ra ta quyết định bác bỏ giả thiết Ho. Khi − µ σ ox / n > zα xảy ra, tức là khi bác bỏ Ho, thì ta vẫn có − µ σ x / n ≤ zα, do đó − µ σ ox / n > − µ σ x / n . Điều này chứng tỏ khi bác bỏ giả thiết Ho thì µ > µo. Vậy ta chọn: Tiêu chuẩn kiểm định: G = − µ σ oX / n (Nếu chưa biết σ thì thay bởi S) Miền bác bỏ Ho: Wα = (zα, +∞) TH4 n ≤ 30, chưa biết phương sai tổng thể σ2, tổng thể có phân phối Chuẩn Phân tích tương tự trên với phân phối Student, ta chọn: Tiêu chuẩn kiểm định: G = − µoX S / n Miền bác bỏ Ho: Wα = (tα, +∞) Tóm tắt – Kiểm định phải trung bình tổng thể (H1: µ > µo) Cho trước một mẫu cụ thể và mức ý nghĩa α. Ta tính giá trị kiểm định (KĐ) và tra giá trị tới hạn (TH). Nếu giá trị kiểm định lớn hơn giá trị tới hạn thì bác bỏ Ho (KĐ > TH). Công thức tính giá trị kiểm định: − µ σ ox / n (Nếu chưa biết σ thì thay bởi s) Giá trị tới hạn được tra theo hai trường hợp: n > 30 hoặc "n ≤ 30, biết σ2 và tổng thể có phân phối Chuẩn" Giá trị tới hạn: zα n ≤ 30, chưa biết σ2 và tổng thể có phân phối Chuẩn Giá trị tới hạn: t(n–1)α Ví dụ Trọng lượng của một con gà khi xuất chuồng được chọn ngẫu nhiên là ĐLNN có phân phối Chuẩn. Trước đây, trọng lượng trung bình là 1,7Kg. Người ta áp dụng phương pháp chăn nuôi mới và cân thử 25 con gà xuất chuồng thì tính được trọng lượng trung bình là 1,87Kg và phương sai là 0,25. Hãy cho nhận xét về phương pháp chăn nuôi mới với mức ý nghĩa 5%. Do gà tăng trọng nên ta kiểm định giả thiết: Ho: µ = µo "Phương pháp chăn nuôi mới không làm gà tăng trọng" H1: µ > µo "Phương pháp chăn nuôi mới làm gà tăng trọng" Ta có: n = 25 x= 1,87 µo = 1,7 s 2 = 0,25 ⇒ s = 0,5 Giá trị kiểm định: KĐ = −x 1,7 s / n = 1,7 Giá trị tới hạn: α = 5% ⇒ TH = t(n–1)α = t(24)0,05 = 1,711 =TINV(0,05*2; 24) Điều kiện bác bỏ Ho là KĐ > TH không thoả, quyết định chấp nhận giả thiết Ho. Phương pháp chăn nuôi mới không làm gà tăng trọng (với mức ý nghĩa 5%). 2.1.3 Kiểm định trái (H1 : µ < µo) Từ dữ liệu của một mẫu cụ thể, với mức ý nghĩa α cho trước, ta cần kiểm định: Ho: µ = µo với H1: µ < µo Phân tích tương tự trên, ta đi đến kết luận: TH1,2,3 n > 30 hoặc "n ≤ 30, biết σ2 và tổng thể có phân phối Chuẩn" Tiêu chuẩn kiểm định: G = − µ σ oX / n (Nếu chưa biết σ thì thay bởi S) Miền bác bỏ Ho: Wα = (–∞, –zα) TH4 n ≤ 30, chưa biết phương sai tổng thể σ2, tổng thể có phân phối Chuẩn Tiêu chuẩn kiểm định: G = − µoX S / n Miền bác bỏ Ho: Wα = (–∞, –tα) Tóm tắt – Kiểm định trái trung bình tổng thể (H1: µ < µo) Cho trước một mẫu cụ thể và mức ý nghĩa α. Ta tính giá trị kiểm định (KĐ) và tra giá trị tới hạn (TH). Nếu giá trị kiểm định nhỏ hơn giá trị tới hạn thì bác bỏ Ho (KĐ < TH). Công thức tính giá trị kiểm định: − µ σ ox / n (Nếu chưa biết σ thì thay bởi s) Giá trị tới hạn được tra theo hai trường hợp: n > 30 hoặc "n ≤ 30, biết σ2 và tổng thể có phân phối Chuẩn" Giá trị tới hạn: –zα n ≤ 30, chưa biết σ2 và tổng thể có phân phối Chuẩn Giá trị tới hạn: –t(n–1)α Ví dụ Mức tiêu hao nguyên liệu để sản xuất một sản phẩm là ĐLNN có phân phối chuẩn. Mức tiêu hao trung bình là 1,2Kg với độ lệch chuẩn 3,1Kg. Sau một thời gian sản xuất, người ta kiểm tra mức sử dụng nguyên liệu của 25 sản phẩm thì thu được bảng sau: Mức NL (Kg) 0,9 1,0 1,1 1,2 1,3 Số sản phẩm 4 5 6 7 3 Với mức ý nghĩa 5%, hãy cho nhận xét về mức tiêu hao nguyên liệu trung bình. Do lượng tiêu hao nguyên liệu trung bình giảm nên ta kiểm định giả thiết: Ho: µ = µo "Mức tiêu hao nguyên liệu trung bình không thay đổi" H1: µ < µo "Mức tiêu hao nguyên liệu trung bình có giảm" Ta có: n = 25 x = 1,1 µo = 1,2 σ = 3,1 Giá trị kiểm định: KĐ = − µ σ ox / n = –0,16 Giá trị tới hạn: α = 5% ⇒ TH = –zα = –z0,05 = –1,645 =–NORMSINV(1–0,05) Điều kiện bác bỏ Ho là KĐ < TH không thoả, quyết định chấp nhận giả thiết Ho. Mức tiêu hao nguyên liệu trung bình không thay đổi (với mức ý nghĩa 5%). 2.2 Kiểm định tỷ lệ tổng thể Ta chỉ xét trường hợp khi n đủ lớn (npo ≥ 10 và n(1–po) ≥ 10). 2.2.1 Kiểm định hai phía (H1 : p ≠ po) Từ dữ liệu của một mẫu cụ thể, với mức ý nghĩa α cho trước, ta cần kiểm định: Ho: p = po với H1: p ≠ po Theo giả thiết n đủ lớn, − − F p p(1 p) / n được xấp xỉ bởi phân phối Chuẩn Chính Tắc. Giả định Ho đúng, tức là p = po, − − o o o F p p (1 p ) / n có phân phối Chuẩn Chính Tắc. Vì vậy, với mẫu cụ thể kích thước n, nếu − − o o o F p p (1 p ) / n > zα/2 thì ta quyết định bác bỏ giả thiết Ho. Vậy ta chọn: Tiêu chuẩn kiểm định: G = − − o o o F p p (1 p ) / n Miền bác bỏ Ho: Wα = (–∞, –zα/2)∩(zα/2, +∞). Tóm tắt – Kiểm định hai phía tỷ lệ tổng thể (H1: p ≠ po) Cho trước một mẫu cụ thể và mức ý nghĩa α. Tính giá trị kiểm định (KĐ) và tra giá trị tới hạn (TH). Nếu giá trị kiểm định có trị tuyết đối lớn hơn giá trị tới hạn thì bác bỏ Ho (KĐ > TH). Công thức tính giá trị kiểm định: − − o o o f p p (1 p ) / n Giá trị tới hạn: zα/2 Ví dụ Người ta cho rằng tỷ lệ sinh viên trên 35 tuổi là 2%. Điều tra về tuổi của 800 sinh viên thì thấy có 24 sinh viên trên 35 tuổi. Với độ tin cậy 95%, hãy cho biết ý kiến về tỷ lệ trên. Ta cần kiểm định giả thiết: Ho: p = po "Tỷ lệ sinh viên trên 35 tuổi là 2%" H1: p ≠ po "Tỷ lệ sinh viên trên 35 tuổi không phải là 2%" Ta có: n = 800 f = 24/800 po = 2% Giá trị kiểm định: KĐ = − − o o o f p p (1 p ) / n = 2,0203 Giá trị tới hạn: 1–α = 95% ⇒ TH = zα/2 = z0,025 = 1,96 =NORMSINV(1–0,025) Điều kiện bác bỏ Ho là KĐ > TH thoả, quyết định bác bỏ giả thiết Ho, chấp nhận giả thiết H1. Tỷ lệ sinh viên trên 35 tuổi không phải là 2% (với độ tin cậy 95%). 2.2.2 Kiểm định phải (H1 : p > po) Từ dữ liệu của một mẫu cụ thể, với mức ý nghĩa α cho trước, ta cần kiểm định: Ho: p = po với H1: p > po Lập luận tương tự trên, ta chọn: Tiêu chuẩn kiểm định: G = − − o o o F p p (1 p ) / n Miền bác bỏ Ho: Wα = (zα, +∞) Tóm tắt – Kiểm định phải tỷ lệ tổng thể (H1: p > po) Cho trước một mẫu cụ thể và mức ý nghĩa α. Tính giá trị kiểm định (KĐ) và tra giá trị tới hạn (TH). Nếu giá trị kiểm định lớn hơn ... lệch chuẩn là 5,975Kg. Với mức ý nghĩa 4%, hãy cho kết luận về mức chênh lệch trọng lượng của bầy gia súc sau khi nuôi 3 tháng. Vì độ lệch chuẩn giảm nên ta kiểm định giả thiết: Ho: σ 2 = σo 2 "Mức chênh lệch trọng lượng bầy gia súc 3 tháng tuổi không đổi so với lúc 2 tháng tuổi" H1: σ 2 < σo 2 "Mức chênh lệch trọng lượng bầy gia súc 3 tháng tuổi giảm so với lúc 2 tháng tuổi" Ta có: n = 50 s2 = 5,9752 σo 2 = 6,2532 Giá trị kiểm định: KĐ = 2 2 o (n 1)s− σ = 44,74 Giá trị tới hạn: α = 4% ⇒ TH = χ2(n–1)1–α = χ 2 (49)0,96 = 33,12 =CHIINV(0,96; 49) Điều kiện bác bỏ Ho là KĐ < TH không thoả, quyết định chấp nhận giả thiết Ho. Mức chênh lệch trọng lượng bầy gia súc 3 tháng tuổi không đổi so với lúc 2 tháng tuổi (với mức ý nghĩa 4%). 3. Kiểm định phi số 3.1 Kiểm định quy luật phân phối xác suất 3.1.1 Phương pháp ước lượng hợp lý tối đa Xét ĐLNN X đã biết quy luật phân phối tổng quát nhưng chưa biết một hay một số tham số. Một hay một số tham số chưa biết ký hiệu là θ. Miền chứa các giá trị hợp lệ của θ ký hiệu là Θ. Xét mẫu cụ thể x1, x2,..., xn. Xét trường hợp X là ĐLNN rời rạc. Vì chưa biết θ nên giá trị P(X = xi) phụ thuộc θ. Ta ký hiệu giá trị này là P(xi, θ). Xác suất xảy ra biến cố (X = x1).(X = x2)(X = xn) là: L(θ) = P(x1, θ).P(x2, θ)...P(xn, θ) Giá trị θ = θ (x1, x2,..., xn) làm cho xác suất của biến cố tích trên đạt cực đại gọi là giá trị ước lượng hợp lý tối đa của θ. Hàm n biến ngẫu nhiên θ = θ (X1, X2,..., Xn) gọi là hàm ước lượng hợp lý tối đa của θ. θ cũng là điểm mà hàm L đạt cực đại trên miền Θ. Do L là tích nên để đơn giản hoá việc tìm cực đại, người ta thường xét hàm lnL. Trường hợp X là ĐLNN liên tục, giá trị hàm mật độ lúc này phụ thuộc θ, ta ký hiệu là f(x, θ). Theo ý nghĩa của hàm mật độ, hàm L sẽ là: L(θ) = f(x1, θ).f(x2, θ)...f(xn, θ) Ví dụ (1) Cho biết X~(λ). a) Tìm hàm ước lượng hợp lý tối đa của λ. b) Cho mẫu cụ thể của X: X 1 2 3 4 Tần số 5 4 2 1 Tìm giá trị ước lượng hợp lý tối đa của λ. a) L(λ) = 1x 1 e x ! −λλ . 2x 2 e x ! −λλ ... nx n e x ! −λλ = 1 2 nx x ... x n 1 2 n e x !x !...x ! + + + − λλ lnL(λ) = –nλ + (Σxi)lnλ – Σlnxi! ⇒ lnL∂ ∂λ = –n + n i i 1 x = λ ∑ lnL∂ ∂λ = 0 ⇒ λ = n i i 1 x n = ∑ ⇒ 2 2 lnL∂ ∂λ = –1 < 0 Chứng tỏ hàm L đạt cực đại tại λ = n i i 1 x n = ∑ . Vậy hàm ước lượng hợp lý tối đa của λ là λ = n i i 1 X n = ∑ . b) Với mẫu cụ thể dạng điểm có tần số ta tính được n = Σni = 12, Σnixi = 10, vậy giá trị ước lượng hợp lý tối đa của λ theo công thức trên là 10/12 = 0,83. (2) Cho biết X~upslopeellipsis(µ, σ2). Tìm hàm ước lượng hợp lý tối đa của µ, σ2. L(µ, σ2) = n 2 i 2 i 1 1 (x ) exp 22= − µ − σσ pi ∏ = ( ) n 2 in 2 i 1 1 1 exp (x ) 2 2 = − − µ σ σ pi ∑ lnL = n 2 i2 i 1 1 (x ) 2 = − − µ σ ∑ – n 2 ln 2σ – nln 2pi ⇒ lnL∂ ∂µ = n i2 i 1 1 (x ) 2 = − µ σ ∑ ⇒ 2 lnL∂ ∂σ = n 2 i4 i 1 1 (x ) 2 = − µ σ ∑ – 2 n 2σ lnL∂ ∂µ = 2 lnL∂ ∂σ = 0 ⇒ µ = n i i 1 1 x n = ∑ σ2 = n 2 i i 1 1 (x ) n = − µ∑ Bằng cách tính tiếp các đạo hàm riêng ta thấy AC – B2 < 0 và A < 0 nên hàm L đạt cực đại tại điểm (µ, σ2) nh trên. Ta có các hàm ước lượng hợp lý tối đa của µ, σ2: µ = n i i 1 1 X n = ∑ (=X ) σ2 = n 2 i i 1 1 (X X) n = −∑ (= 2ˆ S ) 3.1.2 Kiểm định phân phối của ĐLNN Ta kiểm định giả thiết ĐLNN X có quy luật phân phối xác suất Q gồm r tham số chưa biết với mức ý nghĩa α. Các giả thiết: Ho: X có phân phối xác suất theo quy luật Q. H1: X có phân phối xác suất không theo quy luật Q. Giả định Ho đúng, tức là xem X có phân phối Q. Xét mẫu ngẫu nhiên kích thước n. Chia miền giá trị của X thành k tập hợp rời nhau S1, S2,..., Sk. Gọi Ni là số lần X có giá trị thuộc Si, ni là giá trị của Ni ứng với một mẫu cụ thể. Các tham số của quy luật phân phối Q được ước lượng hợp lý tối đa. Đặt pi = P(X∈Si). Khi n đủ lớn (npi ≥ 10 với mọi i) thì ĐLNN k 2 i i ii 1 (N np ) np= −∑ có quy luật phân phối xác suất xấp xỉ với phân phối Chi Bình k–r–1 bậc tự do. Ta có: P( k 2 i i ii 1 (N np ) np= −∑ < χ2α) = 1–α Vậy nếu với một mẫu cụ thể kích thước n, ta thấy = −∑ k 2 i i ii 1 (n np ) np > χ2α thì giả thiết Ho bị bác bỏ. Theo phân tích trên, ta chọn: Tiêu chuẩn kiểm định: G = k 2 i i ii 1 (N np ) np= −∑ Miền bác bỏ Ho: Wα = (χ 2 α, +∞) Vậy thủ tục kiểm định ĐLNN X có phân phối xác suất theo quy luật Q với r tham số chưa biết như sau: Cho trước một mẫu cụ thể kích thước n dạng điểm có tần số (xi, ni) và mức ý nghĩa α. Giả định X có quy luật phân phối Q với r tham số chưa biết. Từ mẫu cụ thể, ước lượng hợp lý tối đa để tính giá trị của r tham số này. Cũng từ mẫu cụ thể, chọn các tập hợp S1, S2,..., Sk phân chia miền giá trị X thành các tập hợp rời nhau. Tính các xác suất pi = P(x∈Si). Tính giá trị kiểm định (KĐ) và tra giá trị tới hạn (TH). Nếu giá trị kiểm định lớn hơn giá trị tới hạn thì bác bỏ Ho (KĐ > TH). Công thức tính giá trị kiểm định: k 2 i i ii 1 (n np ) np= −∑ Giá trị tới hạn: χ2(k–r–1)α Ví dụ (1) Dự đoán điểm thi của các sinh viên có tỷ lệ: Điểm F D C B A Tỷ lệ 5% 20% 35% 30% 10% Sau khi thi, xem điểm của một số sinh viên: Điểm F D C B A Số sinh viên 5 15 40 25 15 Với mức ý nghĩa 5%, hãy cho biết dự đoán có đúng không? Gọi X là điểm của sinh viên gặp ngẫu nhiên. Ta cần kiểm định giả thiết: Ho : X có phân phối như bảng - dự đoán đúng. H1 : X có phân phối khác bảng - dự đoán sai. Miền giá trị của X là tập hợp {F, D, C, B, A}. Dựa theo mẫu cụ thể, chia miền giá trị của X thành 5 tập hợp S1, S2,..., S5. Tính các giá trị pi = P(x∈Si) theo bảng phân phối dự đoán. Lập bảng tính giá trị tới hạn: Si ni pi npi (ni–npi) 2 (ni–npi) 2/npi F 5 5% 5 0 0,00000 D 15 20% 20 25 1,25000 C 40 35% 35 25 0,71429 B 25 30% 30 25 0,83333 A 15 10% 10 25 2,50000 Σ 100 5,29762 Giá trị kiểm định: KĐ = 5,29762 Giá trị tới hạn: k = 5 r = 0 α = 5% ⇒ TH = χ2(k–r–1)α = χ 2 (4)0,05 = 9,48773 =CHIINV(0,05;4) Điều kiện bác bỏ Ho là KĐ > TH không thoả. Quyết định chấp nhận giả thiết Ho. Dự đoán đúng (mức ý nghĩa 5%). (2) Gọi X là lượng khách vào quán trong khoảng thời gian 30 phút. Quan sát 100 lần thì được bảng số liệu sau: X 1 2 3 4 5 Tần số 5 35 30 15 15 Với mức ý nghĩa 5%, hãy cho biết X có phải là ĐLNN có phân phối Poisson không? Ta cần kiểm định giả thiết: Ho : X có phân phối (λ). H1 : X có phân phối không theo quy luật Poisson. Giả định Ho đúng, tức là xem X có phân phối (λ). Tham số λ theo giá trị ước lượng hợp lý tối đa: λ = i i i n x n ∑ ∑ = 3 Miền giá trị của X là tập hợp số nguyên không âm. Dựa theo mẫu cụ thể, chia miền giá trị của X thành 5 tập hợp S1, S2,..., S5. Tính các giá trị pi = P(x∈Si) theo công thức của phân phối (3). Lập bảng tính giá trị tới hạn: Si ni pi npi (ni–npi) 2 (ni–npi) 2/npi ≤ 1 5 0,19915 19,915 222,4572 11,17034 2 35 0,22404 22,404 158,6592 7,08174 3 30 0,22404 22,404 57,69922 2,57540 4 15 0,16803 16,803 3,250809 0,19347 ≥ 5 15 0,18474 18,474 12,06868 0,65328 Σ 100 21,67421 Giá trị kiểm định: KĐ = 21,67421 Giá trị tới hạn: k = 5 r = 1 α = 5% ⇒ TH = χ2(k–r–1)α = χ 2 (3)0,05 = 7,815 =CHIINV(0,05;3) Điều kiện bác bỏ Ho là KĐ > TH thoả. Quyết định bác bỏ giả thiết Ho, chấp nhận giả thiết H1. ĐLNN X có phân phối không theo quy luật Poisson (mức ý nghĩa 5%). (3) Gọi X là chiều cao (m) một loại cây. Lấy mẫu một số cây và đo chiều cao thì được bảng số liệu sau: X 4,5-5,5 5,5-6,5 6,5-7,5 7,5-8,5 8,5-9,5 Số cây 10 22 26 28 14 Với mức ý nghĩa 5%, hãy cho biết chiều cao loại cây này có phải là ĐLNN có phân phối Chuẩn không? Ta cần kiểm định giả thiết: Ho : X có phân phối upslopeellipsis(µ, σ 2). H1 : X có phân phối không theo quy luật Chuẩn. Giả định Ho đúng, tức là xem X có phân phối upslopeellipsis(µ, σ2). Tính các tham số µ, σ2 theo giá trị ước lượng hợp lý tối đa. Lấy trung điểm xi của mỗi khoảng, ta có: µ = i i i n x n ∑ ∑ = 7,14 σ2 = 22 i i ii i i n x n x n n − ∑ ∑ ∑ ∑ = 1,4404 ⇒ σ 1,2 Miền giá trị của X là tập số thực. Dựa theo mẫu cụ thể, chia tập số thực thành 5 tập hợp S1, S2,..., S5. Tính các giá trị pi = P(x∈Si) theo công thức của phân phối upslopeellipsis(16,35; 5). Lập bảng tính giá trị kiểm định: Si ni pi npi (ni–npi) 2 (ni–npi) 2/npi ≤ 5,5 10 0,08586 8,586 1,99801 0,23269 5,5-6,5 22 0,21104 21,104 0,80344 0,03807 6,5-7,5 26 0,32101 32,101 37,22219 1,15953 7,5-8,5 28 0,25355 25,355 6,99527 0,27589 ≥ 8,5 14 0,12854 12,854 1,31397 0,10222 Σ 100 1,80841 Giá trị kiểm định: KĐ = 1,80841 Giá trị tới hạn: k = 5 r = 2 α = 5% ⇒ TH = χ2(k–r–1)α = χ 2 (2)0,05 = 5,9915 =CHIINV(0,05; 2) Điều kiện bác bỏ Ho là KĐ > TH không thoả. Quyết định chấp nhận giả thiết Ho. ĐLNN X có phân phối Chuẩn (mức ý nghĩa 5%). 3.2 Kiểm định tính độc lập của hai dấu hiệu Xét hai thuộc tính của mỗi phần tổng thể mà ta gọi là hai dấu hiệu A và B. Giả sử dấu hiệu A có h trạng thái A1, A2,, Ah còn dấu hiệu B có k trạng thái B1, B2,, Bk. Gọi Ci (Dj) là biến cố gặp phần tử có trạng thái Ai (Bj). Hai dấu hiệu A và B gọi là độc lập nếu mọi cặp biến cố Ci và Dj đều độc lập, tức là: P(Ci.Dj) = P(Ci).P(Dj) i 1,k; j 1,h= = Ta cần kiểm định giả thiết: Ho : Dấu hiệu A và B độc lập. H1 : Dấu hiệu A và B không độc lập. Xét mẫu ngẫu nhiên kích thước n. Gọi Mi là số lần gặp phần tử có trạng thái Ai, Nj là số lần gặp phần tử có trạng thái Bj, Nij là số lần gặp phần tử có trạng thái Ai và Bj. mi, nj, nij là các giá trị của Mi, Nj, Nij ứng với một mẫu cụ thể kích thước n. Khi n đủ lớn, theo định nghĩa Thống Kê của Xác Suất, Mi/n, Nj/n và Nij/n sẽ xấp xỉ với P(Ci), P(Dj) và P(Ci.Dj). Vậy nếu A và B độc lập thì mọi tần số Nij sẽ gần bằng tần số kỳ vọng là Mi.Nj/n. Giả định Ho đúng, khi n đủ lớn thì ĐLNN sau có phân phối xấp xỉ phân phối Chi Bình (h–1)(k–1) bậc tự do: ( ) = = − ∑∑ 2 h k ij i j i ji 1 j 1 N M .N / n M .N / n Với lưu ý h k ij i 1 j 1 N n = = =∑∑ và h k i j i 1 j 1 M N = = ∑∑ = n2, biểu thức trên được rút gọn thành 2h k ij i ji 1 j 1 N n 1 M .N= = − ∑∑ . Ta có: P( 2h k ij i ji 1 j 1 N n 1 M .N= = − ∑∑ < χ2α) = 1–α Vậy nếu với một mẫu cụ thể kích thước n, ta thấy = = − ∑∑ 2h k ij i ji 1 j 1 n n 1 m .n > χ2α thì giả thiết Ho bị bác bỏ. Theo phân tích trên, ta chọn: Tiêu chuẩn kiểm định: G = 2h k ij i ji 1 j 1 N n 1 M .N= = − ∑∑ Miền bác bỏ Ho: Wα = (χ 2 α, +∞) Vậy thủ tục kiểm định dấu hiệu A và B độc lập như sau: Cho trước một mẫu cụ thể kích thước n dạng bảng có tần số ((Ai, Bj), nij) và mức ý nghĩa α. Từ số liệu mẫu ta lập bảng ghi tần số xuất hiện biến cố Ci.Dj là nij. Tính tần số xuất hiện biến cố Ci (Dj) là mi = k ij j 1 n = ∑ (ni = h ij i 1 n = ∑ ). Tính giá trị kiểm định KĐ và tra giá trị tới hạn TH. Nếu giá trị kiểm định lớn hơn giá trị tới hạn thì bác bỏ Ho (KĐ > TH). Công thức tính giá trị kiểm định: 2h k ij i ji 1 j 1 n n 1 m .n= = − ∑∑ Giá trị tới hạn: χ2((h–1)(k–1))α Ví dụ (1) Để đánh giá ảnh hưởng của khuyến mại đến thời gian sử dụng điện thoại di động, MobiVN điều tra một số khách hàng và thu được số liệu sau: Thời gian sử dụng đtdd Hình thức khuyến mại Không đổi Có tăng Tăng mạnh Giảm cước 26 24 10 Miễn phí sms 25 50 15 Với mức ý nghĩa 5% thì khuyến mại có ảnh hưởng đến thời gian sử dụng điện thoại di động không? Ta cần kiểm định giả thiết: Ho : Khuyến mại không ảnh hưởng đến thời gian sử dụng điện thoại di động. H1 : Khuyến mại có ảnh hưởng đến thời gian sử dụng điện thoại di động. Lập bảng để tính giá trị kiểm định: nij Σ nij 2/minj Σ 26 24 10 60 0,2209 0,1297 0,0667 0,4173 25 50 15 90 0,1362 0,3754 0,1000 0,6115 Σ 51 74 25 150 Σ 1,0289 Giá trị kiểm định: KĐ = 150(1,0289 – 1) = 4,3279 Giá trị tới hạn: h = 2 k = 3 α = 5% ⇒ TH = χ2((h–1)(k–1))α = χ 2 (2)0,05 = 5,9915 =CHIINV(0,05; 2) Điều kiện bác bỏ Ho là KĐ > TH không thoả. Quyết định chấp nhận giả thiết Ho. Khuyến mại không ảnh hưởng đến thời gian sử dụng điện thoại di động (với mức ý nghĩa 5%). (2) Để biết giới tính của sinh viên có ảnh hưởng hay không đến loại hình giải trí, người ta thăm dò 50 sinh viên và thu được số liệu sau: Loại hình giải trí Giới tính Xem bóng đá Xem phim Nghe nhạc Nam 20 5 5 Nữ 5 5 10 "Giới tính của sinh viên có ảnh hưởng đến loại hình giải trí" có đúng không với mức ý nghĩa 5%? Ta cần kiểm định giả thiết: Ho : Giới tính của sinh viên không ảnh hưởng đến loại hình giải trí. H1 : Giới tính của sinh viên có ảnh hưởng đến loại hình giải trí. Lập bảng để tính giá trị kiểm định: nij Σ nij 2/minj Σ 20 5 5 30 0,5333 0,0833 0,0556 0,6722 5 5 10 20 0,0500 0,1250 0,3333 0,5083 Σ 25 10 15 50 Σ 1,1806 Giá trị kiểm định: KĐ = 50(1,1806 – 1) = 9,0278 Giá trị tới hạn: h = 2 k = 3 α = 5% ⇒ TH = χ2((h–1)(k–1))α = χ 2 (2)0,05 = 5,9915 =CHIINV(0,05; 2) Điều kiện bác bỏ Ho là KĐ > TH thoả. Quyết định chấp bác bỏ giả thiết Ho, chấp nhận giả thiết H1. Nhận xét giới tính của sinh viên có ảnh hưởng đến loại hình giải trí là đúng (với mức ý nghĩa 5%).
File đính kèm:
- bai_giang_ly_thuyet_xac_suat_va_thong_ke_toan_chuong_8_kiem.pdf