Bài giảng Phân tích dữ liệu - Chương 1: Thống kê mô tả & xác suất (ôn) - Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
Chương 1: Thống kê mô tả & xác suất (ôn)
MỤC ĐÍCH MÔN HỌC
Giới thiệu các ứng dụng
của thống kê trong quản lý
& kỹ thuật
Công cụ tin học cũng như
các cơ sở lý thuyết
Bạn đang xem tài liệu "Bài giảng Phân tích dữ liệu - Chương 1: Thống kê mô tả & xác suất (ôn) - Nguyễn Thống", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Phân tích dữ liệu - Chương 1: Thống kê mô tả & xác suất (ôn) - Nguyễn Thống
1PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 1 TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM Khoa KTXD - Bộ môn Kỹ thuật & Quản lý tài nguyên Nước Giảng viên: PGS. TS. NGUYỄN THỐNG E-mail: nguyenthong@hcmut.edu.vn or nthong56@yahoo.fr Web: Tél. (08) 38 691 592- 098 99 66 719 PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống NỘI DUNG MÔN HỌC Chương 1. Thống kê mô tả (ôn). Chương 1bis. Xác suất & phân phối thống kê (ôn).. Chương 2. Khoảng tin cậy. Chương 3. Kiểm định thống kê. Chương 4. Phân loại dữ liệu (Classification). Chương 5. Phân nhóm dữ liệu (Cluster). Chương 6. Phân tích thành phần chính (PCA). Chương 7. Phân tích chuỗi thời gian. Chương 8. Hồi quy tuyến tính. Chương 9. Xử lý số liệu thực nghiệm. Chương 10. Giới thiệu phần mềm SPSS or R PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 3 TAØI LIEÄU THAM KHAÛO 1- Phaân tích döõ lieäu vaø aùp duïng vaøo döï baùo. Taùc giaû : Dr. Nguyeãn Thoáng. NXB Thanh Nieân 2- Kinh teá löôïng öùng duïng. Taùc giaû : Dr. Nguyeãn Thoáng. NXB ÑHQG TP. HCM - Phaàn meàm SPSS. Kieåm tra cuoái moân hoïc - Töï luaän. - Cho xem taøi lieäu. PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 4 MỤC ĐÍCH MÔN HỌC Giới thiệu các ứng dụng của thống kê trong quản lý & kỹ thuật Công cụ tin học cũng như các cơ sở lý thuyết PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 5 PHAÂN PHỐI 1 BIẾN Giaù trị trung bình: với n i chỉ số lần xuất hiện giaù trị x i . : tần suất xuất hiện x i . : tổng số quan saùt 1 2 Nx x ... xX N 1 1 2 2 n N 1 1 2 2 n Nn i i 1 n x n x ... n x X p x p x ... p x n i i n i i 1 n p n i i N n PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 6 Ví dụ: Tính giaù trị trung bình của tập hợp quan saùt sau: Ñaùp soá: i n i x i 1 3 14 2 2 11 3 3 12 4 3 7 4 11 4 i i i i i 1 i 1 i 1 n 11, x n x 121, X 11 2PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 7 Ví dụ: Dự án có 2 dự án với kết quả dự kiến: Tính lợi nhuận trung bình xác suất của 2 dự án trên. Đáp số: Dự án 1: 48tỷ; Dự án 2 : 40tỷ Dự án Lôïi nhuaän (tyû) Xaùc suaát (p) 1 90 0.3 30 0.7 2 60 0.5 20 0.5 PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 8 Baøi taäp: i n i x i 1 1 10 2 2 11 3 3 8 4 3 12 5 1 9 PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 9 Phương sai (V) và độ lệch chuẩn (σ) N 2 i i 1 x X V N 1 N 2 i i 1 x X V N 1 j 2 22 2 i i 1 1 2 2 j ji 1 n x X n x X n x X ... n x X V N 1 N 1 22 2 1 1 2 2 j jV p x X p x X ... p x X i i n p N 1 vôùi PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 10 YÙ nghóa cuûa V, σ: Ñaùnh giaù söï phaân taùn chung quanh giaù trò trung bình cuûa bieán nghieân cöùu. V, lớn sự phân tán càng cao (càng nhiều rũi ro) & ngược lại. 0 XX PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 11 Chú ý: Gọi là tính kinh nghiệm. Gọi là tính không « lệch », bias (trong Excel): . N Xx N,1i 2 i 1N Xx N,1i 2 i PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 12 HỆ SỐ BiẾN ĐỘNG CV CV càng lớn giá trị biến nghiên cứu càng phân tán xa giá trị trung bình của biến nghiên cứu (rũi ro cao!) . X CV 3PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 13 TÍNH PHƯƠNG SAI & ĐỘ LỆCH CHUẨN VỚI EXCEL Các functions: Phương sai : Var(địa chỉ chuỗi) Độ lệch chuẩn : Stdev(địa chỉ chuỗi) PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 14 CÁC PHÉP BIẾN ĐỔI SỐ LIỆU THƯỜNG SỬ DỤNG PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 15 BIẾN TRUNG TÂM HÓA VÀ CHUẨN HÓA Standardized Gọi X là một biến thống kê. Một biến được xem là trung tâm hóa và chuẩn hóa ký hiệu ti suy từ xi được định nghĩa: Tính chất: ti số KHÔNG đơn vị Xx t ii 1;0t it i i PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 16 Normalized Tính chất: ti [ 0 1] ti : không đơn vị minmax mini i xx xx t PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 17 Adjusted Normalized Tính chất: ti [ -1 1] ti : không đơn vị 1 xx xx *2t minmax mini i PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 18 Ví dụ : Tính giá trị phương sai (V) và từ đó suy ra giá trị độ lệch chuẩn của tập số liệu xi nói trên: i n i x i 1 3 14 2 2 11 3 3 12 4 3 7 V=7.80 =2.79 4PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 19 Bài tập: Giống như ví dụ trước với các số liệu sau: i n i x i 1 4 14 2 2 11 3 3 12 4 2 9 V=3.6 =1.90 PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 20 Baøi taäp: Giống như bài tập trên với các số liệu sau: i n i x i 1 1 14 2 2 11 3 3 12 4 1 10 PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 21 Baøi taäp: Có 2 dự án với kết quả kinh doanh dự kiến như sau: Tính V1, V2 và độ lệch chuẩn σ tương ứng của 2 dự án. Với kết quả giá trị trung bình và phương sai Anh (Chị) có nhận xét gì về 2 dự án nêu trên? (V1=756 & V2=400). Chọn [1] or [2]? Dự án Lợi nhuận (tỷ) Xác suất p [1] 90 0.3 30 0.7 [2] 60 0.5 20 0.5 PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 22 TÍNH Chọn ti max chọn dự án 2 74,1 756 48X t 1 1 1 0,2 400 40X t 2 2 2 PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 23 PHÂN PHỐI 2 BIẾN HIỆP PHƯƠNG SAI CỦA 2 BIẾN THỐNG KÊ • Gọi xi, yi (i=1,N với N là số quan sát) là 2 biến thống kê được khảo sát. Hiệp phương sai Cov(x,y) của 2 biến x,y được định nghĩa: • Ghi chú : Cov = Covariance N i i i 1 x X y Y Cov(x, y) N PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 24 Hệ số tương quan r: 11 Yy.Xx YyXx )y,x(Cov r N,1i 2 i N,1i 2 i N,1i ii yx 5PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 25 Ý nghĩa của Cov, r và nhận xét: * r : khoâng coù ñôn vò. * (r +1) quan hệ đồng biến càng "chặc chẻ" * (r -1) quan hệ nghịch biến càng "chặc chẻ" * (r 0) ít (không) quan hệ 1rYX PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 26 Chú ý: Trong công thức tính r, độ lệch chuẩn tính theo công thức: Gọi là tính kinh nghiệm. Trong trường hợp tính (trong Excel): gọi là không « lệch », bias. N Xx N,1i 2 i 1N Xx N,1i 2 i PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 27 GIẢI THÍCH GIÁ TRỊ Cov(X,Y) BẰNG ĐỒ THỊ X Y Y XY X r 1 r -1 r 0 xi yi PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 28 Ý NGHĨA rGiá trị r PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 29 TÍNH HIỆP PHƯƠNG SAI VỚI EXCEL Functions: Covar(X,Y) Hiệp phương sai : Covar(địa chỉ chuỗi X, địa chỉ chuỗi Y) PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 30 TÍNH r SAI VỚI EXCEL Functions: Correl(X,Y) Hệ số tương quan : Covar(địa chỉ chuỗi X, địa chỉ chuỗi Y) 6PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 31 NHẬN XÉT Nếu x & y là các biến chuẩn và trung tâm hoá y.xr N 2 1 N 2 1 y . . y y y& x . . x x x PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 32 BÀI TẬP 1. Quan sát chi phí quảng cáo và doanh thu của 5 năm gần nhất cho Công ty Xây dựng Z như sau: i Q.CAO X D.THU Y 1 10 105 2 12 120 3 9 100 4 14 130 5 10 100 Tính Cov(x,y), r. Kết luận ? PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 33 Cov =21 r = 0.783 Baøi taäp töông töï: Cov =30 ; r =0.765 X 11, Y 111 x y2, 13.4 i Q.CAO D.THU 1 5 55 2 8 60 3 7 60 4 4 40 5 11 80 PHÂN TÍCH DỮ LIỆU Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân) PGS. TS. Nguyễn Thống 34 XEM TIEÁP CHÖÔNG 1bis
File đính kèm:
- bai_giang_phan_tich_du_lieu_chuong_1_thong_ke_mo_ta_xac_suat.pdf