Bài giảng Phân tích dữ liệu - Chương 1: Thống kê mô tả & xác suất (ôn) - Nguyễn Thống

PHÂN TÍCH DỮ LIỆU

Chương 1: Thống kê mô tả & xác suất (ôn)

MỤC ĐÍCH MÔN HỌC

Giới thiệu các ứng dụng

của thống kê trong quản lý

& kỹ thuật

 Công cụ tin học cũng như

các cơ sở lý thuyết

pdf 6 trang phuongnguyen 8880
Bạn đang xem tài liệu "Bài giảng Phân tích dữ liệu - Chương 1: Thống kê mô tả & xác suất (ôn) - Nguyễn Thống", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Phân tích dữ liệu - Chương 1: Thống kê mô tả & xác suất (ôn) - Nguyễn Thống

Bài giảng Phân tích dữ liệu - Chương 1: Thống kê mô tả & xác suất (ôn) - Nguyễn Thống
1PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
1
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP. HCM
Khoa KTXD - Bộ môn Kỹ thuật & Quản lý tài nguyên Nước
Giảng viên: PGS. TS. NGUYỄN THỐNG
E-mail: nguyenthong@hcmut.edu.vn or nthong56@yahoo.fr
Web: 
Tél. (08) 38 691 592- 098 99 66 719
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
NỘI DUNG MÔN HỌC
Chương 1. Thống kê mô tả (ôn).
Chương 1bis. Xác suất & phân phối thống kê (ôn)..
Chương 2. Khoảng tin cậy.
Chương 3. Kiểm định thống kê.
Chương 4. Phân loại dữ liệu (Classification).
Chương 5. Phân nhóm dữ liệu (Cluster).
Chương 6. Phân tích thành phần chính (PCA).
Chương 7. Phân tích chuỗi thời gian.
Chương 8. Hồi quy tuyến tính.
Chương 9. Xử lý số liệu thực nghiệm.
Chương 10. Giới thiệu phần mềm SPSS or R
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
3
TAØI LIEÄU THAM KHAÛO
1- Phaân tích döõ lieäu vaø aùp duïng vaøo döï baùo.
Taùc giaû : Dr. Nguyeãn Thoáng. NXB Thanh Nieân
2- Kinh teá löôïng öùng duïng.
Taùc giaû : Dr. Nguyeãn Thoáng. NXB ÑHQG TP.
HCM
- Phaàn meàm SPSS.
Kieåm tra cuoái moân hoïc
- Töï luaän.
- Cho xem taøi lieäu.
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
4
MỤC ĐÍCH MÔN HỌC
 Giới thiệu các ứng dụng
của thống kê trong quản lý
& kỹ thuật
 Công cụ tin học cũng như
các cơ sở lý thuyết
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
5
PHAÂN PHỐI 1 BIẾN
Giaù trị trung bình:
với n
i
chỉ số lần xuất hiện giaù trị x
i
.
: tần suất xuất hiện x
i
.
: tổng số quan saùt
1 2 Nx x ... xX
N
1 1 2 2 n N
1 1 2 2 n Nn
i
i 1
n x n x ... n x
X p x p x ... p x
n

i
i n
i
i 1
n
p
n
 i
i
N n 
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
6
Ví dụ: Tính giaù trị trung bình của tập hợp quan saùt
sau:
Ñaùp soá:
i n
i
x
i
1 3 14
2 2 11
3 3 12
4 3 7
4 11 4
i i i i
i 1 i 1 i 1
n 11, x n x 121, X 11
   
2PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
7
Ví dụ: Dự án có 2 dự án với kết quả dự kiến:
Tính lợi nhuận trung bình xác suất của 2 dự án 
trên.
Đáp số: Dự án 1: 48tỷ; Dự án 2 : 40tỷ
Dự án
Lôïi nhuaän (tyû) Xaùc suaát (p)
1 90 0.3
30 0.7
2 60 0.5
20 0.5
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
8
Baøi taäp:
i n
i
x
i
1 1 10
2 2 11
3 3 8
4 3 12
5 1 9
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
9
Phương sai (V) và độ lệch chuẩn (σ)
N
2
i
i 1
x X
V
N 1
 
N
2
i
i 1
x X
V
N 1
 

j
2
22 2
i i
1 1 2 2 j ji 1
n x X
n x X n x X ... n x X
V
N 1 N 1

22 2
1 1 2 2 j jV p x X p x X ... p x X 
i
i
n
p
N 1
vôùi
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
10
YÙ nghóa cuûa V, σ: Ñaùnh giaù söï phaân taùn chung
quanh giaù trò trung bình cuûa bieán nghieân cöùu.
V,  lớn sự phân tán càng cao (càng
nhiều rũi ro) & ngược lại.
0 XX
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
11
Chú ý:
 Gọi là tính  kinh nghiệm.
 Gọi là tính  không
« lệch », bias (trong Excel):
.
N
Xx
N,1i
2
i
 
1N
Xx
N,1i
2
i
 

PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
12
HỆ SỐ BiẾN ĐỘNG CV
 CV càng lớn giá trị biến
nghiên cứu càng phân tán xa
giá trị trung bình của biến
nghiên cứu (rũi ro cao!)
.
X
CV

3PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
13
TÍNH PHƯƠNG SAI & ĐỘ LỆCH 
CHUẨN VỚI EXCEL
Các functions:
 Phương sai : Var(địa chỉ
chuỗi)
 Độ lệch chuẩn : Stdev(địa chỉ
chuỗi)
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
14
CÁC PHÉP BIẾN ĐỔI 
SỐ LIỆU THƯỜNG SỬ DỤNG
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
15
BIẾN TRUNG TÂM HÓA VÀ CHUẨN HÓA
Standardized
Gọi X là một biến thống kê. Một biến được xem là
trung tâm hóa và chuẩn hóa ký hiệu ti suy từ xi
được định nghĩa:
Tính chất:
ti số KHÔNG đơn vị

Xx
t ii
1;0t
it
i
i  
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
16
Normalized
Tính chất: ti [ 0 1]
 ti : không đơn vị
minmax
mini
i
xx
xx
t
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
17
Adjusted Normalized
Tính chất: ti [ -1 1]
 ti : không đơn vị
1
xx
xx
*2t
minmax
mini
i 
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
18
Ví dụ : Tính giá trị phương sai (V) và từ đó suy
ra giá trị độ lệch chuẩn của tập số liệu xi nói
trên:
i n
i
x
i
1 3 14
2 2 11
3 3 12
4 3 7
V=7.80 =2.79
4PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
19
Bài tập: Giống như ví dụ trước với các số liệu
sau:
i n
i
x
i
1 4 14
2 2 11
3 3 12
4 2 9
V=3.6 =1.90
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
20
Baøi taäp: Giống như bài tập trên với các số liệu
sau:
i n
i
x
i
1 1 14
2 2 11
3 3 12
4 1 10
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
21
Baøi taäp: Có 2 dự án với kết quả kinh doanh dự
kiến như sau:
Tính V1, V2 và độ lệch chuẩn σ tương ứng của 2
dự án. Với kết quả giá trị trung bình và phương
sai Anh (Chị) có nhận xét gì về 2 dự án nêu
trên? (V1=756 & V2=400). Chọn [1] or [2]?
Dự án Lợi nhuận (tỷ) Xác suất p
[1] 90 0.3
30 0.7
[2] 60 0.5
20 0.5
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
22
TÍNH
Chọn ti max chọn dự án 2
74,1
756
48X
t
1
1
1 

0,2
400
40X
t
2
2
2 

PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
23
PHÂN PHỐI 2 BIẾN
HIỆP PHƯƠNG SAI CỦA 2 BIẾN THỐNG KÊ
• Gọi xi, yi (i=1,N với N là số quan sát) là 2
biến thống kê được khảo sát. Hiệp
phương sai Cov(x,y) của 2 biến x,y được
định nghĩa:
• Ghi chú : Cov = Covariance
N
i i
i 1
x X y Y
Cov(x, y)
N

PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
24
Hệ số tương quan r:
 11
Yy.Xx
YyXx
)y,x(Cov
r
N,1i
2
i
N,1i
2
i
N,1i
ii
yx
  



5PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
25
Ý nghĩa của Cov, r và nhận xét:
* r : khoâng coù ñôn vò.
* (r +1) quan hệ đồng biến càng 
"chặc chẻ"
* (r -1) quan hệ nghịch biến càng 
"chặc chẻ"
* (r 0) ít (không) quan hệ
1rYX 
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
26
Chú ý: Trong công thức tính r, độ lệch chuẩn
tính theo công thức:
 Gọi là tính  kinh nghiệm.
Trong trường hợp tính (trong Excel):
gọi là  không « lệch », bias.
N
Xx
N,1i
2
i
 
1N
Xx
N,1i
2
i
 

PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
27
GIẢI THÍCH GIÁ TRỊ Cov(X,Y) BẰNG ĐỒ THỊ
X
Y Y
XY
X
r 1
r -1
r 0
xi
yi
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
28
Ý NGHĨA rGiá trị r
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
29
TÍNH HIỆP PHƯƠNG SAI VỚI 
EXCEL
Functions: Covar(X,Y)
 Hiệp phương sai : Covar(địa
chỉ chuỗi X, địa chỉ chuỗi Y)
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
30
TÍNH r SAI VỚI EXCEL
Functions: Correl(X,Y)
 Hệ số tương quan : Covar(địa
chỉ chuỗi X, địa chỉ chuỗi Y)
6PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
31
NHẬN XÉT
Nếu x & y là các biến chuẩn và
trung tâm hoá 
y.xr
N
2
1
N
2
1
y
.
.
y
y
y&
x
.
.
x
x
x
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
32
BÀI TẬP 1. Quan sát chi phí quảng cáo và doanh 
thu của 5 năm gần nhất cho Công ty Xây dựng 
Z như sau:
i Q.CAO X D.THU Y
1 10 105
2 12 120
3 9 100
4 14 130
5 10 100
Tính Cov(x,y), r. Kết luận ?
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
33
Cov =21
r = 0.783
Baøi taäp töông töï: Cov =30 ; r =0.765
X 11, Y 111 x y2, 13.4  
i Q.CAO D.THU
1 5 55
2 8 60
3 7 60
4 4 40
5 11 80
PHÂN TÍCH DỮ LIỆU
Chöông 1: Thoáng keâ moâ taû & xaùc suaát (oân)
PGS. TS. Nguyễn Thống
34
XEM TIEÁP CHÖÔNG 1bis

File đính kèm:

  • pdfbai_giang_phan_tich_du_lieu_chuong_1_thong_ke_mo_ta_xac_suat.pdf