Bài giảng Phân tích dữ liệu - Chương 5: Phân nhóm dữ liệu (Cluster) - Nguyễn Thống

GIỚI THIỆU VÀ ĐẶT VẤN ĐỀ

• Phân nhóm (cluster, groupe) là môt kỹ

thuật được ứng dụng trong nhiều lĩnh

vực. Ví dụ :

 Sinh học : phân nhóm các loại cây, các

động vật theo một số đặc tính nào đó (định

lượng hoặc định tính).

 Y học : phân loại các loại bệnh nhân theo

một số chỉ tiêu y học

pdf 9 trang phuongnguyen 7600
Bạn đang xem tài liệu "Bài giảng Phân tích dữ liệu - Chương 5: Phân nhóm dữ liệu (Cluster) - Nguyễn Thống", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Phân tích dữ liệu - Chương 5: Phân nhóm dữ liệu (Cluster) - Nguyễn Thống

Bài giảng Phân tích dữ liệu - Chương 5: Phân nhóm dữ liệu (Cluster) - Nguyễn Thống
1PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
1
TRƯỜNG ĐẠI ỌC BÁCH KHOA TP. HCM
Khoa KTXD - Bộ môn KTTNN
Giảng viên: PGS. TS. NGUYỄN THỐNG
E-mail: nguyenthong@hcmut.edu.vn or nthong56@yahoo.fr
Web: 
Tél. (08) 38 691 592- 098 99 66 719
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
NỘI DUNG MÔN HỌC
Chương 1. Thống kê mô tả (ôn).
Chương 1bis. Xác suất & phân phối thống kê (ôn)..
Chương 2. Khoảng tin cậy.
Chương 3. Kiểm định thống kê.
Chương 4. Phân khúc dữ liệu (Segmentation).
Chương 5. Phân nhóm dữ liệu (Cluster).
Chương 6. Phân tích thành phần chính (PCA).
Chương 7. Phân tích chuỗi thời gian.
Chương 8. Hồi quy tuyến tính.
Chương 9. Xử lý số liệu thực nghiệm.
Chương 10. Giới thiệu phần mềm SPSS or R
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
GIỚI THIỆU VÀ ĐẶT VẤN ĐỀ
• Phân nhóm (cluster, groupe) là môt kỹ
thuật được ứng dụng trong nhiều lĩnh
vực. Ví dụ :
 Sinh học : phân nhóm các loại cây, các
động vật theo một số đặc tính nào đó (định
lượng hoặc định tính).
 Y học : phân loại các loại bệnh nhân theo
một số chỉ tiêu y học.
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
 Marketing và nghiên cứu thị trường
• Phân loại khách hàng – nhận biết các thành
phần có cung cách tiêu thụ hàng hóa giống
nhau.
• Phân loại sản phẩm – nghiên cứu nhiều nhãn
hiệu khác nhau của 1 sản phẩm theo các
thuộc tính của chúng bởi người tiêu dùng. Các
nhãn hiệu xuất hiện trong cùng một nhóm sẽ
có các thuộc tính « gần guĩ » nhau nhất, trên
cơ sở các thuộc tính khảo sát.
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
• Nghiên cứu một tập thể cá nhân theo các
yếu tố : hoạt động, thu nhập, quan điểm. 
 Các cá nhân xuất hiện, trong cùng một
nhóm, thể hiện đó là các cá nhân có tổng
hợp các yếu tố là gần nhau nhất. Nó cho
phép chúng ta hiểu được các cung cách
sách sống khác nhau.
 Mục đích của phương pháp phân nhóm
là nhận ra các nhóm đồng nhất trong tập dữ
liệu các cá nhân đang xét cùng với các biến
liên quan (định tính, định lượng).
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
LÝ THUYẾT PHÂN NHÓM
Cũng như trong bất kỳ một phương pháp 
phân tích thống kê nào, một số công tác 
chuẩn bị phải được thực hiện trước. Các 
vấn đề cơ bản đặt ra và phải quyết định như 
sau :
 Các biến (chỉ tiêu) nào sẽ được sử dụng 
trong việc thành lập nhóm ?
 Định nghĩa về « khoảng cách » giữa các 
biến được sử dụng.
 ..
2PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
 Tiêu chuẩn gì sẽ được sử dụng để nhóm
các « phần tử» hoặc các nhóm lại với
nhau.
• Trong đó việc chọn các biến để thành lập
nhóm có một vai trò quan trọng nhất.
• Việc xác định các chỉ tiêu để tiến hành
thành lập nhóm có một vai trò quyết định
đến kết quả phân nhóm.
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
PHÂN NHÓM DỰA TRÊN 1 BIẾN 
(BÀI TOÁN 1 CHIỀU)
• Một loại thí nghiệm VLXD cho kết quả chỉ tiêu
khảo sát X. Giả sử ta muốn phân loại X thành
2 nhóm dựa vào giá trị. Một cách định tính ta 
có thể có được lời giải sau :
X
Nhóm 2
Nhóm 1
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Trường hợp muốn phân loại X thành 3
nhóm dựa vào giá trị. Một cách định tính ta
có thể có được lời giải sau :
X
Nhóm 3
Nhóm 1
Nhóm 2
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
PHÂN NHÓM DỰA TRÊN 2 BIẾN 
(BÀI TOÁN 2 CHIỀU)
Ví dụ: Một Tổng Công ty hoạt động có 14
Công ty trực thuộc. Để thực hiện chủ
trương của Ban Giám Đốc về việc thành lập
các Công ty có quy mô « lớn » hơn so với
hiện tại để có thể cạnh tranh với các doanh
nghiệp cùng ngành Tổng Công ty sẽ tiến
hành sát nhập một số Công ty trực thuộc.
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Tiêu chí sát nhập đưa ra được dựa vào
doanh thu X1 và số lượng nhân sự X2. Để
có thể tiến hành sắp xếp lại các Công ty
trực thuộc, Tổng Công ty cần phân nhóm
các Công ty trực thuộc có doanh thu và
nhân sự « gần giống » nhau Về mặt đồ
thị ta có thể biểu diễn 14 Công ty dưới
dạng sau :
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Nhân viên (100ng) Trường hợp 4 nhóm
40
30
20
10
5 10 15 20 Doanh thu (100 tỷ)
3PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Nhân viên (100ng) Trường hợp 3 nhóm
40
30
20
10
5 10 15 20 Doanh thu (100 tỷ)
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Nhân viên (100ng) Trường hợp 2 nhóm
40
30
20
10
5 10 15 20 Doanh thu (100 tỷ)
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Ghi chú : Ta có thể quan niệm đây là
trường hợp có 14 nhóm, trong đó
mỗi phần tử (Công ty) hình thành 1
nhóm.
Bài toán tương tự sẽ được tổng
quát hoá trong trường hợp vấn đề
nhiều biến (n biến) Trong không
gian n chiều.
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
 Mỗi cá nhân nghiên cứu sẽ được
« định vị » trong không gian n chiều
nhờ vào n tọa độ là giá trị các biến
tương ứng (sẽ nói rõ hơn trong chủ
đề: Phân tích nhân tố các thành
phần chính).
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
TIÊU CHUẨN « KẾT HỢP » THÀNH NHÓM
Các ví dụ trên chỉ cho chúng ta một
cách nhìn có tính cách trực giác trong
việc thành lập nhóm. Về mặt lý thuyết,
để tiến hành kết hợp 2 hay nhiều « cá
thể» vào trong một nhóm ta sẽ dựa vào
các khái niệm cơ bản trình bày sau.
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
 Hai cá thể (hình thành một tiểu
nhóm) sẽ được nhóm lại khi nó có
các thuộc tính « gần gũi» nhất, so với
các cá thể (nhóm) còn lại.
 Để đánh giá sự gần gũi của 2 cá thể,
ta dựa vào các tiêu chuẩn phổ biến
sau đây :
4PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Khoảng cách Euclic : Xét trong không
gian n chiều, hai cá thể A và B sẽ được
xác định « vị trí » trong không gian này
nhờ vào các giá trị (tọa độ) tương ứng :
A(x1
A, x2
A,, xn
A) và B(x1
B, x2
B,, xn
B).
Khoảng cách Euclic giữa A & B định nghĩa
bởi:
  
i
2B
i
A
i xxB,AD
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
• Khoảng cách Chebychev : Được 
định nghĩa như giá trị tuyệt đối 
lớn nhất của các sai biệt của A và 
B :
B
i
A
ii xxMax)B,A(D 
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
• Trong trường hợp số liệu ở dạng tần số
« frequency), « khoảng cách » được đo
thông qua sự đánh giá « độc lập » giữa 2
biến, dựa vào định nghĩa và được định
nghĩa như sau :
  
  
  
i i
B
i
2B
i
B
i
A
i
2A
i
A
i
xE
xEx
xE
xEx
)B,A(D
2
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
SỰ TƯƠNG TỰ
Để có thể « nhóm » các cá thể,
ngoài khaí niệm dựa vào sự « gần »
nhau theo thông số khoảng cách
Euclic (hoặc định nghĩa khoảng
cách khác) như trên.
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
SỰ TƯƠNG TỰ
 Đôi khi người ta còn dựa vào tiêu
chuẩn sự tương tự bởi tiêu chuẩn
sau đây :
 Tiêu chuẩn cosin:
  

i i
2B
i
2A
i
i
B
i
A
i
x.x
xx
)B,A(S
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
• Tiêu chuẩn tương quan theo Pearson :
• Với Xi , Yi là biến xi & yi được trung tâm 
hóa & chuẩn hóa
1N
YX
)B,A(S
N
1i
ii

5PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Chú ý : Tính khoảng cách trong trường
hợp cho 2 nhóm, mà mỗi nhóm có chứa
hơn 1 phần tử. Lúc đó ta sẽ có 3 định
nghĩa khác nhau về khoảng cách giữa 2
nhóm :
• Khoảng cách được định nghĩa là giá trị
khoảng cách trung bình còn gọi là
khoảng cách có tính trọng số (khoảng
cách giữa 2 tâm trọng trường của 2
nhóm).
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
• Khoảng cách được định nghĩa là khoảng
cách min cuả 2 phần tử thuộc 2 nhóm.
• Khoảng cách được định nghĩa là khoảng
cách max cuả 2 phần tử thuộc 2 nhóm.
 Tùy theo sự lựa chọn 1 trong 3 cách
tính khoảng cách nêu trên, có thể sự sát
nhập nhóm dựa vào khoảng cách sẽ cho
kết quả không giống nhau.
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Ví dụ: Phân nhóm theo tiêu chí min
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Ví dụ: Phân nhóm theo tiêu chí max
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
PHƯƠNG PHÁP « KẾT HỢP » THÀNH NHÓM
• Phương pháp 1: Từ dưới lên (Ascendant).
Đây là phương pháp phổ biến :
 Tập hợp gồm N cá thể cần nhóm lại với
nhau để thành M nhóm (<N).
 Ta tiến hành thực hiện phép nhóm đầu tiên
cho 2 cá thể « gần » nhau nhất (ví dụ theo
tiêu chuẩn khoảng cách Euclic nhỏ nhất) và
như vậy ta còn có N-1 nhóm.
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
 Và nhóm mới thành lập này sẽ thay thế 2
cá thể vừa được nhóm lại, được hiểu là
một « cá thể».
 Công việc tiếp tục và ta sẽ lần lượt có số
số nhóm giảm dần sau mỗi lần nhóm lại.
Note: Dĩ nhiên lần kết hợp thứ (N-1) sẽ
cho ta còn 1 nhóm duy nhất gồm N phần
tử.
6PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
• Phương pháp 2: Từ trên xuống
(Descendant)
 Đây là một quy trình ngược lại. Ban đầu ta 
xem N cá thể chỉ trong duy nhất 1 nhóm, sau
đó ta tiến hành tách ra để thành lập 2 nhóm, 
ví dụ dựa theo tiêu chuẩn khoảng cách
Euclic « lớn nhất ». 
 Quy trình tiếp tục trong logic như vậy cho
đến khi ta có được N nhóm với mỗi nhóm là 
một phần tử của số liệu ban đầu.
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
CHÚ Ý
 Giả thiết số liệu 1D, khi gộp
còn 2 nhóm Khoảng cách 2
nhóm là « xa nhất » (tách biệt
rõ nhất).
 .
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Bài tập 0: Cho số liệu sau:
Dùng tiêu chí để nhóm là khoảng
cách Euclic.
a. Tính ma trận khoảng cách
b. Thực hiện tạo nhóm
Cá nhân
Biến
a b c d e
x1 8 2 6 5 6
x2 10 8 3 2 9
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Ma trận khoảng cách Euclic:
Proximity Matrix
Case
Euclidean Distance
a b c d e
a 0.000 6.325 7.280 8.544 2.236
b 6.325 0.000 6.403 6.708 4.123
c 7.280 6.403 0.000 1.414 6.000
d 8.544 6.708 1.414 0.000 7.071
e 2.236 4.123 6.000 7.071 0.000
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
2 nhóm !
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
 (c+d) ma trận distance mới
 (a+e) ma trận distance mới
 (ae+b) ma trận distance mới
Cá nhân
Cá nhân (aeb) (cd)
(aeb) 0 6
(cd) 0
7PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Bài tập 1: Một thí nghiệm nén R(kg/cm2) cho
10 mẫu bêtông cho kết quả như sau. Hãy
phân dữ liệu trên thành 2 nhóm theo
phương pháp min khoảng cách Euclic
của trọng tâm nhóm.
Số liệu: SPSS ../PTDuLieu/Cluster_1D.sav
Giải Excel: ../PTDuLieu/Cluster_1D.xls
Mẫu 1 2 3 4 5 6 7 8 9 10
R 80 85 100 76 82 95 90 98 86 102
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Hướng dẫn: SPSS\Analyse\Classify\
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
8PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Bài tập 2: Thí nghiệm 6 mẫu vật liệu về lực
kéo (R) & cắt (T) cho kết quả như sau.
Người ta muốn chia 6 mẫu này thành 2
nhóm theo phương pháp tính khoảng cách
Euclic (giả thiết không kể đến đơn vị).
Mẫu 1 2 3 4 5 6
R 2.9 3.0 3.2 3.3 3.7 3.8
T 1.8 1.9 2.4 2.5 2.6 2.7
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Hướng dẫn:
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Bài tập 3: Thí nghiệm 6 mẫu vật liệu về lực
kéo (R) & cắt (T) cho kết quả như sau.
Người ta muốn chia 5 mẫu này thành 2
nhóm theo phương pháp tính khoảng cách
Euclic (giả thiết không kể đến đơn vị).
Mẫu 1 2 3 4 5
R 2.9 3.0 3.2 3.8 4.0
T 1.8 2.6 1.2 2.5 1.8
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
Hướng dẫn:
PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
9PHÂN TÍCH DỮ LIỆU
Chương 5: Phân nhóm dữ liệu (Cluster)
PGS. TS. Nguyễn Thống
PGS. TS. Nguyễn Thống
PHÂN TÍCH DỮ LIỆU
HẾT
THOÁNG KEÂ ÖÙNG DUÏNG TRONG QUAÛN LYÙ & KYÕ THUAÄT
Chương 1: Phân phối thống kê & xác suất

File đính kèm:

  • pdfbai_giang_phan_tich_du_lieu_chuong_5_phan_nhom_du_lieu_clust.pdf