Bài giảng Phân tích dữ liệu - Chương 5: Phân nhóm dữ liệu (Cluster) - Nguyễn Thống
GIỚI THIỆU VÀ ĐẶT VẤN ĐỀ
• Phân nhóm (cluster, groupe) là môt kỹ
thuật được ứng dụng trong nhiều lĩnh
vực. Ví dụ :
Sinh học : phân nhóm các loại cây, các
động vật theo một số đặc tính nào đó (định
lượng hoặc định tính).
Y học : phân loại các loại bệnh nhân theo
một số chỉ tiêu y học
Bạn đang xem tài liệu "Bài giảng Phân tích dữ liệu - Chương 5: Phân nhóm dữ liệu (Cluster) - Nguyễn Thống", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Phân tích dữ liệu - Chương 5: Phân nhóm dữ liệu (Cluster) - Nguyễn Thống
1PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống 1 TRƯỜNG ĐẠI ỌC BÁCH KHOA TP. HCM Khoa KTXD - Bộ môn KTTNN Giảng viên: PGS. TS. NGUYỄN THỐNG E-mail: nguyenthong@hcmut.edu.vn or nthong56@yahoo.fr Web: Tél. (08) 38 691 592- 098 99 66 719 PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống NỘI DUNG MÔN HỌC Chương 1. Thống kê mô tả (ôn). Chương 1bis. Xác suất & phân phối thống kê (ôn).. Chương 2. Khoảng tin cậy. Chương 3. Kiểm định thống kê. Chương 4. Phân khúc dữ liệu (Segmentation). Chương 5. Phân nhóm dữ liệu (Cluster). Chương 6. Phân tích thành phần chính (PCA). Chương 7. Phân tích chuỗi thời gian. Chương 8. Hồi quy tuyến tính. Chương 9. Xử lý số liệu thực nghiệm. Chương 10. Giới thiệu phần mềm SPSS or R PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống GIỚI THIỆU VÀ ĐẶT VẤN ĐỀ • Phân nhóm (cluster, groupe) là môt kỹ thuật được ứng dụng trong nhiều lĩnh vực. Ví dụ : Sinh học : phân nhóm các loại cây, các động vật theo một số đặc tính nào đó (định lượng hoặc định tính). Y học : phân loại các loại bệnh nhân theo một số chỉ tiêu y học. PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Marketing và nghiên cứu thị trường • Phân loại khách hàng – nhận biết các thành phần có cung cách tiêu thụ hàng hóa giống nhau. • Phân loại sản phẩm – nghiên cứu nhiều nhãn hiệu khác nhau của 1 sản phẩm theo các thuộc tính của chúng bởi người tiêu dùng. Các nhãn hiệu xuất hiện trong cùng một nhóm sẽ có các thuộc tính « gần guĩ » nhau nhất, trên cơ sở các thuộc tính khảo sát. PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống • Nghiên cứu một tập thể cá nhân theo các yếu tố : hoạt động, thu nhập, quan điểm. Các cá nhân xuất hiện, trong cùng một nhóm, thể hiện đó là các cá nhân có tổng hợp các yếu tố là gần nhau nhất. Nó cho phép chúng ta hiểu được các cung cách sách sống khác nhau. Mục đích của phương pháp phân nhóm là nhận ra các nhóm đồng nhất trong tập dữ liệu các cá nhân đang xét cùng với các biến liên quan (định tính, định lượng). PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống LÝ THUYẾT PHÂN NHÓM Cũng như trong bất kỳ một phương pháp phân tích thống kê nào, một số công tác chuẩn bị phải được thực hiện trước. Các vấn đề cơ bản đặt ra và phải quyết định như sau : Các biến (chỉ tiêu) nào sẽ được sử dụng trong việc thành lập nhóm ? Định nghĩa về « khoảng cách » giữa các biến được sử dụng. .. 2PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Tiêu chuẩn gì sẽ được sử dụng để nhóm các « phần tử» hoặc các nhóm lại với nhau. • Trong đó việc chọn các biến để thành lập nhóm có một vai trò quan trọng nhất. • Việc xác định các chỉ tiêu để tiến hành thành lập nhóm có một vai trò quyết định đến kết quả phân nhóm. PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống PHÂN NHÓM DỰA TRÊN 1 BIẾN (BÀI TOÁN 1 CHIỀU) • Một loại thí nghiệm VLXD cho kết quả chỉ tiêu khảo sát X. Giả sử ta muốn phân loại X thành 2 nhóm dựa vào giá trị. Một cách định tính ta có thể có được lời giải sau : X Nhóm 2 Nhóm 1 PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Trường hợp muốn phân loại X thành 3 nhóm dựa vào giá trị. Một cách định tính ta có thể có được lời giải sau : X Nhóm 3 Nhóm 1 Nhóm 2 PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống PHÂN NHÓM DỰA TRÊN 2 BIẾN (BÀI TOÁN 2 CHIỀU) Ví dụ: Một Tổng Công ty hoạt động có 14 Công ty trực thuộc. Để thực hiện chủ trương của Ban Giám Đốc về việc thành lập các Công ty có quy mô « lớn » hơn so với hiện tại để có thể cạnh tranh với các doanh nghiệp cùng ngành Tổng Công ty sẽ tiến hành sát nhập một số Công ty trực thuộc. PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Tiêu chí sát nhập đưa ra được dựa vào doanh thu X1 và số lượng nhân sự X2. Để có thể tiến hành sắp xếp lại các Công ty trực thuộc, Tổng Công ty cần phân nhóm các Công ty trực thuộc có doanh thu và nhân sự « gần giống » nhau Về mặt đồ thị ta có thể biểu diễn 14 Công ty dưới dạng sau : PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Nhân viên (100ng) Trường hợp 4 nhóm 40 30 20 10 5 10 15 20 Doanh thu (100 tỷ) 3PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Nhân viên (100ng) Trường hợp 3 nhóm 40 30 20 10 5 10 15 20 Doanh thu (100 tỷ) PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Nhân viên (100ng) Trường hợp 2 nhóm 40 30 20 10 5 10 15 20 Doanh thu (100 tỷ) PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Ghi chú : Ta có thể quan niệm đây là trường hợp có 14 nhóm, trong đó mỗi phần tử (Công ty) hình thành 1 nhóm. Bài toán tương tự sẽ được tổng quát hoá trong trường hợp vấn đề nhiều biến (n biến) Trong không gian n chiều. PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Mỗi cá nhân nghiên cứu sẽ được « định vị » trong không gian n chiều nhờ vào n tọa độ là giá trị các biến tương ứng (sẽ nói rõ hơn trong chủ đề: Phân tích nhân tố các thành phần chính). PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống TIÊU CHUẨN « KẾT HỢP » THÀNH NHÓM Các ví dụ trên chỉ cho chúng ta một cách nhìn có tính cách trực giác trong việc thành lập nhóm. Về mặt lý thuyết, để tiến hành kết hợp 2 hay nhiều « cá thể» vào trong một nhóm ta sẽ dựa vào các khái niệm cơ bản trình bày sau. PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Hai cá thể (hình thành một tiểu nhóm) sẽ được nhóm lại khi nó có các thuộc tính « gần gũi» nhất, so với các cá thể (nhóm) còn lại. Để đánh giá sự gần gũi của 2 cá thể, ta dựa vào các tiêu chuẩn phổ biến sau đây : 4PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Khoảng cách Euclic : Xét trong không gian n chiều, hai cá thể A và B sẽ được xác định « vị trí » trong không gian này nhờ vào các giá trị (tọa độ) tương ứng : A(x1 A, x2 A,, xn A) và B(x1 B, x2 B,, xn B). Khoảng cách Euclic giữa A & B định nghĩa bởi: i 2B i A i xxB,AD PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống • Khoảng cách Chebychev : Được định nghĩa như giá trị tuyệt đối lớn nhất của các sai biệt của A và B : B i A ii xxMax)B,A(D PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống • Trong trường hợp số liệu ở dạng tần số « frequency), « khoảng cách » được đo thông qua sự đánh giá « độc lập » giữa 2 biến, dựa vào định nghĩa và được định nghĩa như sau : i i B i 2B i B i A i 2A i A i xE xEx xE xEx )B,A(D 2 PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống SỰ TƯƠNG TỰ Để có thể « nhóm » các cá thể, ngoài khaí niệm dựa vào sự « gần » nhau theo thông số khoảng cách Euclic (hoặc định nghĩa khoảng cách khác) như trên. PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống SỰ TƯƠNG TỰ Đôi khi người ta còn dựa vào tiêu chuẩn sự tương tự bởi tiêu chuẩn sau đây : Tiêu chuẩn cosin: i i 2B i 2A i i B i A i x.x xx )B,A(S PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống • Tiêu chuẩn tương quan theo Pearson : • Với Xi , Yi là biến xi & yi được trung tâm hóa & chuẩn hóa 1N YX )B,A(S N 1i ii 5PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Chú ý : Tính khoảng cách trong trường hợp cho 2 nhóm, mà mỗi nhóm có chứa hơn 1 phần tử. Lúc đó ta sẽ có 3 định nghĩa khác nhau về khoảng cách giữa 2 nhóm : • Khoảng cách được định nghĩa là giá trị khoảng cách trung bình còn gọi là khoảng cách có tính trọng số (khoảng cách giữa 2 tâm trọng trường của 2 nhóm). PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống • Khoảng cách được định nghĩa là khoảng cách min cuả 2 phần tử thuộc 2 nhóm. • Khoảng cách được định nghĩa là khoảng cách max cuả 2 phần tử thuộc 2 nhóm. Tùy theo sự lựa chọn 1 trong 3 cách tính khoảng cách nêu trên, có thể sự sát nhập nhóm dựa vào khoảng cách sẽ cho kết quả không giống nhau. PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Ví dụ: Phân nhóm theo tiêu chí min PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Ví dụ: Phân nhóm theo tiêu chí max PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống PHƯƠNG PHÁP « KẾT HỢP » THÀNH NHÓM • Phương pháp 1: Từ dưới lên (Ascendant). Đây là phương pháp phổ biến : Tập hợp gồm N cá thể cần nhóm lại với nhau để thành M nhóm (<N). Ta tiến hành thực hiện phép nhóm đầu tiên cho 2 cá thể « gần » nhau nhất (ví dụ theo tiêu chuẩn khoảng cách Euclic nhỏ nhất) và như vậy ta còn có N-1 nhóm. PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Và nhóm mới thành lập này sẽ thay thế 2 cá thể vừa được nhóm lại, được hiểu là một « cá thể». Công việc tiếp tục và ta sẽ lần lượt có số số nhóm giảm dần sau mỗi lần nhóm lại. Note: Dĩ nhiên lần kết hợp thứ (N-1) sẽ cho ta còn 1 nhóm duy nhất gồm N phần tử. 6PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống • Phương pháp 2: Từ trên xuống (Descendant) Đây là một quy trình ngược lại. Ban đầu ta xem N cá thể chỉ trong duy nhất 1 nhóm, sau đó ta tiến hành tách ra để thành lập 2 nhóm, ví dụ dựa theo tiêu chuẩn khoảng cách Euclic « lớn nhất ». Quy trình tiếp tục trong logic như vậy cho đến khi ta có được N nhóm với mỗi nhóm là một phần tử của số liệu ban đầu. PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống CHÚ Ý Giả thiết số liệu 1D, khi gộp còn 2 nhóm Khoảng cách 2 nhóm là « xa nhất » (tách biệt rõ nhất). . PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Bài tập 0: Cho số liệu sau: Dùng tiêu chí để nhóm là khoảng cách Euclic. a. Tính ma trận khoảng cách b. Thực hiện tạo nhóm Cá nhân Biến a b c d e x1 8 2 6 5 6 x2 10 8 3 2 9 PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Ma trận khoảng cách Euclic: Proximity Matrix Case Euclidean Distance a b c d e a 0.000 6.325 7.280 8.544 2.236 b 6.325 0.000 6.403 6.708 4.123 c 7.280 6.403 0.000 1.414 6.000 d 8.544 6.708 1.414 0.000 7.071 e 2.236 4.123 6.000 7.071 0.000 PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống 2 nhóm ! PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống (c+d) ma trận distance mới (a+e) ma trận distance mới (ae+b) ma trận distance mới Cá nhân Cá nhân (aeb) (cd) (aeb) 0 6 (cd) 0 7PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Bài tập 1: Một thí nghiệm nén R(kg/cm2) cho 10 mẫu bêtông cho kết quả như sau. Hãy phân dữ liệu trên thành 2 nhóm theo phương pháp min khoảng cách Euclic của trọng tâm nhóm. Số liệu: SPSS ../PTDuLieu/Cluster_1D.sav Giải Excel: ../PTDuLieu/Cluster_1D.xls Mẫu 1 2 3 4 5 6 7 8 9 10 R 80 85 100 76 82 95 90 98 86 102 PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Hướng dẫn: SPSS\Analyse\Classify\ PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống 8PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Bài tập 2: Thí nghiệm 6 mẫu vật liệu về lực kéo (R) & cắt (T) cho kết quả như sau. Người ta muốn chia 6 mẫu này thành 2 nhóm theo phương pháp tính khoảng cách Euclic (giả thiết không kể đến đơn vị). Mẫu 1 2 3 4 5 6 R 2.9 3.0 3.2 3.3 3.7 3.8 T 1.8 1.9 2.4 2.5 2.6 2.7 PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Hướng dẫn: PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Bài tập 3: Thí nghiệm 6 mẫu vật liệu về lực kéo (R) & cắt (T) cho kết quả như sau. Người ta muốn chia 5 mẫu này thành 2 nhóm theo phương pháp tính khoảng cách Euclic (giả thiết không kể đến đơn vị). Mẫu 1 2 3 4 5 R 2.9 3.0 3.2 3.8 4.0 T 1.8 2.6 1.2 2.5 1.8 PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống Hướng dẫn: PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống 9PHÂN TÍCH DỮ LIỆU Chương 5: Phân nhóm dữ liệu (Cluster) PGS. TS. Nguyễn Thống PGS. TS. Nguyễn Thống PHÂN TÍCH DỮ LIỆU HẾT THOÁNG KEÂ ÖÙNG DUÏNG TRONG QUAÛN LYÙ & KYÕ THUAÄT Chương 1: Phân phối thống kê & xác suất
File đính kèm:
- bai_giang_phan_tich_du_lieu_chuong_5_phan_nhom_du_lieu_clust.pdf