Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu

NỘI DUNG

• Xử lý dữ liệu trên biến

– Mã hóa biến với công cụ Recode

– Chuyển định dạng của biến

– Tính toán giá trị của biến với công cụ Compute

– Xử lý câu hỏi có nhiều lựa chọn trả lời

• Làm sạch dữ liệu

– Dữ liệu lỗi và các biện pháp khắc phục

– Các phương pháp làm sạch dữ liệu

pdf 15 trang phuongnguyen 5200
Bạn đang xem tài liệu "Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu

Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu
1PHÂN TÍCH DỮ LIỆU NGHIÊN 
CỨU VỚI SPSS
TIN HỌC ỨNG DỤNG
BÀI 4: CÁC PHÉP BIẾN ĐỔI DỮ LIỆU
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỤC TIÊU
• Hiểu và áp dụng được các phương pháp biến đổi
dữ liệu phù hợp với yêu cầu nghiên cứu.
• Hiểu và áp dụng được các phương pháp xử lý lỗi
phát sinh trong quá trình nhập liệu.
• Tổ chức và làm việc nhóm xây dựng bảng câu hỏi
khảo sát, tiến hành khảo sát, nhập và xử lý dữ liệu.
2namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
NỘI DUNG
• Xử lý dữ liệu trên biến
– Mã hóa biến với công cụ Recode
– Chuyển định dạng của biến
– Tính toán giá trị của biến với công cụ Compute
– Xử lý câu hỏi có nhiều lựa chọn trả lời
• Làm sạch dữ liệu
– Dữ liệu lỗi và các biện pháp khắc phục
– Các phương pháp làm sạch dữ liệu
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
CÁC PHÉP BIẾN ĐỔI DỮ LIỆU
• Mục đích
– Xử lý sai sót trong quá trình mã hóa, nhập liệu
– Biến đổi dữ liệu để phát hiện mối quan hệ giữa các biến
• Phân loại
– Xử lý dữ liệu trên biến
– Làm sạch dữ liệu
3namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
XỬ LÝ DỮ LIỆU TRÊN BIẾN
• Mã hóa biến với công cụ Recode
• Chuyển định dạng của biến
• Tính toán giá trị của biến với công cụ Compute
• Xử lý câu hỏi có nhiều lựa chọn trả lời
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MÃ HÓA BIẾN VỚI RECODE
• Mục đích
– Biến đổi trị số dữ liệu bằng cách mã hóa lại chúng
•Điều kiện áp dụng
– Giảm số biểu hiện của một biến định tính xuống chỉ còn
hai hoặc ba loại biểu hiện cơ bản
– Chuyển biến định lượng thành biến định tính
4namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MÃ HÓA BIẾN VỚI RECODE
• Quy trình thực hiện
– Gọi thực hiện chức năng Transform -> Recode -> Into
Different Variables (giữ nguyên biến gốc, tạo biến mới)
– Chọn biến muốn mã hóa lại
– Đặt tên và nhãn cho biến mới, nhấn nút Change để xác
nhận
– Nhấn nút Old and New Values để xác định sự chuyển
đổi giá trị giữa biến cũ và biến mới
– Gán các nhãn giá trị cho biến vừa tạo
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MÃ HÓA BIẾN VỚI RECODE
5namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
CHUYỂN ĐỊNH DẠNG CỦA BIẾN
• Mục đích
– Chuyển biến dạng phân loại Category nhiều trị số thành
biến phân loại Dichotomy có hai trị số
• Ví dụ
– BankAccount là biến phân loại, cho biết tên ngân hàng
quản lý tài khoản lương của người được hỏi
– SalaryThrBank là biến phân loại, cho biết người được
hỏi có nhận lương qua ngân hàng VCB hay không
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
CHUYỂN ĐỊNH DẠNG CỦA BIẾN
• Quy trình thực hiện
– Gọi thực hiện chức năng Transform -> Count
– Khai báo tên và nhãn của biến Dichotomy
– Cung cấp (các) biến Category có liên quan tới biến
Dichotomy
– Cung cấp trị số mã hóa của (các) biến Category có liên
quan tới biến Dichotomy
– Gán nhãn các giá trị của biến Dichotomy
6namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
CHUYỂN ĐỊNH DẠNG CỦA BIẾN
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU
• Dữ liệu lỗi và các biện pháp khắc phục
• Các phương pháp làm sạch dữ liệu
7namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
DỮ LIỆU LỖI
• Lỗi mã hóa dữ liệu
• Lỗi nhập dữ liệu
• Lỗi về tính nhất quán của dữ liệu
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LỖI MÃ HÓA DỮ LIỆU
• Mô tả
– Dữ liệu nhập không phản ánh đúng ý nghĩa của thông
tin do người được hỏi cung cấp
• Nguyên nhân
– Mã hóa sai thông tin do người được hỏi cung cấp
8namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LỖI NHẬP DỮ LIỆU
• Mô tả
– Dữ liệu nhập không đúng với bảng mã theo thông tin do
người được hỏi cung cấp
• Nguyên nhân
– Mã đọc sai
– Mã đọc đúng nhưng lỗi do đánh máy
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LỖI NHẤT QUÁN DỮ LIỆU
• Mô tả
– Không nhất quán giữa các câu trả lời của cùng một đối
tượng được hỏi
• Nguyên nhân
– Lỗi mã hóa dữ liệu
– Lỗi nhập dữ liệu
– Lỗi do đối tượng được hỏi cung cấp sai thông tin
9namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KHẮC PHỤC LỖI MÃ HÓA VÀ NHẬP LIỆU
• Nhập toàn bộ số liệu hai lần bởi hai người độc lập
• Nhập toàn bộ số liệu một lần, nhập lần hai 20% bộ
số liệu (chọn ngẫu nhiên) bởi hai người độc lập
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU
• Sự cần thiết
– Xử lý các lỗi phát sinh trong quá trình mã hóa dữ liệu,
nhập dữ liệu
– Đảm bảo tính nhất quán của dữ liệu
• Các biện pháp ngăn ngừa
– Thiết kế bảng câu hỏi rõ ràng, dễ trả lời
– Chọn lọc và huấn luyện điều tra viên
– Các bảng câu hỏi cần kiểm tra, xử lý lỗi trước khi nhập
10
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU
• Kết hợp sử dụng MS Excel và SPSS để phát hiện,
xử lý lỗi và làm sạch dữ liệu
– Sử dụng Excel (Max, Min, Auto Filter, Scatter)
– Sử dụng SPSS (Scatter, Frequency, Charts, Box Plots)
• Quy trình thực hiện
– Dùng công cụ để phát hiện giá trị “lạ” của mỗi biến
– Tìm bản ghi chứa giá trị “lạ”
– Chỉnh sửa/loại bỏ bản ghi chứa giá trị lạ
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Ví dụ
– Sử dụng hàm MIN, MAX đối với biến Age
– Sử dụng công cụ AutoFilter đối với biến Gender
– Sử dụng đồ thị Scatter đối với biến Childrens
11
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng hàm MIN, MAX đối với biến Age
– Đối với dữ liệu người tiêu dùng, độ tuổi khảo sát từ 18
đến 60
– Giá trị nằm ngoài vùng 18 – 60 là dữ liệu lỗi
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng công cụ AutoFilter đối với biến Gender
– Biến Gender chỉ có hai giá trị Male và Female, những
giá trị khác (hoặc để trống) là lỗi nhập liệu
12
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng đồ thị Scatter đối với biến Age
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng đồ thị Scatter đối với biến Age
13
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Ví dụ
– Sử dụng công cụ Frequencies đối với biến Gender
– Sử dụng công cụ Charts đối với biến Literacy
– Sử dụng công cụ Histogram đối với biến Age
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Frequencies đối với biến Gender
14
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Frequencies đối với biến Gender
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Charts đối với biến Literacy
15
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Charts đối với biến Literacy
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Histogram đối với biến Age

File đính kèm:

  • pdfbai_giang_tin_hoc_ung_dung_bai_4_cac_phep_bien_doi_du_lieu.pdf