Bài giảng Thiết kế thí nghiệm - Chương 6: Tương quan và hồi quy

Trong chương này chúng ta sẽ xem xét mối quan hệ giữa hai biến định lượng được khảo sát

đồng thời trên một đám đông, điều này có nghĩa là khi ta lấy ngẫu nhiên một cá thể của đám

đông ra xem xét thì phải cân đo, phân tích, thử nghiệm đồng thời hai đặc tính sinh học định

lượng X và Y.

Ví dụ cân và đo đường kính của trứng gà, cân và đo vòng ngực của bò, cân khối lượng buồng

trứng và đo chiều dài của cá, nhiệt độ môi trường và lượng thức ăn thu nhận; hàm lượng lysin

và protein trong thức ăn, độ dày mỡ lưng và tỷ lệ nạc ở lợn . . .

Sau khi khảo sát một mẫu gồm n cá thể ta thu được n cặp số (xi, yi), một câu hỏi rất tự nhiên

là hai biến X và Y có quan hệ với nhau hay không ? nếu có thì khi X thay đổi Y sẽ thay đổi

theo như thế nào?

Câu hỏi đầu: X và Y có quan hệ với nhau hay không được trình bầy ở mục hệ số tương quan,

câu hỏi sau khi X thay đổi Y sẽ thay đổi theo như thế nào được trình bầy ở mục hồi quy.

pdf 13 trang phuongnguyen 5340
Bạn đang xem tài liệu "Bài giảng Thiết kế thí nghiệm - Chương 6: Tương quan và hồi quy", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Thiết kế thí nghiệm - Chương 6: Tương quan và hồi quy

Bài giảng Thiết kế thí nghiệm - Chương 6: Tương quan và hồi quy
Chương 6 
Tương quan và hồi quy 
Trong chương này chúng ta sẽ xem xét mối quan hệ giữa hai biến ñịnh lượng ñược khảo sát 
ñồng thời trên một ñám ñông, ñiều này có nghĩa là khi ta lấy ngẫu nhiên một cá thể của ñám 
ñông ra xem xét thì phải cân ño, phân tích, thử nghiệm ñồng thời hai ñặc tính sinh học ñịnh 
lượng X và Y. 
Ví dụ cân và ño ñường kính của trứng gà, cân và ño vòng ngực của bò, cân khối lượng buồng 
trứng và ño chiều dài của cá, nhiệt ñộ môi trường và lượng thức ăn thu nhận; hàm lượng lysin 
và protein trong thức ăn, ñộ dày mỡ lưng và tỷ lệ nạc ở lợn . . . 
Sau khi khảo sát một mẫu gồm n cá thể ta thu ñược n cặp số (xi, yi), một câu hỏi rất tự nhiên 
là hai biến X và Y có quan hệ với nhau hay không ? nếu có thì khi X thay ñổi Y sẽ thay ñổi 
theo như thế nào? 
Câu hỏi ñầu: X và Y có quan hệ với nhau hay không ñược trình bầy ở mục hệ số tương quan, 
câu hỏi sau khi X thay ñổi Y sẽ thay ñổi theo như thế nào ñược trình bầy ở mục hồi quy. 
6.1. Sắp xếp số liệu 
Khi có ít số liệu có thể ñể dãy n cặp số dưói dạng cột hay hàng, nếu nhiều hơn thì có thể sắp 
dưới dạng có tần số, nếu nhiều nữa thì chia khoảng cả X và Y ñể sắp thành bảng hai chiều. 
1) Sắp thành hàng 
X x1 x2 . . . xn 
Y y1 y2 . . . yn 
2) Sắp thành hàng có tần số 
X x1 x2 . . . xk 
Y y1 y2 . . . yk 
m m1 m2 . . . mk n 
3) Sắp thành cột hoặc thành cột có tần số 
X Y X Y m 
x1 y1 x1 y1 m1 
x2 y2 x2 y2 m2 
. . . . . . . . . . . . . . . 
xn yn xk yk mk 
 Tổng n 
Chương 6 Tương quan và hồi quy 
89
4) Sắp thành bảng, X gồm k lớp, Y gồm l lớp với các ñiểm giữa xi và yj 
 y1 y2 . . . yl 
x1 m11 m12 . . . m1l 
x2 m21 m22 . . . m2l 
. . . . . . . . . . . . . . . 
xk mk1 mk2 . . . mkl 
Từ dạng bảng có thể dễ dàng chuyển thành dạng cột hay hàng có tần số và ngược trở lại 
chuyển từ dạng cột hay hàng có tần số thành bảng. 
Ở phần sau các công thức tính toán ñưa ra chỉ ñúng khi số liệu viết dưới dạng hai cột không 
có tần số, khi có tần số thì phải thêm tần số vào các công thức. 
6.2. Hệ số tương quan. 
Trong toán học khi có hai dãy số xi và yi người ta có thể khảo sát mối quan hệ giữa X và Y 
bằng khái niệm hàm số. 
Trong thống kê xi và yi là các giá trị thu ñược trong mẫu quan sát của hai biến ngẫu nhiên X, 
Y và người ta muốn ñưa ra một con số ñể ñánh giá hai biến ngẫu nhiên X và Y có quan hệ với 
nhau hay không. 
Có khá nhiều con số ñược dùng ñể ñánh giá X và Y có quan hệ hay không nhưng không có 
con số nào thoả mãn ñược mọi mong muốn của chúng ta. Trong thực tế, các nhà nghiên cứu 
thường quan tâm ñến mối quan hệ tuyến tính giữa 2 tính trạng. Mức ñộ quan hệ này ñược thể 
hiện bằng hệ số tương quan. Hệ số tương quan ñược ñánh giá là ñơn giản, dễ dùng và có 
nhiều ưu ñiểm, nhưng chỉ thể hiện ñược mối quan hệ tuyến tính giữa X và Y chứ không thể 
dùng ñể ñánh giá mối quan hệ nói chung của hai biến. 
6.2.1. Tính hệ số tương quan 
Dựa trên lý thuyết xác suất về hệ số tương quan chúng ta có công thức sau ñể tính hệ số tương 
quan mẫu rXY giữa hai biến ngẫu nhiên X và Y 
2
1
2
1
1
)()(
))((
yyxx
yyxx
r
i
n
i
n
n
ii
XY
−−
−−
=
∑∑
∑
 (6.1) 
 Khai triển công thức này ñược công thức (6.2) thuận tiện hơn về mặt tính toán 
))()()((
)
)(
)(
)(
(
2
_
2
1
2
_
2
1
__
1
2
2
1
1
2
2
1
1 1
ynyxnx
yxnyx
n
y
y
n
x
x
n
yx
yx
r
i
n
ii
n
i
n
i
i
n
n n
ii
ii
XY
−−
−
=
−−
−
=
∑
∑∑
∑
∑ ∑
 (6.2) 
Nếu tính tuần tự các tham số thì có thể lần lượt tính phương sai mẫu của biến X, phương sai 
mẫu của biến Y, hiệp phương sai mẫu của X và Y. 
Thiết kế thí nghiệm 90
YX
XY
XY
ss
Cov
r = (6.3) 
Trong ñó: )1(
)(
1
2
2
−
−
=
∑
n
xx
s
n
i
x ; )1(
)(
1
2
2
−
−
=
∑
n
yy
s
n
i
y ; )1(
))((
cov 1
−
−−
=
∑
n
yyxx
n
ii
XY 
6.2.2. Tính chất của hệ số tương quan mẫu 
1) Là một số nằm giữa -1 và + 1, nói cách khác rXY  ≤ 1 
2) Nếu Y và X có quan hệ tuyến tính Y = a + bX thì rXY= 1 và ngược lại nếu rXY= 1 thì 
Y và X có quan hệ tuyến tính Y = a + bX 
3) Nếu X và Y ñộc lập về xác suất thì rXY = 0 nhưng ngược lại không ñúng, nếu rXY = 0 (gọi 
là không tương quan) thì chưa thể kết luận X và Y ñộc lập về xác suât. (Như vậy ñộc lập về 
xác suất suy ra không tương quan nhưng không tương quan không suy ra ñộc lập về xác suất). 
4) Nếu thực hiện hai phép biến ñổi tuyến tính 
U= aX + b; V = cY + d thì rUV = rXY 
Tính chất này ñược phát biểu dưới dạng: Hệ số tương quan bất biến ñối với phép biến ñổi 
tuyến tính. 
Trong thống kê thường dùng cách chọn gốc ño mới và ñơn vi ño mới. Nếu gọi xo là gốc mới, 
h là ñơn vị mới, số ño x của biến X bây giờ là u: 
h
xox
u
)( −
=
 hay x= xo + hu 
như vậy ta ñã thực hiện phép biến ñổi tuyến tính X = xo + hU. Tương tự ñối với Y ta biến ñổi 
Y = yo + kV 
Bốn tính chất này có thể chứng minh chặt chẽ nhờ các bất ñẳng thức toán học ñối với 2 dãy số 
nhưng ở ñây chúng ta thừa nhận không chứng minh. 
Hệ số tương quan ñược coi là một số ño mối quan hệ hay liên hệ tuyến tính giữa X và Y vì 
khi rXY gần về phía 1 (thường gọi là tương quan mạnh) thì có thể kết luận X và Y có quan 
hệ gần với quan hệ tuyến tính, còn nếu rXYgần về phía 0 ( thường gọi là tương quan yếu) 
thì không kết luận ñược gì vì có thể X và Y ñộc lập hoặc có thể có quan hệ, nhưng nếu có thì 
quan hệ này không thể là quan hệ tuyến tính. 
Về dấu thì nếu rXY > 0 ta có tương quan dương, nếu < 0 thì tương quan âm 
H6 r = 1 
H 7 r > 0 mạnh 
Chương 6 Tương quan và hồi quy 
91
H 8 r < 0 
H 9 r > 0 yếu 
Ví dụ 6.1: Nghiên cứu mối quan hệ tuyến tính giữa ñường kính lớn x (mm) và khối lượng y 
(gram) của một loại trứng gà. Tiến hàn ño ñường kính lớn và cân khối lượng của 10 quả 
trứng. Số liệu thu thập ñược như sau: 
Quả trứng 1 2 3 4 5 6 7 8 9 10 
ðường kính lớn (x) 57 54 55 52 55 60 56 56 57 58 
Khối lượng (y) 61 59 58 56 57 59 56 58 56 60 
Dựa vào công thức 6.1 ta có thể tính ñược hệ số tương quan như sau: 
x y (x-
_
x ) (y-
_
y ) (x-
_
x )² (y-
_
y )² (x-
_
x )(y-
_
y ) 
57 61 1 3 1 9 3 
54 59 -2 1 4 1 -2 
55 58 -1 0 1 0 0 
52 56 -4 -2 16 4 8 
55 57 -1 -1 1 1 1 
60 59 4 1 16 1 4 
56 56 0 -2 0 4 0 
56 58 0 0 0 0 0 
57 56 1 -2 1 4 -2 
58 60 2 2 4 4 4 
560 580 0 0 44 28 16 
Ta có: n = 10; Σxi = 560; Σyi = 580 ; 
_
x = 56; 
_
y = 58. 
Nếu tính theo (6.1) 
4558,0
2844
16
=
×
=XYr 
Nếu tính theo (6.2) thì 
 Σxi2 = 31404; Σyi2 = 33668; (
_
x )2 = 3136; Σxi2- n(
_
x )2= 44 
 Σxiyi = 32496; Σxiyi - n×
_
x ×
_
y = 16; Σyi2 - n(
_
y )2 = 28 
4558,0
2844
16
=
×
=XYr 
Thiết kế thí nghiệm 92
Nếu tính tuần tự theo (8.3) thì: 
8889,4
9
442
==Xs ; 1111,39
282
==Ys ; 7778,19
16
cov ==XY 
4558,0
1111,38889,4
7778,1
=
×
=XYr 
6.3. Hồi quy tuyến tính 
Vẽ các ñiểm quan sát Mi(xi,yi) trên hệ toạ ñộ vuông góc, các ñiểm này họp thành một ñám 
mây quan sát nhìn chung có dạng một elíp (trừ một vài ñiểm tách ra xa gọi là ñiểm ngoại lai), 
nếu rXY gần bằng 1 thì elíp rất dẹt, nếu  rXYvừa phải thì elíp bầu bĩnh, nếurXY gần 
bằng không thì có 2 khả năng: hoặc ñám mây quan sát tản mạn trên một phạm vi rộng (không 
quan hệ), hoặc ñám mây quan sát không còn dạng elíp mà tập trung thành một hình cong (phi 
tuyến). 
Trường hợp rXY gần 1 elíp ñám mây quan sát khá dẹt. ðể giải thích sự thay ñổi của Y khi 
cho X thay ñổi người ta thường ñưa ra mô hình hồi quy tuyến tính Y = a + bX. 
Có thể tìm hiểu mô hình hồi quy tuyến tính theo hai cách sau ñây: 
6.3.1. ðường trung bình của biến ngẫu nhiên Y theo X trong phân phối chuẩn 2 chiều 
Khảo sát ñồng thời 2 biến ngẫu nhiên ñịnh lượng (như ñã làm từ ñầu chương này). Cặp biến 
X,Y thường tuân theo luật chuẩn hai chiều, khi ấy nếu theo dõi biến X trước thì ứng với mỗi 
giá trị x của biến ngẫu nhiên X có vô số giá trị của biến Y, các giá trị này có giá trị trung bình 
lý thuyết là kỳ vọng M(Y/ x). 
Khi x thay ñổi kỳ vọng M(Y/x) thay ñổi theo và các ñiểm P(x,M(Y/ x)) chạy trên một ñường 
thẳng gọi là ñường hồi quy tuyến tính Y theo X. 
Nếu theo dõi biến Y trước thì ứng với một giá trị y của Y có vô số giá trị của biến X có trung 
bình là kỳ vọng M(X/ y). ðiểm Q(y, M(X/ y) chạy trên một ñường thẳng gọi là ñường hồi quy 
tuyến tính X theo Y. 
Như vậy, về mặt lý thuyết, khi có phân phối chuẩn hai chiều các ñường hồi quy tuyến tính Y 
theo X và hồi quy tuyến tính X theo Y chính là các ñường kỳ vọng có ñiều kiện M(Y/x) và 
M(X/y). 
Trong trường hợp tổng quát của phân phối hai chiều các ñường kỳ vọng có ñiều kiện có thể là 
ñường thẳng hoặc ñường cong và ñược gọi là hồi quy Y theo X (hay X theo Y). Trong thực 
nghiệm chúng ta khảo sát 2 biến ñịnh lượng bằng cách lấy mẫu với dung lượng n khá lớn. 
Thay cho ñường hồi quy tuyến tính lý thuyết có ñường hồi quy thực nghiệm. Gọi (x, y) là toạ 
ñộ của một ñiểm chạy trên ñường thẳng hồi quy, 
_
x và 
_
y là trung bình cộng của X và Y, sx và 
sy là ñộ lệch chuẩn của X và Y, phương trình hồi quy tuyến tính thực nghiệm có dạng: 
 )( xx
s
s
ryy
X
Y
XY −=− (6.4) 
Chương 6 Tương quan và hồi quy 
93
Nếu viết phương trình ñường thẳng dưới dạng y = a + bx thì: 
hệ số góc 
X
Y
XY
s
s
rb = tung ñộ gốc 
−−
−= xbya (6.5) 
Nếu dùng công thức (6.2) ñể tính hệ số tương quan thì: 
hệ số góc 
∑
∑
∑
∑ ∑
−
−
=
n
x
x
n
yx
yx
b
i
i
ii
ii
2
2 )(
 tung ñộ gốc 
n
xby
a
ii∑ ∑−
= ( 6.6) 
Nếu dùng công thức (8.1) ñể tính hệ số tương quan thì: 
hệ số góc 
∑
∑
−
−−
−
−−
=
2)(
))((
xx
yyxx
b
i
ii
 tung ñộ gốc 
−−
−= xbya (6.7) 
ðường hồi quy tuyến tính thực nghiệm X theo Y có phương trình: 
x - 
_
x = d (y - 
_
y ) với hệ số góc d = 
Y
X
XY
s
s
r 
Nếu viết dưới dạng x = c + dy thì hoành ñộ gốc c = 
_
x - c
_
y 
Nếu nhân hệ số góc b của hồi quy tuyến tính Y theo X với hệ số góc d của hồi quy tuyến tính 
X theo Y thì ñược r2xy: 
 b x d = r2XY 
Với ví dụ 6.1: Nghiên cứu mối quan hệ tuyến tính giữa ñường kính lớn x (mm) và khối lượng 
y (gram) của một loại trứng gà. Tiến hành ño ñường kính lớn và cân khối lượng của 10 quả 
trứng. Số liệu thu thập ñược như sau: 
Ta ñã có: 
_
x = 56; 
_
y = 58; s2x = 4,8889; s2y = 3,1111; rXY = 0,4558 
Hồi quy tuyến tính Y theo X 
 y - 58 = )56(
8889,4
1111,34558,0 −x 
Viết dưới dạng y = a + bx thì 
Nếu tính theo (5.5) ta có: 
hệ số góc 3636,0
8889,4
1111,34558,0 ==b và tung ñộ gốc a = 58 - 0,3636. 56 = 37,6384 
Nếu tính theo (5.6) ta có: 
hệ số góc 3636,0
44
16
==b và tung ñộ gốc 6384,37
10
5603636,0580
=
×−
=a 
Thiết kế thí nghiệm 94
6.3.2. ðường thẳng gần ñúng của Y theo X 
Xét bài toán thường gặp trong các thí nghiệm nông nghiệp và sinh học sau: 
Một biến X ñịnh lượng có các giá trị xi(i = 1, n), biến này hoặc do chúng ta chủ ñộng ñiều 
khiển ví dụ thời gian cai sữa, mức protein trong khẩu phần, mật ñộ nuôi trong chuồng, liều 
lượng thuốc, . . . , hoặc quan sát trong tự nhiên như tuổi của vật nuôi, thời gian tiết sữa, số con 
ñẻ ra trên lứa, số con cai sữa, tiêu tốn thức ăn . . . 
Biến thứ hai là một biến Y mà qua quan sát thấy thay ñổi theo X, ví dụ khối lượng vật nuôi 
thay ñổi theo tuổi, năng suất sữa trong một chu kỳ thay ñổi theo thời gian tiết sữa, chỉ tiêu Y 
về phản xạ của chuột thay ñổi theo lượng thuốc X ñã tiêm ... 
Vấn ñề ñặt ra là tìm một hàm của X ñể tính gần ñúng các giá trị của Y. 
Hàm này thường chọn trong các lớp hàm: bậc nhất (tuyến tính), bậc hai, lôgarít, mũ . . . hàm 
phải ñơn giản và dễ lý giải về mặt chuyên môn. 
Nếu dùng xi làm hoành ñộ, yi làm tung ñộ thì có n ñiểm quan sát Mi(xi,yi) và bài toán ở ñây là 
dùng một ñường thẳng, ñường parabôn, ñường lôgarít, ñường mũ, . . . ñể lý giải sự thay ñổi 
của Y theo X, ñường này không buộc phải ñi qua tất cả các ñiểm mà chỉ cần ñi “sát”, ñi “gần” 
các ñiểm quan sát Mi. 
Trong phần hàm nhiều biến của toán học cao cấp sau khi tính ñạo hàm riêng có ñề cập ñến 
ñường thẳng “tốt” nhất theo nguyên tắc (hay phương pháp) bình phương bé nhất. 
200 Y 
150 
100 
80 
 80 100 120 140 160 180 200 220 240 X 
 Hồi quy tuyến tính Y theo X 
Giả sử chọn ñường gần ñúng là ñường thẳng z = a + bx ta có mô hình tuyến tính sau: 
 yi = zi + ei = a + bxi + ei (6.8) 
ei là ñộ chênh lệch giữa giá trị thực yi và giá trị tương ứng zi trên ñường thẳng (thường gọi ei 
là sai số hay phần dư). 
Theo nguyên tắc bình phương bé nhất thì ñường “tốt” nhất trong các ñường thẳng dùng làm 
ñường gần ñúng là ñường có tổng bình phương các phần dư Σe2i nhỏ nhất. 
Dùng cách tính cực trị của hàm hai biến ñể tìm min Σe2i thu ñược hệ hai phương trình (gọi là 
hệ phương trình chuẩn) ñể tìm a và b. 
 an + b Σxi = Σyi 
 aΣxi + b Σx2i = Σxiyi 
Chương 6 Tương quan và hồi quy 
95
Có nhiều cách giải hệ hai phương trình bậc nhất với hai ẩn số. Nếu dùng ñịnh thức ñể giải thì 
có ngay kết quả sau: 
∑
∑
∑
∑ ∑
−
−
=
n
x
x
n
yx
yx
b
i
i
ii
ii
2
2 )(
n
xby
a
ii∑ ∑−
= (6.9) 
trùng với công thức (5.6) ñã dùng ñể tính các hệ số hồi quy a và b ở phần a/ 
Nếu các biến ngẫu nhiên 
ei trong mô hình tuyến tính (5.8) phân phối chuẩn thoả mãn 3 ñiều 
kiện: 
 a/ Kỳ vọng bằng 0 
 b/ Phương sai bằng nhau (6.10) 
 c/ ðộc lập với nhau. 
thì sau khi tính các hệ số theo (5.9) có thể tính ñược sai số của các hệ số, phân tích và ñánh 
giá các nguồn biến ñộng, phân tích sai số dự báo. 
ðường thẳng gần ñúng tốt nhất vừa tìm ñược theo (8.9) trong trường hợp này cũng ñược gọi 
là ñường hồi quy tuyến tính Y theo X. 
(ðể phân biệt có khi người ta gọi ñường này là ñường hồi quy tuyến tính dạng I, còn ñường 
trung bình trong mô hình phân phối chuẩn hai chiều ở a/ là ñường hồi quy tuyến tính dạng II). 
Trong mô hình hồi quy tuyến tính dạng I biến X (không ngẫu nhiên) ñược gọi là biến ñộc lập, 
biến giải thích hay biến ñiều khiển còn biếnY (ngẫu nhiên) thay ñổi theo X ñược gọi là biến 
phụ thuộc, biến kết quả hay biến ñáp. 
Trở lại ñường hồi quy tuyến tính ở phần a/, nếu chọn trước biến ngẫu nhiên X và coi như biến 
ñộc lập thì biến thay ñổi theo Y trong phân phối chuẩn hai chiều thoả mãn các ñiều kiện vừa 
nêu ở (5.10). Như vậy ñường hồi quy tuyến tính dạng II, theo nghĩa ñường trung bình của 
biến Y theo biến X, cũng chính là ñường hồi quy tuyến tính theo nghĩa vừa trình bầy: “ñường 
thẳng gần ñúng tốt nhất ñối với biến Y”, tức là ñường hồi quy tuyến tính dạng I. 
Tóm lại khi cần tính hồi quy tuyến tính theo nghĩa “ðường thẳng gần ñúng tốt nhất ñối với 
biến Y thì dù X là biến không ngẫu nhiên với các sai số ei của mô hình thoả mãn ñiều kiện 
(5.10), hay X là biến ngẫu nhiên trong mô hình phân phối chuẩn hai chiều ta ñều có thể tính 
các hệ số a và b bằng cách dùng các công thức (5.5), (5.6), (5.7) hoặc giải hệ 2 phương trình 
chuẩn. 
Việc tính sai số của a và b, việc phân tích biến ñộng chung thành biến ñộng do hồi quy và 
biến ñộng do sai số, việc tính và ñánh giá dự báo hoàn toàn giống nhau. 
Với ví dụ 6.1: Nghiên cứu mối quan hệ tuyến tính giữa ñường kính lớn x (mm) và khối lượng 
y (gram) của một loại trứng gà. Tiến hành ño ñường kính lớn và cân khối lượng của 10 quả 
trứng. Số liệu thu thập ñược như sau: 
Ta ñã có: n = 10; n = 10; Σxi = 560; Σyi = 580 ; Σxi2 = 31404; Σxiyi = 32496 
10a + 560b = 580 
560a + 31404b = 32496 
Thiết kế thí nghiệm 96
Giải hệ phương trình ta ñược a = 37,6 ; b = 0,364. Như vậy hồi quy tuyến tính khối lượng 
theo ñường kính lớn của trứng là: 
y = 37,6 + 0,364x 
6.4. Kiểm ñịnh ñối với hệ số tương quan và các hệ số hồi quy 
Trong mô hình phân phối chuẩn hai chiều thì hệ số tương quan mẫu là một thống kê có kỳ 
vọng là hệ số tương quan lý thuyết ρ. ðể kiểm ñịnh giả thiết H0: ρ = 0 với ñối thiết H1: ρ ≠ 0 
phải tính giá trị TTN theo công thức: 
 TTNR = 
2
1 2
−
−
n
r
r
 rồi so với giá trị tới hạn t(α/2,n-2) (6.11) 
Kết luận: 
Nếu | TTN | ≤ t(α/2,n-2) thì chấp nhận H0, ngược lại thì bác bỏ H0 
Với ví dụ 6.1: Nghiên cứu mối quan hệ tuyến tính giữa ñường kính lớn x (mm) và khối lượng 
y (gram) của một loại trứng gà. 
Ta ñã có: n = 10; r = 0,4558 
TTN = 448,1
210
4558,01
4558,0
2
=
−
−
; t(0,025;8)= 2,306 
Kết luận: chấp nhận H0: ρ=0 
ðể kiểm ñịnh giả thiết H0 : ρ = ρ0 với ñối thiết H1: ρ ≠ ρ0 thường thực hiện phép biến ñổi 
)
1
1ln(
2
1
r
r
z
−
+
= 
Biến này phân phối chuẩn với kỳ vọng 





−
+
ρ
ρ
1
1ln
2
1
 và phương sai 1/(n-3) 
Từ ñó có quy tắc kiểm ñịnh: 
ZTN = 





+−
−+−
=





−
+
−
−
+−
)1)(1(
)1)(1(ln
2
3)
1
1ln()
1
1ln(
2
3
0
0
0
0
ρ
ρ
ρ
ρ
r
rn
r
rn
so với giá trị tới hạn z(α/2) của phân phối chuẩn tắc 
Kết luận: Nếu |ZTN | ≤ z(α/2) thì chấp nhận H0, ngược lại thì bác bỏ H0 
Trong mô hình hồi quy tuyến tính y = a + bx các sai số ñược giả thiết phân phối chuẩn 
N(0,σ2). 
Chương 6 Tương quan và hồi quy 
97
Sau khi tính các hệ số a và b của ñường hồi quy có thể tính ñược chênh lệch giữa giá trị quan 
sát (yi) và giá trị tương ứng trên ñường hồi quy (yHi) 
yHi = a + bxi  ei = yi- yHi = yi - (a + bxi) 
Phương sai σ2 ñược ước lượng bởi se2 
SE2
= )2(
))((
1
2
−
+−∑
=
n
bxay
n
i
ii
 (6.12) 
SE ñược gọi là sai số của một quan sát trong mô hình hồi quy tuyến tính. 
Tung ñộ gốc a có sai số: 
 SE(a) =
∑
∑
=
=
−
n
i
i
n
i
i
xxn
x
SE
1
2
1
2
)(
 (6.13) 
Hệ số góc b có sai số: 
 SE(b) =
∑
=
−
n
i
i xx
se
1
2)(
 (6.14) 
Với ví dụ 6.1: Nghiên cứu mối quan hệ tuyến tính giữa ñường kính lớn x (mm) và khối lượng 
y (gram) của một loại trứng gà. 
x y yHi = 37,6+0,364xi ei = yi - yHi e2i 
57 61 58,36 2,64 6,95 
54 59 57,27 1,73 2,98 
55 58 57,64 0,36 0,13 
52 56 56,55 -0,55 0,30 
55 57 57,64 -0,64 0,40 
60 59 59,45 -0,45 0,21 
56 56 58,00 -2,00 4,00 
56 58 58,00 0,00 0,00 
57 56 58,36 -2,36 5,59 
58 60 58,73 1,27 1,62 
560 580 580 0,00 22,18 
Ta có: Σ e2i = 22,182; SE2 = 22,182 / (10-2) = 2,773; se = 1,664; 
 Σx2i = 31404; (xi - 
_
x )2 = 44 
 SE(a) = =
× 4410
31404664,1 14,07 và SE(b) = =
44
664,1 0,251 
Thiết kế thí nghiệm 98
Từ ñó có quy tắc kiểm ñịnh ñối với các hệ số a và b 
Giả thiết H0A: a = 0 ñối thiết H1A : a ≠ 0 
Tính TTNA = )(as
a
 so với giá trị tới hạn t(α/2, n-2) 
Kết luận: 
Nếu |TTNA | ≤ t(α/2, n-2) thì chấp nhận H0A, nếu ngược lại thì bác bỏ H0A 
Giả thiết H0B: b = 0 ñối thiết H1B : b ≠ 0 
Tính TTNB = )(bs
b
 và so với giá trị tới hạn t(α/2, n-2) 
Kết luận: 
Nếu |TTNB | ≤ t(α/2, n-2) thì chấp nhận H0B, nếu ngược lại thì bác bỏ H0B 
Với ví dụ 6.1: Nghiên cứu mối quan hệ tuyến tính giữa ñường kính lớn x (mm) và khối lượng 
y (gram) của một loại trứng gà. 
TTNA = 37,6 / 14,07 = 2,672 t(0,025 ;8) = 2,306 Kết luận: a ≠ 0 
TTNB = 0,364 / 0,251 = 1,450 t(0,025,5) = 2,306 Kết luận: b = 0 
6.5. Dự báo theo hồi quy tuyến tính 
Khi có ñường hồi quy tuyến tính thì có thể dùng ñường ñó ñể dự báo giá trị YM ứng với giá 
trị xM ngoài các giá trị xi ñã có của mẫu quan sát: 
 yM = a + b xM (6.15) 
Trong ví dụ 6.1 hồi quy khối lượng theo ñường kính lớn của trứng là 
y = 37,6 + 0,364x 
Dùng ñường hồi quy ñể dự báo khối lượng một quả trứng có ñường kính lớn là 59mm 
y59 = 37,6 + 0,364×59 = 59,076gram 
Các dự báo này cho ta một giá trị dự báo yM và có thể tính ñược sai số dự báo, sai số này lớn 
dần nếu ñiểm dự báo xM ở xa giá trị
__
x , như vậy dự báo xa 
__
x không tốt vì sai số quá lớn. 
Sai số dự báo SEM = SE
∑
=
−
−
++
n
i
i
M
xx
xx
n
1
2
2
)(
)(11 (6.16) 
Với ví dụ 1 ta có sai số dự báo là SE59 =1,664 44
)5659(
10
11
2
−
++ = 1,834 
Chương 6 Tương quan và hồi quy 
99
6.6. Phân tích phương sai và hồi quy 
Dựa theo ý tưởng của phương pháp phân tích phương sai có thể khảo sát tổng bình phương 
toàn bộ (biến ñộng toàn bộ của y) 
 SSTO = ∑
=
−
n
i
i yy
1
2)(
Có thể tách SSTO thành hai tổng bình phương: 1) tổng bình phương do hồi quy SSR và 2)tổng 
bình phương do sai số SSE 
 SSR= ∑
=
−
n
i
H
i yy
1
2)( với yHi = a + bxi (giá trị trên ñường hồi quy) 
 SSE =∑ ∑
= =
=−
n
i
n
i
i
H
ii eyy
1 1
22)( 
Từ ñó có bảng phân tích phương sai sau: 
Nguồn biến ñộng df SS MS FTN F tới hạn 
Hồi quy 1 SSR MSR= SSR/dfR MSR / MSE F(α,dfR,dfE) 
Sai số n-2 SSE MSE = SSE/dfE= se2 
Toàn bộ n-1 SSTO 
Giả thiết H0 : Không có hồi quy (hệ số hồi quy b = 0) với ñối thiết H1 : hệ số b ≠ 0 
Nếu FTN ≤ F(α,dfR,dfE) thì chấp nhận H0 ngược lại thì chấp nhận H1 
Chia SSR cho SSTO ñược 2rSS
SS
TO
R
= và SSE cho SSTO ñược 21 rSSTO
SSE
−= 
r
2
 ñược gọi là hệ số xác ñịnh (6.16) 
Ta còn có FTN = 
2
1 2
2
−
−
=
n
r
r
msE
msR
 = T2tnR (6.17) 
Như vậy kiểm ñịnh F tương ñương với kiểm ñịnh T ñối với hệ số tương quan r và tương 
ñương với kiểm ñịnh T ñối với hệ số góc b. 
Với ví dụ 6.1: Nghiên cứu mối quan hệ tuyến tính giữa ñường kính lớn x (mm) và khối lượng 
y (gram) của một loại trứng gà. 
Từ ñó có bảng phân tích phương sai sau: 
Nguồn biến ñộng df SS MS FTN F tới hạn 
Hồi quy 1 5,818 5,818 2,10 0,185 
Sai số 8 22,182 2,773 
Toàn bộ 9 28,000 
Kết luận : Vì FTN > F tới hạn cho nên giả thiết H0 bị bác bỏ 
FTN = 5,818 / 2,773 = 2,10 = (1,449)2 = (TTNB)2 = (TTNR)2 
Thiết kế thí nghiệm 100
6.7. Bài tập 
6.7.1 
Xác ñịnh mối liên hệ giữa khối lượng của gà mái (kg) và thu nhận thức ăn trong một năm 
(kg). Tiến hành quan sát trên 10 gà mái và thu ñược kết quả như sau : 
Khối lượng gà mái 2,3 2,6 2,4 2,2 2,8 2,3 2,6 2,6 2,4 2,5 
Khối lượng thức ăn 43 46 45 46 50 46 48 49 46 47 
Xây dựng phương trình hồi quy tuyến tính và tính hệ số tương quan. 
6.7.2 
Một thí nghiệm ñược tiến hành ñể xác ñịnh mối liên hệ giữa khối lượng thân thịt lợn (kg) và 
ñộ dày mỡ lưng (mm). Tiến hành xác ñịnh các chỉ tiêu vừa nêu trên 8 thân thịt lợn, kết quả 
thu ñược như sau : 
Khối lượng thân thịt 100 130 140 110 105 95 130 120 
ðộ dày mỡ lưng 42 38 53 34 35 31 45 43 
Xây dựng phương trình hồi quy tuyến tính và tính hệ số tương quan. 
6.7.3 
ðể xác ñịnh khối lượng của cừu (kg) thông qua chu vi lồng ngực, tiến hành cân ño trên 66 
cứu. Số liệu thu ñược như sau : 
Khối lượng (Y) và chu vi lồng ngực (X) của cừu 
Y X Y X Y X Y X Y X Y X 
30 76 20 63 28 77 29 73 18 62 19 67 
24 71 28 70 25 71 30 74 28 70 27 69 
20 63 22 65 27 72 21 64 27 71 31 74 
25 69 28 72 28 74 28 74 30 73 23 67 
25 67 25 67 25 65 48 89 28 72 22 63 
19 62 20 62 20 64 17 60 22 69 35 75 
35 77 35 78 35 78 46 86 48 90 44 84 
37 84 43 81 32 73 43 84 31 73 31 73 
39 78 36 81 33 80 44 82 39 80 45 86 
43 88 41 87 36 82 43 80 33 79 35 78 
38 78 36 76 35 74 39 81 34 74 39 76 
Xây dựng phương trình hồi quy tuyến tính. 

File đính kèm:

  • pdfbai_giang_thiet_ke_thi_nghiem_chuong_6_tuong_quan_va_hoi_quy.pdf