Hiển thị các bài đăng có nhãn phương sai hợp. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn phương sai hợp. Hiển thị tất cả bài đăng

Thứ Bảy, 24 tháng 3, 2012

Bài 10: Phân tích phương sai hợp

THNG KÊ SINH HC

nguyên bản tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 10: PHÂN TÍCH PHƯƠNG SAI HỢP



I. GIỚI THIỆU

Chúng ta đã quan tâm đến mô hình tuyến tính tổng quát trong việc phân tích dữ liệu. Trong lớp các mô hình này, chúng ta đã tìm hiểu về kiểm nghiệm-t, phân tích phương sai và phân tích phương sai hợp. Nói chung, khi tất cả các biến này là số thì mô hình tuyến tính được gọi là mô hình hồi quy. Khi các biến thuộc loại định tính chúng ta đưa về phân tích phương sai (ANOVA). Trong khi cả hồi quy lẫn phân tích phương sai có thể được chính thức gộp vào GLM (mô hình tuyến tính tổng quát -general linear model), mặc dù theo truyền thống hai kĩ thuật này được coi là khác biệt nhau. Điều tách biệt có tính lịch sử này xảy ra vì hai lí do. Thứ nhất, trước khi máy tính tốc độ cao được dùng phổ quát, khía cạnh tính toán của các kĩ thuật thống kê rất được quan tâm. Các thủ tục tính toán hiệu quả nhất cho hồi quy và ANOVA là khá khác biệt nhau. Thứ hai, hai phương pháp này có khuynh hướng được áp dụng cho các loại bài toán khác nhau.

Phân tích phương sai thường được coi như là một kĩ thuật để so sánh trung bình của hai hay nhiều quần thể trên cơ sở các mẫu từ mỗi quần thể này. Trong thực tế, các quần thể này thường tương ứng với các nhóm điều trị khác nhau, do đó sự khác biệt trong trung bình quần thể có thể là bằng chứng cho sự khác biệt tương ứng trong hiệu quả điều trị.

Các tính toán ANOVA liên quan đến một sự phân chia tổng phương sai mẫu thành các thành phần phương sai bên trong nhóm và phương sai giữa các nhóm. Thành phần bên trong nhóm cho ta một ước lượng cho phương sai sai số, trong khi các thành phần giữa các nhóm ước lượng phương sai sai số cộng với một hàm của hiệu trung bình các phương pháp điều trị. Tỉ giữa phương sai bên trong nhóm với phương sai giữa các nhóm cho ta một kiểm nghiệm cho giả thuyết khống cho rằng tất cả các trung bình đều bằng nhau. Ngoài ra, hiệu giữa trung bình các nhóm cho ta những ước lượng không thiên vị cho các hiệu trung bình quần thể tương ứng, và sai số chuẩn dựa trên phương sai bên trong nhóm cho ta khoảng tin cậy cho các hiệu này và các kiểm nghiệm về ý nghĩa của chúng.

Trái lại, phân tích hồi quy chủ yếu được sử dụng để mô hình các mối quan hệ giữa các biến. Với nó, chúng ta có thể ước lượng hình thức của mối quan hệ giữa một biến đáp ứng với một số biến độc lập. Chúng ta có thể cố gắng để tìm một bộ biến có quan hệ mạnh mẽ nhất đến sự biến thiên trong biến đáp ứng.

Việc phân tích phương sai hợp (ANCOVA -Analysis Of Covariance) biểu thị cho hợp nhất của hai kĩ thuật này. Phương pháp này được R A Fisher sử dụng đầu tiên trong văn bản nghiên cứu (1932), ông là người đã xem kĩ thuật này như một kĩ thuật "kết hợp những ưu điểm và dung hoà các yêu cầu của hai phương thức được áp dụng rất rộng rãi được biết dưới tên là hồi quy và phân tích phương sai ".

Kết hợp hồi quy và phân tích phương sai tạo ra một lợi thế mạnh mẽ cho việc thực hiện các so sánh về sự khác biệt giữa các nhóm điều trị khác nhau trước khi điều trị. Giả sử chúng ta có thể nhận diện ra một biến X có liên quan đến kết quả Y, và với biến đó các nhóm điều trị có trung bình khác nhau. Để đơn giản, chúng ta giả định rằng X là biến duy nhất mà với nó các nhóm khác nhau. Thế thì, nếu chúng ta biết mối quan hệ giữa YX, chúng ta có thể điều chỉnh một cách thích hợp những khác biệt quan sát trên Y để xem xét những khác biệt trên X.

Bài 8: Hồi quy đơn biến

THNG KÊ SINH HC

nguyên bản tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 8: PHÂN TÍCH SỰ TƯƠNG QUAN

I. HỒI QUY TUYẾN TÍNH ĐƠN GIẢN



Cho một người ba vũ khí - tương quan, hồi quy và cây bút -

và người đó sẽ sử dụng cả ba.

Anon, 1978


Cho đến giờ chúng ta chỉ quan tâm với các phân tích về sự khác biệt. Và, khi làm như vậy, chúng ta đã xem xét việc đo lường n đối tượng trên một biến kết quả đơn nhất (hoặc hai nhóm n đối tượng vào một biến). Các phép đo như vậy đã tạo ra phân bố tần số đơn biến và việc phân tích thường quy về phân tích đơn biến. Bây giờ, chúng ta là xét n đối tượng và mỗi đối tượng với hai số đo, nói cách khác, chúng ta có hai biến cho mỗi đối tượng, gọi là x y. Quan tâm của chúng ta trong dữ liệu này rõ ràng là đo đạc mối quan hệ giữa hai biến số. Chúng ta có thể biểu diễn giá trị của y đối với giá trị của x trong một biểu đồ phân tán và đánh giá xem giá trị của y có thay đổi một cách có hệ thống theo sự biến thiên về giá trị của x hay không. Nhưng chúng ta vẫn muốn có một độ đo tóm tắt đơn nhất về mức độ mạnh yếu của mối quan hệ giữa x và y.

Trong cuốn sách "Kế thừa tự nhiên", Francis Galton đã viết: "mỗi đặc điểm ở một người được chia sẻ với các người thân của mình, nhưng về trung bình chỉ ở một mức độ thấp. Ví dụ, cha da trắng cao sẽ có xu hướng có con trai cao lớn, các con trai về trung bình thấp hơn cha của họ; và con trai với cha thấp, mặc dù có chiều cao dưới mức trung bình đối với toàn bộ dân số, sẽ có xu hướng cao hơn cha của họ. " Sau đó, ông kết luận một hiện tượng gọi là "luật hồi quy phổ quát" và là nguồn gốc của chủ đề chúng ta đang nghiên cứu bây giờ. Ngày nay, đặc tính quay về trung bình của toàn dân số từ các giá trị cực đoan đã được thừa nhận rộng rãi và được gọi là "hồi quy về trung bình".

Chúng ta sẽ xem xét các phương pháp đánh giá sự kết hợp giữa các biến liên tục bằng cách sử dụng hai phương pháp được gọi là phân tích sự tương quanphân tích hồi quy tuyến tính, hai phương pháp này đã trở thành một số trong những kĩ thuật thống kê phổ biến nhất trong nghiên cứu y học.


I. PHÂN TÍCH SỰ TƯƠNG QUAN

1.1. PHƯƠNG SAI HỢP VÀ HỆ SỐ TƯƠNG QUAN

Trong một chủ đề trước đây, chúng ta nói rằng nếu XY là các biến độc lập, thì phương sai của tổng hay hiệu của X và Y là bằng phương sai của X cộng với phương sai của Y, tức là:

var (X ± Y) = var (X) + var (Y)