Thứ Bảy, 24 tháng 3, 2012

Bài 11: Ước lượng cỡ mẫu

THNG KÊ SINH HC

nguyên bản tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 11: ƯỚC LƯỢNG CỠ MẪU



Thiết kế của một thí nghiệm chủ yếu là một kế hoạch để thu thập thông tin, mà thông tin cũng giống như mọi hàng hóa khác có thể mua ở các mức giá khác nhau tùy thuộc vào cách mà người ta thu được các dữ liệu. Một vài số đo có chứa một lượng lớn thông tin liên quan đến các tham số đang được quan tâm; những số đo khác có thể chứa rất ít hoặc không có thông tin. Vì sản phẩm của nghiên cứu là thông tin nên chúng ta muốn thực hiện "việc mua" nó với giá thấp nhất.

Thủ tục lấy mẫu, hoặc như người ta thường gọi là thiết kế thí nghiệm, ảnh hưởng đến số lượng thông tin đối với mỗi phép đo. Điều này, cùng với cỡ mẫu n chi phối tổng số lượng thông tin có liên quan trong một mẫu. Với một ít ngoại lệ, chúng ta sẽ quan tâm với tình huống lấy mẫu đơn giản nhất, tức là lấy mẫu ngẫu nhiên từ một quần thể tương đối lớn, và sẽ dành sự chú ý của chúng ta đến việc lựa chọn cỡ mẫu n.

Nhà điều tra chỉ đạt một bước tiến nhỏ trong quy hoạch một thử nghiệm trước khi đụng tới vấn đề lựa chọn cỡ mẫu. Thật vậy, có lẽ một trong những câu hỏi mà nhà thống kê thường nêu ra nhất là: "Cần bao nhiêu số đo cho một mẫu?". Thật không may, nhà thống kê không thể trả lời câu hỏi này mà không biết người làm thử nghiệm muốn thu thập bao nhiêu thông tin. Chắc chắn, tổng số lượng thông tin trong mẫu sẽ ảnh hưởng đến độ đo về tính tốt đẹp của phương pháp suy luận và phải được người điều tra định rõ. Đặc biệt liên quan đến ước lượng, chúng ta muốn biết người điều tra muốn ước lượng chính xác đến mức nào. Điều này có thể được thể hiện bằng cách định rõ một ràng buộc trên sai số của ước lượng.


LOGIC CỦA Ý NGHĨA THỐNG KÊ


Trong các chủ đề trước, chúng ta đã nắm được một số thủ tục thống kê được sử dụng để kiểm nghiệm "ý nghĩa" bằng số của một sự khác biệt quan sát giữa các nhóm. Các tính toán sử dụng trong các thủ tục đó phụ thuộc vào loại dữ liệu cơ bản theo đó kết quả được thể hiện. Đối với dữ liệu nhiều chiều/định lượng (dimensional data), kết quả sẽ là trung bình và thủ tục thống kê thường dùng sẽ kiểm nghiệm-t. Đối với dữ liệu định danh/định tính (nominal data), kết quả được thể hiện như là số đếm tần số hoặc tỉ lệ, phần trăm hoặc tỉ suất, và thủ tục thống kê thông thường sẽ là một kiểm nghiệm Chi bình phương. Nếu dữ liệu được thể hiện trong các giá trị thứ tự xếp hạng, thủ tục thống kê thường dùng sẽ là kiểm nghiệm tổng thứ hạng Wilcoxon hoặc kiểm nghiệm Mann-Whitney U.

Mặc dù mỗi một kiểm nghiệm trong các kiểm nghiệm này được chọn theo kiểu dữ liệu đang xem xét, logic nằm bên dưới là như nhau. Nó theo cùng một nguyên tắc được dùng để chứng minh các định lí hình học trong nhà trường. Chúng ta giả định rằng một phỏng đoán cụ thể là đúng. Sau đó, chúng ta xác định những hậu quả của phỏng đoán đó. Nếu những hậu quả này cho ra một điều vô lí hay điều đáng ngờ hiển nhiên, chúng ta kết luận rằng phỏng đoán ban đầu có thể không đúng, và chúng ta bác bỏ nó coi như một phỏng đoán sai.

Lí luận này khi dùng trong chiến lược thống kê sẽ được gọi là "kiểm nghiệm giả thuyết ", lập luận tiến hành như sau. Chúng ta đã quan sát thấy một sự khác biệt δ giữa hai nhóm A và B. Để kiểm nghiệm "ý nghĩa thống kê" của điều đó, chúng ta giả định rằng hai nhóm A và B thực sự không khác nhau, điều này coi như một phỏng đoán. Phỏng đoán này được gọi là giả thuyết khống (null hypotheisis) được kí hiệu là Ho. Sau đó, với giả định này chúng ta xác định mức độ thường xuyên (xác suất) để một sự khác biệt lớn bằng δ hoặc thậm chí lớn hơn sinh ra do may rủi từ dữ liệu cho hai nhóm có cùng số đối tượng như A và B. Kết quả của việc xác định này là giá trị P có được từ thủ tục kiểm nghiệm thống kê.

1 nhận xét:

Vương nói...

cũng khá là hay đó bạn . Cảm ơn


p/s: Thông tin khuyen mai Viettel luôn được cập nhật,
Viettel khuyen mai thang 9 siêu khủng.