Thứ Bảy, 24 tháng 3, 2012

Bài 11: Ước lượng cỡ mẫu

THNG KÊ SINH HC

nguyên bản tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 11: ƯỚC LƯỢNG CỠ MẪU



Thiết kế của một thí nghiệm chủ yếu là một kế hoạch để thu thập thông tin, mà thông tin cũng giống như mọi hàng hóa khác có thể mua ở các mức giá khác nhau tùy thuộc vào cách mà người ta thu được các dữ liệu. Một vài số đo có chứa một lượng lớn thông tin liên quan đến các tham số đang được quan tâm; những số đo khác có thể chứa rất ít hoặc không có thông tin. Vì sản phẩm của nghiên cứu là thông tin nên chúng ta muốn thực hiện "việc mua" nó với giá thấp nhất.

Thủ tục lấy mẫu, hoặc như người ta thường gọi là thiết kế thí nghiệm, ảnh hưởng đến số lượng thông tin đối với mỗi phép đo. Điều này, cùng với cỡ mẫu n chi phối tổng số lượng thông tin có liên quan trong một mẫu. Với một ít ngoại lệ, chúng ta sẽ quan tâm với tình huống lấy mẫu đơn giản nhất, tức là lấy mẫu ngẫu nhiên từ một quần thể tương đối lớn, và sẽ dành sự chú ý của chúng ta đến việc lựa chọn cỡ mẫu n.

Nhà điều tra chỉ đạt một bước tiến nhỏ trong quy hoạch một thử nghiệm trước khi đụng tới vấn đề lựa chọn cỡ mẫu. Thật vậy, có lẽ một trong những câu hỏi mà nhà thống kê thường nêu ra nhất là: "Cần bao nhiêu số đo cho một mẫu?". Thật không may, nhà thống kê không thể trả lời câu hỏi này mà không biết người làm thử nghiệm muốn thu thập bao nhiêu thông tin. Chắc chắn, tổng số lượng thông tin trong mẫu sẽ ảnh hưởng đến độ đo về tính tốt đẹp của phương pháp suy luận và phải được người điều tra định rõ. Đặc biệt liên quan đến ước lượng, chúng ta muốn biết người điều tra muốn ước lượng chính xác đến mức nào. Điều này có thể được thể hiện bằng cách định rõ một ràng buộc trên sai số của ước lượng.


LOGIC CỦA Ý NGHĨA THỐNG KÊ


Trong các chủ đề trước, chúng ta đã nắm được một số thủ tục thống kê được sử dụng để kiểm nghiệm "ý nghĩa" bằng số của một sự khác biệt quan sát giữa các nhóm. Các tính toán sử dụng trong các thủ tục đó phụ thuộc vào loại dữ liệu cơ bản theo đó kết quả được thể hiện. Đối với dữ liệu nhiều chiều/định lượng (dimensional data), kết quả sẽ là trung bình và thủ tục thống kê thường dùng sẽ kiểm nghiệm-t. Đối với dữ liệu định danh/định tính (nominal data), kết quả được thể hiện như là số đếm tần số hoặc tỉ lệ, phần trăm hoặc tỉ suất, và thủ tục thống kê thông thường sẽ là một kiểm nghiệm Chi bình phương. Nếu dữ liệu được thể hiện trong các giá trị thứ tự xếp hạng, thủ tục thống kê thường dùng sẽ là kiểm nghiệm tổng thứ hạng Wilcoxon hoặc kiểm nghiệm Mann-Whitney U.

Mặc dù mỗi một kiểm nghiệm trong các kiểm nghiệm này được chọn theo kiểu dữ liệu đang xem xét, logic nằm bên dưới là như nhau. Nó theo cùng một nguyên tắc được dùng để chứng minh các định lí hình học trong nhà trường. Chúng ta giả định rằng một phỏng đoán cụ thể là đúng. Sau đó, chúng ta xác định những hậu quả của phỏng đoán đó. Nếu những hậu quả này cho ra một điều vô lí hay điều đáng ngờ hiển nhiên, chúng ta kết luận rằng phỏng đoán ban đầu có thể không đúng, và chúng ta bác bỏ nó coi như một phỏng đoán sai.

Lí luận này khi dùng trong chiến lược thống kê sẽ được gọi là "kiểm nghiệm giả thuyết ", lập luận tiến hành như sau. Chúng ta đã quan sát thấy một sự khác biệt δ giữa hai nhóm A và B. Để kiểm nghiệm "ý nghĩa thống kê" của điều đó, chúng ta giả định rằng hai nhóm A và B thực sự không khác nhau, điều này coi như một phỏng đoán. Phỏng đoán này được gọi là giả thuyết khống (null hypotheisis) được kí hiệu là Ho. Sau đó, với giả định này chúng ta xác định mức độ thường xuyên (xác suất) để một sự khác biệt lớn bằng δ hoặc thậm chí lớn hơn sinh ra do may rủi từ dữ liệu cho hai nhóm có cùng số đối tượng như A và B. Kết quả của việc xác định này là giá trị P có được từ thủ tục kiểm nghiệm thống kê.

Bài 10: Phân tích phương sai hợp

THNG KÊ SINH HC

nguyên bản tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 10: PHÂN TÍCH PHƯƠNG SAI HỢP



I. GIỚI THIỆU

Chúng ta đã quan tâm đến mô hình tuyến tính tổng quát trong việc phân tích dữ liệu. Trong lớp các mô hình này, chúng ta đã tìm hiểu về kiểm nghiệm-t, phân tích phương sai và phân tích phương sai hợp. Nói chung, khi tất cả các biến này là số thì mô hình tuyến tính được gọi là mô hình hồi quy. Khi các biến thuộc loại định tính chúng ta đưa về phân tích phương sai (ANOVA). Trong khi cả hồi quy lẫn phân tích phương sai có thể được chính thức gộp vào GLM (mô hình tuyến tính tổng quát -general linear model), mặc dù theo truyền thống hai kĩ thuật này được coi là khác biệt nhau. Điều tách biệt có tính lịch sử này xảy ra vì hai lí do. Thứ nhất, trước khi máy tính tốc độ cao được dùng phổ quát, khía cạnh tính toán của các kĩ thuật thống kê rất được quan tâm. Các thủ tục tính toán hiệu quả nhất cho hồi quy và ANOVA là khá khác biệt nhau. Thứ hai, hai phương pháp này có khuynh hướng được áp dụng cho các loại bài toán khác nhau.

Phân tích phương sai thường được coi như là một kĩ thuật để so sánh trung bình của hai hay nhiều quần thể trên cơ sở các mẫu từ mỗi quần thể này. Trong thực tế, các quần thể này thường tương ứng với các nhóm điều trị khác nhau, do đó sự khác biệt trong trung bình quần thể có thể là bằng chứng cho sự khác biệt tương ứng trong hiệu quả điều trị.

Các tính toán ANOVA liên quan đến một sự phân chia tổng phương sai mẫu thành các thành phần phương sai bên trong nhóm và phương sai giữa các nhóm. Thành phần bên trong nhóm cho ta một ước lượng cho phương sai sai số, trong khi các thành phần giữa các nhóm ước lượng phương sai sai số cộng với một hàm của hiệu trung bình các phương pháp điều trị. Tỉ giữa phương sai bên trong nhóm với phương sai giữa các nhóm cho ta một kiểm nghiệm cho giả thuyết khống cho rằng tất cả các trung bình đều bằng nhau. Ngoài ra, hiệu giữa trung bình các nhóm cho ta những ước lượng không thiên vị cho các hiệu trung bình quần thể tương ứng, và sai số chuẩn dựa trên phương sai bên trong nhóm cho ta khoảng tin cậy cho các hiệu này và các kiểm nghiệm về ý nghĩa của chúng.

Trái lại, phân tích hồi quy chủ yếu được sử dụng để mô hình các mối quan hệ giữa các biến. Với nó, chúng ta có thể ước lượng hình thức của mối quan hệ giữa một biến đáp ứng với một số biến độc lập. Chúng ta có thể cố gắng để tìm một bộ biến có quan hệ mạnh mẽ nhất đến sự biến thiên trong biến đáp ứng.

Việc phân tích phương sai hợp (ANCOVA -Analysis Of Covariance) biểu thị cho hợp nhất của hai kĩ thuật này. Phương pháp này được R A Fisher sử dụng đầu tiên trong văn bản nghiên cứu (1932), ông là người đã xem kĩ thuật này như một kĩ thuật "kết hợp những ưu điểm và dung hoà các yêu cầu của hai phương thức được áp dụng rất rộng rãi được biết dưới tên là hồi quy và phân tích phương sai ".

Kết hợp hồi quy và phân tích phương sai tạo ra một lợi thế mạnh mẽ cho việc thực hiện các so sánh về sự khác biệt giữa các nhóm điều trị khác nhau trước khi điều trị. Giả sử chúng ta có thể nhận diện ra một biến X có liên quan đến kết quả Y, và với biến đó các nhóm điều trị có trung bình khác nhau. Để đơn giản, chúng ta giả định rằng X là biến duy nhất mà với nó các nhóm khác nhau. Thế thì, nếu chúng ta biết mối quan hệ giữa YX, chúng ta có thể điều chỉnh một cách thích hợp những khác biệt quan sát trên Y để xem xét những khác biệt trên X.

Bài 9: Hồi quy đa biến

THNG KÊ SINH HC

nguyên bản tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 9: PHÂN TÍCH SỰ TƯƠNG QUAN

II. PHÂN TÍCH HỒI QUY ĐA BIẾN

DỰ ĐOÁN LÀ KHOA HỌC?


Một vài năm trước đây, tôi đọc một cuốn sách trong đó có cuộc trò chuyện sau đây (không thật đúng nguyên văn): "Một người phục vụ hỏi Andy Capp#: ‘Trong mấy thứ tiền bạc, quyền lực, hạnh phúc, hoặc khả năng tiên đoán tương lai, ông sẽ chọn cái nào?’. Andy trả lời: ’tiên đoán tương lai vì theo cách đó tôi có thể kiếm ra tiền. Tiền sẽ mang lại cho tôi sức mạnh, và sau đó tôi sẽ được hạnh phúc’".

Có lẽ là công bằng khi nói ước mơ có thể dự đoán được tương lai thì cũng xưa tựa như bản chất con người. Nhiều người trong chúng ta thường coi thường khái niệm "bói toán", điều đó hơi lạ vì bản thân khoa học xoay quanh các phương pháp để tiên đoán tương lai. Thật ra, chúng ta chỉ sử dụng từ vựng khác nhau. Trái ngược với bói toán, chúng ta nói về tính toán thay vì tiên đoán, quy luật thay vì vận số, và biến động thống kê thay vì tai nạn. Tuy nhiên, mục đích của phương pháp khoa học là như nhau. Từ những quan sát các sự kiện đã qua, chúng ta rút ra các quy luật mà khi kiểm chứng xong chúng cho phép chúng ta dự đoán những kết quả trong tương lai.

Lấy ví dụ, khái niệm cho rằng tất cả các động vật chết vào cùng một tuổi nghe có vẻ không có lí nếu chúng ta tính tuổi theo năm, tháng hay ngày, nhưng sẽ trở nên khá hợp lí nếu chúng ta dùng số nhịp đập của tim. Chính ở nhịp đập tim mà động vật này khác với động vật khác. Những con thú nhỏ, như chuột, sống khoảng 3 năm nhưng nhịp tim của chúng rất nhanh chóng. Những con có kích cỡ trung bình, chẳng hạn như thỏ, chó, cừu, vv có nhịp tim đập chậm hơn và sống trong khoảng từ12 đến 20 năm. Voi sống hơn 50 năm, nhưng có nhịp tim chậm. Không phải là điều ngạc nhiên khi một giáo sư nổi tiếng đã tuyên bố rằng "cho đến lúc chết hầu hết động vật có vú sống tự do trong tự nhiên (không phải trong nhà hoặc vườn thú) đã cóp nhặt được trung bình khoảng một tỉ nhịp tim". Có vẻ như chúng ta có thể dự đoán tuổi thọ của động vật từ nhịp tim của chúng. Nhưng, chúng ta vẫn cần có một cách có hệ thống để làm điều này. Khoa học hiện đại đã cho chúng ta kĩ thuật phân tích hồi quy để đạt được mục tiêu này. Chúng ta sẽ thảo luận về một số khía cạnh thực tiễn của kĩ thuật này trong chủ đề này.

I. GIỚI THIỆU

Trong chủ đề trước chúng ta khảo sát mô hình hồi quy với một biến độc lập. Khá thường xuyên trong các phân tích dữ liệu, chúng ta muốn nghiên cứu sự phụ thuộc của một biến ngẫu nhiên Y trên nhiều biến x1 x2, ... , xp. Trong chủ đề này, chúng ta sẽ mở rộng ý tưởng này để bao gồm nhiều hơn một biến độc lập trong phương trình hồi quy. Kĩ thuật này được gọi là hồi quy tuyến tính đa biến .


Bài 8: Hồi quy đơn biến

THNG KÊ SINH HC

nguyên bản tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 8: PHÂN TÍCH SỰ TƯƠNG QUAN

I. HỒI QUY TUYẾN TÍNH ĐƠN GIẢN



Cho một người ba vũ khí - tương quan, hồi quy và cây bút -

và người đó sẽ sử dụng cả ba.

Anon, 1978


Cho đến giờ chúng ta chỉ quan tâm với các phân tích về sự khác biệt. Và, khi làm như vậy, chúng ta đã xem xét việc đo lường n đối tượng trên một biến kết quả đơn nhất (hoặc hai nhóm n đối tượng vào một biến). Các phép đo như vậy đã tạo ra phân bố tần số đơn biến và việc phân tích thường quy về phân tích đơn biến. Bây giờ, chúng ta là xét n đối tượng và mỗi đối tượng với hai số đo, nói cách khác, chúng ta có hai biến cho mỗi đối tượng, gọi là x y. Quan tâm của chúng ta trong dữ liệu này rõ ràng là đo đạc mối quan hệ giữa hai biến số. Chúng ta có thể biểu diễn giá trị của y đối với giá trị của x trong một biểu đồ phân tán và đánh giá xem giá trị của y có thay đổi một cách có hệ thống theo sự biến thiên về giá trị của x hay không. Nhưng chúng ta vẫn muốn có một độ đo tóm tắt đơn nhất về mức độ mạnh yếu của mối quan hệ giữa x và y.

Trong cuốn sách "Kế thừa tự nhiên", Francis Galton đã viết: "mỗi đặc điểm ở một người được chia sẻ với các người thân của mình, nhưng về trung bình chỉ ở một mức độ thấp. Ví dụ, cha da trắng cao sẽ có xu hướng có con trai cao lớn, các con trai về trung bình thấp hơn cha của họ; và con trai với cha thấp, mặc dù có chiều cao dưới mức trung bình đối với toàn bộ dân số, sẽ có xu hướng cao hơn cha của họ. " Sau đó, ông kết luận một hiện tượng gọi là "luật hồi quy phổ quát" và là nguồn gốc của chủ đề chúng ta đang nghiên cứu bây giờ. Ngày nay, đặc tính quay về trung bình của toàn dân số từ các giá trị cực đoan đã được thừa nhận rộng rãi và được gọi là "hồi quy về trung bình".

Chúng ta sẽ xem xét các phương pháp đánh giá sự kết hợp giữa các biến liên tục bằng cách sử dụng hai phương pháp được gọi là phân tích sự tương quanphân tích hồi quy tuyến tính, hai phương pháp này đã trở thành một số trong những kĩ thuật thống kê phổ biến nhất trong nghiên cứu y học.


I. PHÂN TÍCH SỰ TƯƠNG QUAN

1.1. PHƯƠNG SAI HỢP VÀ HỆ SỐ TƯƠNG QUAN

Trong một chủ đề trước đây, chúng ta nói rằng nếu XY là các biến độc lập, thì phương sai của tổng hay hiệu của X và Y là bằng phương sai của X cộng với phương sai của Y, tức là:

var (X ± Y) = var (X) + var (Y)


Bài 7: So sánh nhiều nhóm

THNG KÊ SINH HC

nguyên bản tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 7: PHÂN TÍCH SỰ KHÁC BIỆT

II. SO SÁNH NHIỀU NHÓM


Trong Chủ đề 6, chúng ta đã thảo luận về các phương pháp để so sánh hai nhóm. Tuy nhiên, nhiều thí nghiệm lâm sàng liên quan đến nhiều hơn hai phương pháp điều trị. Trong chủ đề này, chúng ta thảo luận các phương pháp để so sánh g (g > 2) nhóm điều trị, trong đó các phương pháp điều trị được chỉ định ngẫu nhiên cho bệnh nhân. Ví dụ, một thử nghiệm lâm sàng có thể quan tâm đến việc so sánh hiệu quả của 5 loại thuốc liên quan đến việc cải thiện mật độ xương. Có vẻ như vấn đề này có thể được giải quyết bằng cách thực hiện một kiểm nghiệm-t trên tất cả các cặp trung bình có thể có. Tuy nhiên, giải pháp này sẽ không chính xác, vì nó dẫn đến sự biến dạng đáng kể của lỗi thống kê loại I. Chẳng hạn, trong ví dụ trên, có 10 cặp trung bình có thể có, và nếu xác suất để chấp nhận đúng giả thuyết khống cho mỗi so sánh cặp là 1-0,05 = 0,95, thì xác suất chấp nhận đúng giả thuyết khống cho tất cả 10 kiểm nghiệm là (0.95)10 = 0,60, nếu các kiểm nghiệm là độc lập. Do đó, một sự gia tăng đáng kể về lỗi loại I xảy ra.

Phương thức thích hợp để kiểm nghiệm sự bằng nhau của nhiều trung bình là phân tích phương sai (ANOVA - analysis of variance). Tuy nhiên, ANOVA có một ứng dụng rộng hơn bài toán nêu trên. Nó có lẽ là kĩ thuật hữu ích nhất trong lĩnh vực suy luận thống kê. Chủ đề này là một đề tài rộng mà nhiều sách đã dành hoàn toàn cho chuyên đề này bởi vì nó trực tiếp liên quan đến các vấn đề về thiết kế thí nghiệm. Dĩ nhiên, các vấn đề về thiết kế là không thể tách rời vói các vấn đề về phân tích và cần nhấn mạnh rằng trừ phi người ta sử dụng một thiết kế thích hợp, có thể rất khó khăn hoặc thậm chí không thể đưa ra được các kết luận đúng đắn từ dữ liệu thu được. Trước khi nghiên cứu kĩ thuật ANOVA, chúng ta hãy cùng thảo luận về khái niệm hiệu quả và nhân rộng.

I. KHÁI NIỆM VỀ HIỆU QUẢ VÀ MÔ HÌNH TUYẾN TÍNH

1.1. GIỚI THIỆU CHUNG

Bài 6: So sánh 2 nhóm

THNG KÊ SINH HC

nguyên bản tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 6: PHÂN TÍCH SỰ KHÁC BIỆT

I. SO SÁNH HAI NHÓM


Chúng ta tin ở Thượng đế, còn tất cả những thứ khác đều phải dùng dữ liệu.


I. GIỚI THIỆU

Trước khi đi sâu vào những đề mục trung tâm của chủ đề này, chúng ta hãy cùng thảo luận một chút về bản chất của nghiên cứu khoa học. Một số người tự hào và kiêu hãnh cho rằng họ biết rất nhiều. Thật ra, càng biết ít chúng ta càng đoan chắc trong giải thích, càng biết nhiều chúng ta càng nhận ra những hạn chế của mình. Socrate thường nói: "tôi biết chỉ có một điều là − tôi không biết". Không ngạc nhiên khi biên tập viên John Maddox của tạp chí Nature, ở Sydney mới đây nhận xét rằng "cuộc sống vẫn là một bí ẩn". Chúng tôi không nghĩ rằng đây là một phát biểu bi quan mà là một sự thừa nhận về tính phức tạp của cuộc sống.

Từ quan điểm toán học, thế giới đầy hiện tượng không gì khác hơn một tập hợp các mối quan hệ. Mọi thứ đều có điều kiện, tương đối và phụ thuộc lẫn nhau. Một trong những nguyên tắc lớn đầu tiên của di truyền học quần thể cho rằng kiểu hình là kết quả của kiểu gen cá nhân và của môi trường mà cá nhân phát triển và sống trong đó. Vì thế thay đổi trong kiểu hình có thể do cả thay đổi trong kiểu gen lẫn thay đổi trong môi trường.

Vì vậy, để hiểu hay để giải thích hiện tượng trên thế giới, chúng ta cần hình thành các giả thuyết. Đối với mỗi hiện tượng mà chúng ta nghiên cứu, chúng ta phải có ít nhất một, nói chính xác theo số học, giả thuyết thống kê. Đôi khi, cũng có một số dự đoán khác thay thế mà chúng ta có thể thực hiện và mỗi một dự đoán này phải được phân biệt rõ ràng trước khi bắt đầu nghiên cứu. Điều này cho phép chúng ta xác định trước cách mà chúng ta sẽ lựa chọn cái nào khi thu được kết quả.

Có lẽ là hợp lí khi nói rằng tột đỉnh của phương pháp khoa học là thử nghiệm. Từ một lí thuyết hoặc khái niệm trừu tượng, người ta đưa ra một dự đoán và xây dựng một thí nghiệm để phát hiện xem dự đoán này có đúng (sinh ra) hay không. Nếu dự đoán xảy ra đúng như chúng ta mong đợi, chúng ta đã thêm một khẳng định nào đó vào lí thuyết này, nhưng hoàn toàn không có nghĩa là đã chứng minh được lí thuyết đó là đúng (bạn có thể tham khảo một số sách triết học để thấy quan điểm của tôi − Chúng ta sẽ thảo luận về điều này sau). Đối với bất kì một quan sát nào đều có một số cách giải thích có thể có cho nó. Do đó, chúng ta không bao giờ có thể chắc chắn rằng cách giải thích mà chúng ta đề ra là cách phải áp dụng trong các trường hợp cụ thể của một thí nghiệm. Nếu chúng ta tin rằng một quan sát hay một số quan sát chứng minh một giả thuyết trừu tượng là đúng, chúng ta phạm phải sai lầm về lập luận là khẳng định hậu quả trong giả thuyết. Một lí thuyết hoặc giả thuyết tốt là cái tạo ra được một số dự đoán khác nhau và nó càng trở nên được khẳng định hơn khi từng dự đoán được xác minh. Thậm chí, khi tất cả các dự đoán được xác minh nó vẫn có thể sai do vẫn có thể có một số cách giải thích khác, vì như đã thảo luận trước đây, cuộc sống là một tập hợp các quan hệ phụ thuộc lẫn nhau. Khi một số cách giải thích khác nhau đã được đưa ra cho một lớp các biến cố, chúng ta thường thích cách nào có phạm vi bao hàm rộng lớn hơn. Nếu các phạm vi này đều như nhau, chúng ta thích những lí thuyết nào tao nhã hơn. Điều này nói lên rằng năng lực con người của chúng ta giới hạn các cách giải thích khoa học mà chúng ta có thể đưa ra, nhưng điều này thường là đúng cho hầu hết chúng ta.

Bây giờ, chúng ta sẽ xem các quy luật thống kê có thể giúp chúng ta đưa ra nhận định khoa học của mình như thế nào. Xem trọn bài

II. KIỂM NGHIỆM GIẢ THUYẾT

Bài 5: Phân bố bình thường

THỐNG KÊ SINH HỌC

Bản gốc tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 5: PHÂN BỐ MẪU II

PHÂN BỐ BÌNH THƯỜNG


Phân bố bình thường chiếm vị trí trung tâm trong lí thuyết thống kê và thực hành. Phân bố này đáng lưu ý và có tầm quan trọng to lớn, không chỉ vì hầu hết các hiện tượng xảy ra một cách tự nhiên với các biến ngẫu nhiên liên tục tuân theo nó một cách chính xác, và không phải vì nó là một mô hình hữu ích trong mọi trường hợp ngoại trừ các trường hợp bất thường. Tầm quan trọng của phân bố này nằm ở các tính chất toán học thuận tiện của nó trực tiếp dẫn đến đến nhiều lí thuyết thống kê đang như là một cơ sở cho việc thực hành, ở hiệu lực của nó như là một xấp xỉ cho phân bố khác, ở mối quan hệ trực tiếp đến trung bình mẫu của hầu như bất kì phân bố nào, và ở ứng dụng của nó vào các biến ngẫu nhiên phân bố gần như bình thường hay có thể dễ dàng chuyển đổi thành các biến xấp xỉ.

Từ "bình thường" (normal) như được sử dụng trong việc mô tả “phân bố bình thường” không nên nhầm lẫn là có nghĩa "bình thường" hoặc "điển hình", "không đặc biệt" hay "phổ biến nhất". Đặc biệt, một phân bố không tuân theo phân bố này sẽ được gọi là phân bố “khác bình thường" thay vì phân bố “bất thường". Vấn đề về thuật ngữ này đã khiến nhiều tác giả gọi phân bố bình thường là phân bố Gauss, nhưng điều này lại cũng có vấn đề do thiếu chính xác về mặt lịch sử. Năm 1718, nhà toán học vĩ đại người Pháp De Moivre đã suy được một biểu thức toán học về mật độ bình thường và đã công bố trong công trình Học thuyết về may rủi (Doctrine des chances) của ông. Giống như công trình trước đây của Poisson, định lí De Moivre không thu hút được sự chú ý ban đầu xứng tầm, tuy nhiên cuối cùng nó đã lọt vào mắt của Pierre-Simon de Laplace (một nhà toán học và triết học lớn của Pháp), ông đã khái quát lên và đưa nó vào trong công trình có nhiều ảnh hưởng là Lí thuyết Giải tích về Xác suất (Théorie Analytique des Probabilités ) xuất bản năm 1812. Carl F. Gauss, một nhà toán học vĩ đại của Đức, là người đã phát triển các tính chất toán học và chỉ ra khả năng ứng dụng của phân bố của De Moivre vào nhiều hiện tượng "sai lầm" tự nhiên. Vì thế phân bố này đôi khi được gọi là phân bố Gauss.


Thế thì phân bố này vận hành ra sao? Phân bố bình thường lúc khởi đầu được diễn đạt như sau: Giả sử có 1000 người sử dụng cùng một cái cân để cân một gói có trọng lượng thật là 1,00 kg, họ sẽ cho ra các giá trị trên và dưới 1,00 kg; nếu tập các số đo sai nằm bên trên hoặc bên dưới giá trị thật có xác suất bằng 0,5, thì biểu đồ tần số của các trọng lượng quan sát được sẽ có xu hướng nằm vây quanh 1,00 kg một cách mạnh mẽ (Hình 1). Các số đo sai của giá trị thật có thể được định nghĩa như một biến ngẫu nhiên liên tục trong phạm vi - tới + ∞. Phân bố xác suất của số đo sai được gọi là phân bố sai số. Tuy nhiên, vì phân bố đã được tìm thấy để mô tả nhiều hiện tượng tự nhiên và vật lí khác nên hiện nay thường được biết đến như là phân bố bình thường. Do đó, chúng ta sẽ sử dụng thuật ngữ phân bố "bình thường" thay vì phân bố De Moivre hay Gauss.
Hình 1: Biểu đồ xu hướng trung tâm của trọng lượng quan sát xung quanh trọng lượng thật 1 kg.

Trước khi đi sâu vào phân bố liên tục quan trọng này ta tìm hiểu sơ qua các tính chất của phân bố liên tục nói chung qua ví dụ về một phân bố liên tục đơn giản, đó là phân bố liên tục đều.

0. ĐẶC ĐIỂM CỦA BIẾN NGẪU NHIÊN LIÊN TỤC

Bài 4: Phân bố rời rạc

THỐNG KÊ SINH HỌC


Bản gốc tiếng Anh: Nguyễn Văn Tuấn

Chủ đề 4: PHÂN BỐ MẪU I

CÁC PHÂN BỐ RỜI RẠC



Hầu hết các hiện tượng mà chúng ta quan sát hàng ngày đều có thể đo được. Ta có thể tạm chia các phép đo thành hai nhóm: một nhóm liên quan đến các quan sát có thể đánh giá định lượng được và nhóm khác liên quan đến các quan sát không thể định lượng được nhưng có thể đánh giá định tính. Chẳng hạn, huyết áp (mmHg), mật độ khoáng trong xương (g/cm²), vận tốc sóng , vv ... có thể được xếp loại vào các phép đo định lượng vì chúng được định nghĩa bằng một thang độ vật lí nhất định. Trong thống kê, chúng ta gọi là những độ đo trên là độ đo liên tục. Mặt khác,chúng ta chỉ có thể dùng các giá trị nguyên để diễn tả số tai nạn giao thông do ảnh hưởng của rượu của một thành phố, để trình bày kết quả điểm tổng hợp của các học sinh sau một kì thi vv.. . hoặc sử dụng các giá trị định tính như là nam (đực/trống) hay nữ (cái/mái) để mô tả quan hệ giới tính của người (động vật), giàu hay nghèo để mô tả tình trạng giàu có, chết hoặc sống để chỉ một sự kiện tối cùng,vv... Những thứ này được gọi là những độ đo rời rạc. Cái được dùng để nhận các giá trị này được gọi là biến. Vì vậy, chúng ta có thể có các biến liên tục và các biến rời rạc.

Mỗi một trong các biến này có các đặc điểm riêng của chúng về phân bố. Ở đây, cụm từ các đặc điểm riêng dùng để chỉ trung bình, phương sai, miền giá trị, hình dạng của phân bố vv... đã giới thiệu ngắn gọn ở chủ đề 2 có tựa là “Thống kê mô tả”. Trong chủ đề này chúng ta sẽ bàn bạc cụ thể hơn về phân bố rời rạc trước. Đặc điểm riêng của các phân bố liên tục sẽ là đề tài của một chủ đề tiếp theo.

I. ĐẶC ĐIỂM RIÊNG CỦA BIẾN NGẪU NHIÊN

1.1. BIẾN NGẪU NHIÊN


Bài 3: Xác suất nhập môn

Chủ đề 3: XÁC SUẤT NHẬP MÔN

Bản gốc tiếng Anh: Nguyễn Văn Tuấn

I. GIỚI THIỆU

Nhà nghiên cứu y khoa nổi tiếng người Anh Sir George Pickering đã từng nhận xét rằng "bác sĩ muốn giúp bệnh nhân, nhưng mức độ mà họ có thể giúp hiển nhiên phụ thuộc vào kiến thức của bác sĩ. Nhưng kiến thức là một vấn đề xác suất. Chẩn đoán là một vấn đề xác suất, và trong đánh giá việc điều trị, cơ sở mà bác sĩ phải dựa vào là kiến thức về xác suất ." Một số bạn có thể đã có sự dè dặt về nhận xét này, nhưng thực tế là khắc nghiệt và bướng bỉnh, và đòi hỏi phải được xử lí theo những cách riêng của nó. Chúng ta làm việc trong một thế giới ngẫu nhiên, và không có cách nào để loại bỏ hoàn toàn nguy cơ bị sai lầm. Tôi nghĩ rằng vấn đề thực sự của chúng ta không phải là làm thế nào để loại bỏ ngẫu nhiên mà làm thế nào để sống với chúng một cách thông minh. Trong nghiên cứu y học, mọi thứ không phải luôn luôn tiến hành như chúng ta giả thuyết hoặc lên kế hoạch. Hai lí do chính của việc này có thể là (i) giả thuyết của chúng ta là không chính xác và / hoặc (ii) chúng ta chưa có đủ bằng chứng để bác bỏ / chấp nhận giả thuyết. Lí do đầu là ý tưởng giả thuyết đó có thể được định nghĩa lại, tuy nhiên, lí do thứ hai là sự kiện (không có gì ngoài sự kiện), không thể thay đổi nhưng có thể được xử lí theo xác suất.

Trong chủ đề vừa qua, chúng ta đã quan tâm đến lĩnh vực của thống kê thường được gọi là phân tích mô tả. Chúng ta đã nêu ra rằng suy luận thống kê đưa ra các dự đoán về quần thể (dân số) bằng cách sử dụng thông tin thu được từ một mẫu lấy ngẫu nhiên từ quần thể đó. Suy luận thống kê chủ yếu dựa vào lí thuyết xác suất, trước hết là do lí thuyết xác suất cung cấp một phương tiện để xác định độ tin cậy của kết luận. Trong chủ đề này, chúng ta sẽ được giới thiệu những khái niệm cơ bản của lí thuyết xác suất để hiểu các kết luận thu được từ việc ứng dụng kĩ thuật thống kê để phân tích dữ liệu cũng như những lí do đằng sau các đòi hỏi trong lấy mẫu xác suất khi thu thập dữ liệu.

Trước khi giới thiệu sư vận hành của xác suất, chúng ta sẽ điểm qua vắn tắt một vài ý tưởng chính như lí thuyết tập hợp, các biến cố, hoán vị và tổ hợp.