Hãy luôn khát khao, hãy cứ dại khờ: Bài giảng xác suất thống kê.

§1 của Chương “Xác suất là gì”. Trong phần này:

- Xác suất là gì

- 3 tiên đề về sự nhất quán xủa xác suất

- Xác suất phụ thuộc vào những gì ?

- Tính xác suất bằng thống kê

Hầu như mọi người đều biết đến khái niệm xác suất. Tuy nhiên không phải ai cũng hiểu rõ những tính chất cơ bản của nó. Ví dụ như sự phụ thuộc vào thông tin của xác suất (mỗi khi có thông tin mới thì xác suất thay đổi) hay bị bỏ qua. Và nhiều người quan niệm rằng mỗi sự kiện chỉ có một xác suất (tức là chỉ có một lời giải đúng cho câu hỏi: xác suất của sự kiến đó bằng bao nhiêu), trong khi thực ra hai người quan sát khác nhau có thể tính ra hai giá trị xác suất khác nhau cho cùng một sự kiện và cả hai đều “đúng”, nếu như họ có những thông tin khác nhau về sự kiện đó. Bởi vậy tôi muốn nhấn mạnh những điều đó ở đây.

Trước khi đi vào lý thuyết, tôi xin đưa ra đây một câu đố có liên quan đến xác suất. Giả sử có một trò chơi trên TV như sau: có 3 cánh cửa, đằng sau 1 trong 3 cánh cửa đó là 1 món quà lớn, còn sau 2 cửa còn lại không có gì. Người chơi được chọn 1 trong 3 cánh cửa, nếu chọn đúng cửa có quà thì được nhận quà. Sau khi người chơi đã chọn 1 cửa, người hướng dẫn chương trình mở một trong hai cửa còn lại ra, nhưng sẽ chỉ mở cửa không có quà. Sau đó người chơi được quyền chọn, hoặc là giữ cái cửa mình chọn ban đầu, hoặc là đổi lấy cái cửa chưa được mở còn lại. Theo bạn thì người chơi nên chọn phương án nào ? Vì sao ? Hãy thử nghĩ về nó một chút trước khi tiếp tục đọc.

Xác suất là gì ?

Xác suất của một sự kiện (hay tình huống giả định) là khả năng xảy ra sự kiện (hay tình huống giả định) đó, được đánh giá dưới dạng một số thực nằm giữa 0 và 1.

Khi một sự kiện không thể xảy ra thì xác suất của nó bằng 0. Ví dụ như xác suất của sự kiện “có người sống trên mặt trời” bằng 0.

Khi một sự kiện chắn chắn đã hoặc sẽ xảy ra thì xác suất của nó bằng 1 (hay còn viết là 100%). Ví dụ như sự kiện “tôi được sinh ra từ trong bụng mẹ” có xác suất bằng 1.

Khi một sự kiện có thể xảy ra và cũng có thể không xảy ra, và chúng ta không biết nó có chắn chắn xảy ra hay không, thì chúng ta có thể coi xác suất của nó lớn hơn 0 và nhỏ hơn 1. Sự kiện nào được coi là càng dễ xảy ra thì có xác suất càng lớn (càng gần 1), và ngược lại nếu càng khó xảy ra thì xác suất càng nhỏ (càng gần 0). Ví dụ tôi mua một vé xổ số. Tôi không biết nó sẽ trúng giải hay không, có thể có mà cũng có thể không. Nếu như cứ 100 vé xổ số chỉ có 1 vé trúng giải, thì tôi sẽ coi xác suất trúng giải của vé của tôi là 1%. Con số 1% ở đây chính là tần số, hay tỷ lệ trúng giải của các vé xổ số: nó bằng số các vé trúng giải chia cho tổng số các vé.

Không những chỉ các sự kiện trong tương lai, mà cả các sự kiện trong quá khứ, mà chúng ta thiếu thông tin để có thể biết chắc là chúng đã thực sự xảy ra hay không, thì chúng ta vẫn có thể gán cho các sự kiện đó một xác suất nào đó, ứng với độ tin tưởng của chúng ta về việc sự kiện đó đã thực sự xảy ra hay không. Ví dụ như một ông giáo sư bạn tôi có từng làm việc cho KGB hay không ? Tôi không biết. Nhưng tôi nghe nói có một số nhỏ các giáo sư từng làm việc cho KGB. Bởi vậy theo tôi xác suất “bạn tôi từng làm cho KGB” là một số nhỏ nhưng lớn hơn 0.

3 tiên đề về sự nhất quán của xác suất

Tiên đề 1. Như đã viết phía trên, nếu X là một sự kiện (giả định) và ký hiệu p(X) là xác suất của X thì

0 \leq p(X) \leq 1

Tiên đề 2. Nếu X là một sự kiện, và ký hiệu \overline{X} là sự kiện “phủ định của X” thì

p(X) + p(\overline{X}) = 1

Ý nghĩa triết học của tiên đề 2 tương đối hiển nhiên: Trong hai sự kiện “X” và “phủ định của X” có 1 và chỉ 1 sự kiện xảy ra. Nếu “X” càng có nhiều khả năng xả ra thì “phủ định của X” càng có ít khả năng xảy ra, và ngược lại.

Ví dụ. Một học sinh đi thi vào một trường đại học. Nếu xác suất thi đỗ là 80% thì xác suất thi trượt là 20% (= 100% – 80%), chứ không thể là 30%, vì nếu xác suất thi đỗ là 80% và xác suất thi trượt là 30% thì không nhất quán.

Ví dụ. Tôi tung một đồng tiền, khi nó rơi xuống thì có thể hiện mặt sấp hoặc mặt ngửa. Tổng xác suất của hai sự kiện “mặt sấp” và “mặt ngửa” bằng 1. Nếu tôi không có lý do đặc biệt gì để nghĩ rằng mặt nào dễ hiện lên hơn mặt nào, thì tôi coi rằng hai mặt có xác suất hiện lên bằng nhau. Khi đó sự kiện “mặt ngửa” có xác suất bằng sự kiện “mặt sấp” và bằng 1/2.

Tiên đề 3. Với hai sự kiện X và Y, ta sẽ ký hiệu sự kiện “cả X và Y đều xảy ra” bằng X \cap Y và sự kiện “ít nhất một trong hai sự kiện X hoặc Y xảy ra” bằng X \cup Y. Khi đó nếu hai sự kiện X và Y không thể cùng xảy ra, thì xác suất của sự kiện “xảy ra X hoặc Y” bằng tổng các xác suất của X và của Y:

Nếu p(X \cap Y) = 0 thì p(X \cup Y) = p(X) + p(Y)

Ví dụ: Một học sinh được cho điểm một bài kiểm tra. Có thể được 7 điểm, có thể được 8 điểm, hoặc có thể được điểm khác, nhưng không thể vừa được 7 điểm vừa được 8 điểm. Bởi vậy p((7d) \cup (8d)) = p(7d) + p(8d)

Tiên đề 3 có thể phát biểu một cách tổng quát hơn như sau:

Tiên đề 3′. Nếu X và Y là hai sự kiện bất kỳ thì

p(X \cup Y) = p(X) + p(Y) – p(X \cap Y)

Tiên đề 3′ tương đương với tiên đề 3. (Bài tập: chứng minh sự tương đương này).

Xác suất phụ thuộc vào những gì ?

Xác suất của một sự kiện không nhất thiết phải là một hằng số, mà nó có thể thay đổi, phụ thuộc vào nhiều yếu tố. (Từ “sự kiện” ở đây hiểu theo nghĩa thông thường, chứ không phải theo nghĩa “một tập hợp trong một không gian xác suất với 1 độ đo xác suất đã cố định” trong mô hình toán học)

Xác suất thay đổi theo thời gian. Ví dụ, ông Obama được bầu làm tống thống Mỹ vào tháng 11/2008. Từ trước lúc bầu cử mấy tháng, có sự cạnh tranh ác liệt giữa ông ta và đối thủ chính của ông ta là ông McCain, và một người quan sát bên ngoài có thể nhận định là hai ông có khả năng được bầu cử ngang nhau (tức là xác suất được bầu của mỗi ông quãng 50%). Nhưng khi kết quả bầu cử được công bố trọn vẹn, thì xác suất được bầu của Obama chuyển thành 100% (tức là ông ta đã chắc chắn được bầu). Trước đó 1 năm, ông Obama là một người chưa được nhiều người biết đến và còn phải tranh cử với bà Clinton và các ứng cử viên khác trong Đảng của mình, và khi đó, đối với quan sát viên bên ngoài, xác suất được bầu làm tổng thống của Obama không phải 100%, cũng không phải 50%, mà nhỏ hơn thế nhiều.

Xác suất phụ thuộc vào thông tin. Tôi lấy bài toán đố về chò trơi trên TV viết phía trên làm ví dụ. Gọi tên cửa mà người chơi chọn lúc đầu là 1, cửa không có quà mà người hướng dẫn chương trình mở ra là B, và cửa còn lại là C. Vào thời điểm ban đầu, không có thông tin gì về cửa nào phía sau có quà, thông tin duy nhất là 1 trong 3 cửa có quà. Không có cơ sở gì để cho rằng cửa nào có nhiều khả năng có quà hơn cửa nào, bởi vậy vào thời điểm ban đầu ta coi p(A)= p(B) = p(C) = 1/3. Nhưng sau khi cửa B được mở ra, thì ta có thêm một thông tin mới, là cửa B không có quà. Như vậy thông tin mới này làm thay đổi xác suất của B: bây giờ ta có p(B) = 0. Không chỉ xác suất của B thay đổi, mà tổng xác suất của A và C bây giờ cũng thay đổi: p(A) + p(C) = 1 thay vì bằng 2/3 như trước. Như vậy ít ra một trong hai số p(A) hoặc p(C) thay đổi, hoặc là cả hai. Xác suất p(A) có thay đổi vì thông tin mới này không ? Câu trả lời là không (Giải thích vì sao không ?). Chỉ có p(C) là thay đổi: sau khi người hướng dẫn chương trình mở cửa B, thì ta có p(A) = 1/3 và p(C) = 2/3. Như vậy người chơi nên đổi cửa A lấy cửa C thì dễ thắng hơn.

Xác suất phụ thuộc vào điều kiện. Chúng ta sẽ bàn về xác suất có điều kiện và công thức tính xác suất có điều kiện ở một phần sau. Điều tôi muốn nói ở đây là, mọi xác suất đều có thể coi là xác suất có điều kiện, và đều phụ thuộc vào những điều kiện nào đó, có thể được nói ra hoặc không nói ra (điều kiện hiểu ngầm). Ví dụ, khi chúng ta nói “khi tung cái xúc sắc S, xác suất để hiện lên mặt có 3 chấm là 1/6”, chúng ta hiểu ngầm S là một cái xúc sắc đều đặn, các mặt đều có khả năng xuất hiện như nhau. Nhưng nếu S là một cái xúc sắc méo mó, nhẹ bên này nặng bên nọ (điều kiện khác đi), thì hoàn toàn có thể là xác suất để khi tung hiện lên mặt có 3 chấm sẽ khác 1/6. Một ví dụ khác là xác suất xảy ra tai nạn khi lái ô tô: khi người lái xe khoe mạnh tỉnh táo, thì xác suất xảy ra tai nạn thấp, còn khi vẫn người lái đó bị say rượu hoặc buồn ngủ gật, thì xác suất xảy ra tai nạn cao hơn, v.v. Khi chúng ta biết thêm một điều kiện mới, tức là có thêm một thông tin mới, bởi vậy sự phụ thuộc vào điều kiện của xác suất cũng có thể coi là sự phụ thuộc vào thông tin.

Xác suất phụ thuộc vào người quan sát, hay là tính chủ quan của xác suất. Cùng là một sự kiện, nhưng hai người quan sát khác nhau có thể tính ra hai kết quả xác suất khác nhau, và cả hai đều “có lý”, bởi vì họ dựa trên những thông tin và phân tích khác nhau. Ví dụ như, có chuyên gia tài chính đánh giá rằng cổ phiếu của hãng Vinamilk có nhiều khả năng đi lên trong thời gian tới, trong khi lại có chuyên gia tài chính khác đánh giá rằng cổ phiếu của hãng đó có nhiều khả năng đi xuống ít khả năng đi lên trong thời gian tới. Quay lại trò chơi truyền hình: với người chơi thì p(A) = 1/3, nhưng đối với người dẫn chương trình thì p(A) không phải là 1/3, mà là 0 hoặc 1, vì người đó biết ở đằng sau cửa A có quà hay không.

Tính xác suất bằng thống kê

Đối với những hiện tượng xảy ra nhiều lần, thì người ta có thể dùng thống kê để tính xác suất của sự kiện xảy ra hiện tượng đó. Công thức sẽ là

p(X) = N(X) / N(total)

ở đây N(total) là tổng số các “mẫu”, và N(X) là số các “mẫu” thỏa mãn điều kiện “xảy ra X”.

Ví dụ. Có một số số liệu sau đây về tai tạn ô tô và máy bay. Trong những năm 1989-1999, trên toàn thế giới, trung bình mỗi năm có khoảng 18 triệu chuyến bay, 24 tai nạn máy bay chết người, và 750 người chết trong tai nạn máy bay. Cũng trong khoảng thời gian đó, ở nước Pháp, trung bình mỗi năm có khoảng 8000 người chết vì tai nạn ô tô, trên tổng số 60 triệu dân. Từ các số liệu này, chúng ta có thể tính: Xác suất để một người ở Pháp bị chết vì tai nạn ô tô trong một năm là 8000/60000000 = 0,0133%. Xác suất để đi một chuyến bay gặp tai nạn chết người là 24/18000000 = 0,000133%, chỉ bằng 1/100 xác suất bị chết vì tai nạn ô tô trong 1 năm. Nếu một người một năm bay 20 chuyến , thì xác suất bị chết vì tai nạn máy bay trong năm là 20 \times 0,000133\% = 0,00266\% , bằng 1/5 xác suất bị chết vì tai nạn ô tô trong năm.

Ví dụ. Có một loại thuốc mới để chữa một bệnh ung thư, được đem dùng thử cho 200 người. Sau 1 năm thấy có 72 người khỏi hoàn toàn (không còn vết ung thư). Khi đó ta có thể tính xác suất để chữa khỏi hoàn toàn được bệnh sau 1 năm dùng thuốc này là 72/200 = 36%. Tất nhiên, đấy chỉ là “con số ước lượng”, và khi đem ra dùng cho 10000 bệnh nhân, tỷ lệ chữa được khỏi bệnh sau 1 năm có thể không phải là 36% nữa mà là khác đi, tuy rằng người ta kỳ vọng rằng nếu có sai khác đi thì cũng sai khác không nhiều.

Cơ sở toán học cho việc dùng thống kê để tính xác suất, là luật số lớn (và các định lý giới hạn) mà chúng ta sẽ tìm hiểu trong những phần sau

$$§2 của Chương “Xác suất là gì”: Mô hình toán học của xác suất

- Không gian xác suất

- Phân bố xác suất Bernoulli

- Phân bố xác suất đều

- Mô hình xác suất với vô hạn các sự kiện

- Ánh xạ giữa các không gian xác suất

- Tích của các không gian xác suất

- Phân bố nhị thức

Không gian xác suất

Không gian xác suất là một khái niệm toán học nhằm trừu tượng hóa 3 tiên đề phía trên về sự nhất quán của xác suất.

Định nghĩa. Một không gian xác suất là một tập hợp \Omega, cùng với:

1) Một họ \mathcal{P} các tập con của \Omega, thỏa mãn các tính chất sau: \Omega \in \mathcal{P}, và nếu A, B \in \mathcal{P} thì A \cup B \in \mathcal{P}, A \cap B \in \mathcal{P} và \overline{A} := \Omega \setminus A \in \mathcal{P}. Một họ như vậy được gọi là một đại số các tập con của \Omega. Trong trường hợp \Omega là một tập có vô hạn các phần tử, thì chúng ta sẽ đòi hỏi thêm điều kiện sau: Nếu A_i, i=1,2,3, \hdots là một dãy vô hạn các phần tử của \mathcal{P}, thì hợp \cup_{i=1}^\infty A_i cũng thuộc họ \mathcal{P}. Với thêm điều kiện này, \mathcal{P} được gọi là một sigma-đại số.

2) Một ánh xạ p: \mathcal{P} \to [0,1] , thỏa mãn các tính chất công tính sau: p (\emptyset) = 0, p (\Omega) = 1, và p(A \cup B) = p(A) + p(B) nếu như A \cap B = \emptyset. Tổng quát hơn, nếu A_i, i=1,2,3, … là một dãy các tập hợp không giao nhau (cùng nằm trong họ \mathcal{P}) thì p(\bigcup_i A_i) = \sum_i p(A_i). Một ánh xạ thỏa mãn các tính chất như vậy được gọi là một hàm xác suất hay một độ đo xác suất trên \Omega, và \Omega được gọi là một không gian xác suất với độ đo xác suất p (hay còn gọi là phân bổ xác suất p).

Ghi chú.

1) Không gian xác suất \Omega ở đây là mã hóa toán học của tập hợp tất cả các sự kiện mà chúng ta đang quan tâm: mỗi sự kiện được mã hóa bằng một tập hợp con của \Omega nằm trong họ \mathcal{P}. Không nhất thiết tập con nào của \Omega cũng là thành viên của họ \mathcal{P}. Có hai lý do chính: a) Có những sự kiện mà chúng ta chưa quan tâm đến; b) Nếu \Omega là một tập không đếm được, ví dụ như một đoạn thẳng (trong thế giới vật lý của chúng ta số sự kiện chỉ là hữu hạn, nhưng các mô hình liên tục, với vô hạn phần tử, hay được dùng vì nó là phương pháp giải tích tiện cho việc tính toán), thì theo lý thuyết độ đo và tích phân (lý thuyết Lebesgue) không phải con tập nào của \Omega cũng là “tập đo được”, và phải loại các tập “không đo được” ra khỏi họ \mathcal{P}.Điều này không ảnh hưởng gì đến các phương pháp tính toán xác suất trong thực tế.

2) Trong toán học, một đại số là một tập hợp với các phép tính cộng trừ và phép nhân (không nhất thiết phải có phép chia). Ai ta từng học lý thuyết tập hợp sẽ nhận ra rằng các tính chất của họ \mathcal{P} viết phía trên khiến nó là một đại số theo đúng nghĩa như vậy: Phần tử 0 trong \mathcal{P} là tập rỗng, phần tử đơn vị trong \mathcal{P} là tập \Omega, phép nhân trong \mathcal{P} là phép giao: A \times B = A \cap B, và phép cộng trong \mathcal{P} là phép A + B = (A \cup B) \setminus (A \cap B) = (A \setminus B) \cup (B\setminus A). Các phép cộng và phép nhân này thỏa mãn các tính chất đối xứng, giao hoán, phân bố, kết hợp của một đại số giao hoán. Chú ý là đại số này có đặc trưng bằng 2, tức là 2A = A + A = 0 với mọi A (và bởi vậy phép cộng và phép trừ chẳng qua là một). Chúng ta muốn \mathcal{P} là một đại số chính là để cho việc làm các phép tính số học với xác suât được thuận tiện. Hơn nữa, chúng ta đòi hỏi \mathcal{P} là một sigma-đại số, để có thể sự dụng công cụ giải tích (lấy giới hạn, tính tổng của chuỗi, tính tích phân, … — phép lấy giới hạn là phép tính cơ bản nhất của giải tích mà không có trong đại số, và mọi phép tính khác của giair tích đều dựa trên phép lấy giới hạn).

3) Nếu A là một phần tử của \Omega thì ta cũng có thể viết p(A) và hiểu là p(\{ A \}), trong đó \{ A \} là tập con của \Omega chứa duy nhất một phần từ A.

Phân bố xác suất Bernoulli

Không gian xác suất đơn giản nhất mà không “tầm thường” là không gian sỉnh bởi đúng 1 sự kiện X và phủ định \overline{ X} của nó: \Omega= \{X, \overline{X}\}. Phân bố xác suất trên \Omega trong trường hợp này được xác định bởi đúng một số p = p(X). Phân bố này được gọi là phân bố Bernoulli.

Ví dụ. Một vận động viên bắn súng, nhằm vào đích bắn 1 phát súng. Có hai sự kiện đối lập nhau có thể xảy ra là X = “bắn trúng” và \overline{X} = “bắn trượt”. Giả sử xác suất bắn trúng là 95%. Khi đó ta có không gian xác suất \Omega= \{X, \overline{X}\} với phân bố xác suất Bernoulli với p = p(X) = 95\%. Xác suất của \overline{X} (sự kiện “bắn trượt”) bằng 1 – p = 1 – 95\% = 5\%

Phân bố xác suất đều

Định nghĩa. Phân bố xác suất p trên không gian xác suất hữu hạn với n phần tử \Omega = \{A_1, \hdots ,A_N \} được gọi là phân bổ xác suất đều nếu như p(A_1) = \hdots = p(A_N) = 1/N.

Tất nhiên, mỗi không gian xác suất với một số hữu hạn các phần tử chỉ có duy nhất một phân bố xác suất đều trên đó.

Ghi chú. Khái niệm phân bố đều không mở rộng được lên các không gian xác suất có số phần tử là vô hạn và đếm được, bởi vì 1 chia cho vô cùng bằng 0, nhưng mà tổng của một chuỗi vô hạn số 0 vẫn bằng 0 chứ không bằng 1.

Các phân bố xác suất đều là các phân bố quan trọng hay gặp trong thực tế. Lý do chính dẫn đến phân bố xác suất đều là “tính đối xứng” hay “hoán vị được” của các sự kiện.

Ví dụ. Có nhiều ví dụ viết ở phía trên là ví dụ về phân bố xác suất đều: xác suất của hai mặt của một đồng xu (khi tung đồng xu lên thì hiện mặt nào trong hai mặt), xác suất của sáu mặt của một viên xúc sắc, hay xác suất có quà ở đằng sau mỗi cái cửa khi bắt đầu chò trơi truyền hình. Thêm một ví dụ nữa: lấy một bộ bài tú lơ khơ mới có 52 quân, đặt nằm sấp. Khi đó xác suất để rút một con bài trong đó ra một cách tùy ý được con “2 Cơ” (hay bất kỳ “số” nào khác) bằng 1/52. Vì sao vậy ? Vì các con bài khi đặt nằm sấp thì giống hệt nhau, không thể phân biệt được con nào với con nào, số nào cũng có thể được viết dưới bất kỳ con bài nào, và nếu chuyển chỗ 2 con bài trong bộ bài với nhau thì trông bộ bài vẫn hệt như cũ (đấy chính là tính “đối xứng”, “hoán vị được”). Người quan sát không có thông tin gì để có thể nhận biết được số nào dễ nằm ở phía dưới con bài nào hơn trong các con bài đăng nằm sấp, và khi đó thì phải coi rằng xác suất của các số là như nhau. Nếu như có những con bài “được đánh dấu” (chơi ăn gian), thì tất nhiên đối với người biết chuyện đánh dấu, không còn phân bố xác suất đều nữa.

Công thức để tính xác suất của một sự kiện trong một phân bố xác suất đều rất đơn giản: Nếu như không gian xác suất \Omega với phấn bố xác suất đều có N phần tử, và sự kiện được biểu diễn bằng một tập con X của \Omega với k, thì xác suất của X bằng k/N:

p(X) = {\# X \over \# \Omega} = {k \over N}

Ví dụ. Xác suất để khi tung xúc sắc hiện lên số nhỏ hơn hoặc bằng 2 là bao nhiêu ? Giải: Không gian xác suất ở đây gồm 6 phần tử, với phân bố xác suất đều. Sự kiện “ hiện lên số nhỏ hơn hoặc bằng 2” gồm hai phần tử “số 1” và “số 2”. Như vậy xác suất của sự kiện đó bằng 2/6 = 1/3.

Mô hình xác suất với vô hạn các sự kiện

Mọi vấn đề xuất phát từ thực tế đều chỉ có một số hữu hạn các “phần tử” hay “trường hợp”. Nhưng khi mà số “phần tử” hay “trường hợp” đó lớn, thì người ta có thể dùng các mô hình toán học với vô hạn phần tử để biểu diễn, cho dễ hình dung và tiện tính toán.

Ví dụ. Nếu ta quan tâm đến lượng khách hàng trong một ngày của một siêu thị, thì có thể dùng tập hợp các số nguyên không âm \mathbb{Z}_+ làm không gian xác suất: mỗi số

n \in \mathbb{Z}_+ ứng với một sự kiện “số khách trong ngày là n”.

Vấn đề tiếp theo là chọn phân bố xác suất nào trên \mathbb{Z}_+ cho hợp lý (phản ánh khá chính xác thực tế xảy ra, đồng thời lại tiện cho việc tính toán) ? Ví dụ người ta có thể dùng phân bố xác suất sau trên \mathbb{Z}_+, gọi là phân bố Poisson: p(n) = {\lambda^n \over n!}. e^{-\lambda} với mọi n \in \mathbb{Z}_+. (Chú ý rằng \sum_n p(n) = \sum {\lambda^n \over n!}. e^{-\lambda} = (\sum_n {\lambda^n \over n!}). e^{-\lambda} = e^{\lambda}.e^{-\lambda} = 1, như vậy các tiên đề về xác suất được thỏa mãn). Phân bố Poisson ứng với hai giả thuyết: lượng khách hàng trung bình trong một ngày là \lambda, và các khách hàng đi đến siêu thị một cách ngẫu nhiên và độc lập với nhau. Chúng ta sẽ tìm hiểu kỹ hơn về phân bố Poisson trong những phần sau.

Ví dụ. Ta biết rằng có một xe ô tô A đang đậu ở trên một khúc phố Z, và ta quan tâm đến vị trí của A trên phố đó. Ta có thể mô hình A bằng 1 điểm, Z bằng một đoạn thẳng và lấy đoạn thẳng đó làm không gian xác suất: \Omega = [a,b], a,b \in \mathbb{R}, a < b. (Mô hình xác suất liên tục này có số phần tử là continuum, không đếm được). Sự kiện “ô tô đỗ ở chỗ nào đó trên khúc phố” chuyển thành sự kiện “điểm x nằm trong một đoạn thẳng con nào đó trên đoạn thẳng \Omega = [a,b]“. Ta có thể chọn phân bố xác suất đều trên \Omega = [a,b] theo nghĩa sau: xác suất của mỗi đoạn thẳng con trên \Omega tỷ lệ thuận với độ dài của đoạn thẳng con đó, và bằng chiều dài của đoạn thẳng con đó chia cho chiều dài của \Omega; p([c,d]) = (d-c)/(b-a). Phân bố xác suất đều này là một phân bố liên tục có hàm mật độ bằng hằng số 1/(b-a): p([c,d]) = \int_c^d {1 \over (b-a)} dx

Ánh xạ giữa các không gian xác suất

Cùng một vấn đề tính toán xác suất, ta có thể lập nhiều mô hình không gian xác suất khác nhau. Ví dụ, mô hình xác suất đơn giản nhất cho sự kiện “bị ốm” sẽ là mô hình Bernoulli \Omega_1 = \{ S, H \} với 2 sự kiện S = “bị ốm” (sick) và H = “không bị ốm” (healthy). Như ta cũng có thể chia nhỏ sự kiện bị ốm ra thành rất nhiều sự kiện con, ví dụ như “ốm bệnh A”, “ốm bệnh B”, “ốm cả bệnh A lẫn bệnh B”, v.v. và sự kiện “không bị ốm” cũng có thể chia thành nhiều sự kiện con, ví dụ như “khỏe đặc biệt”, “không ốm nhưng mà yếu”, v.v. Khi chia nhỏ như vậy, ta được mô hình xác suất với một không gian xác suất \Omega_2 = \{ S_1,S_2, \hdots, H_1, H_2, \hdots \} với nhiều phần tử hơn. Hai không gian đó liên quan với nhau bởi một ánh xạ \phi: \Omega_1 \to \Omega_2, \phi(S_i) = S, \phi(H_i) = H. Tất nhiên, khi ta “băm nhỏ” sự kiện S ra thành nhiều sự kiện (không giao nhau) S_1, S_2, \hdots, thì không phải vì thế mà xác suất của nó thay đổi. Nói cách khác, ta phải có

p(S) = p(\phi^{-1}(S)) = p(\cup_i S_i) = \sum_i p(S_i)

Tính chất trên là tính chất bảo toàn xác suất của ánh xạ \phi.

Nói một cách tổng quát, ta có định nghĩa sau:

Định nghĩa. Một ánh xạ \phi: (\Omega_1, p_1) \to (\Omega_2, p_2) từ một không gian xác suất (\Omega_1, p_1) vào một không gian xác suất (\Omega_2, p_2) được gọi là một ánh xạ bảo toàn xác suất nếu nó bảo toàn độ đo xác suất, có nghĩa là với mọi tập con B \subset \Omega_2 sao cho p_2(B) tồn tại (tức là B nằm trong sigma-đại số của độ đo xác suất p_2), thì ta có

p_1(\phi^{-1}(B)) = p_2(B)

Nếu hơn nữa, \phi là một song ánh, thì ta gọi nó là một đẳng cấu giữa hai không gian xác suất. Một cách tổng quát hơn, nếu \phi là một song ánh modulo những tập có xác suất bằng 0, thì ta vẫn có thể coi nó là một đẳng cấu xác suất:

Định nghĩa. Nếu \phi: (\Omega_1, p_1) \to (\Omega_2, p_2) là một ánh xạ bảo toàn xác suất, sao cho tồn tại một tập con X_1 trong \Omega_1 với độ đo xác suất bằng 0, và phi là đơn ánh trên \Omega_1 \setminus X_1, thì \phi được gọi là một đẳng cấu xác suất, và ta nói rằng hai không gian [latex(\Omega_1, p_1)[/latex] đẳng cấu xác suất với [latex(\Omega_2, p_2)[/latex]

Bài tập. Chứng minh rằng quan hệ đẳng cấu xác suất giữa các không gian xác suất là một quan hệ tương đương.

Định lý. Nếu (\Omega_1, p_1) là một không gian xác suất, và \phi: \Omega_1 \to \Omega_2, thì tồn tại một độ đo xác suất p_2 trên \Omega_2, sao cho ánh xạ \phi: (\Omega_1, p_1) \to (\Omega_2, p_2) là ánh xạ bảo toàn xác suất.

Chứng minh. Có thể xây dựng p_2 theo công thức sau: với mỗi tập con \subset \Omega_2, nếu tồn tại p_1(\phi^{-1}(B)) thì ta đặt

p_2(B) := p_1(\phi^{-1}(B))

Độ đo xác suất p_2 định nghĩa theo công thức trên được gọi là push-forward của p_1 qua ánh xạ \phi.

Tích của các không gian xác suất

Nếu M và N là hai tập hợp, thì tích của chúng (hay còn gọi là tích trực tiếp, hay tích Descartes), ký hiệu là M \times N, là tập hợp các cặp phần tử (x,y), x \in M, y \in N. Trong trường hợp M = (\Omega_1,p_1) và N = (\Omega_2,p_2) là hai không gian xác suất, thì tích \Omega_1 \times \Omega_2, cũng có một độ đo xác suất p, được xác định một cách tự nhiên bởi p_1 và p_2 bằng công thức sau: Nếu A_1 \subset \Omega_1 và A_2 \subset \Omega_2 nằm trong các sigma-đại số tương ứng của p_1 và p_2 thì:

p ( A_1 \times A_2) = p(A_1) \times p(A_2)

Sigma-đại số của p chính là sigma đại số sinh bởi các tập con của \Omega_1 \times \Omega_2 cos dạng A_1 \times A_2 như trên. Khi ta nói đến tích trực tiếp của hai không gian xác suất, ta sẽ hiểu là nó đi kèm độ đo xác suất được xác định như trên.

Tương tự như vậy, ta có thể định nghĩa tích trực tiếp của n không gian xác suất, hay thậm chí tích trực tiếp của một dãy vô hạn các không gian xác suất.

Định lý. Hai phép chiếu tự nhiên từ tích (\Omega_1,p_1) \times (\Omega_2,p_2) của hai khôn giang xác suất xuống (\Omega_1,p_1) và (\Omega_2,p_2) là hai ánh xạ bảo toàn xác suất.

Bài tập. Chứng minh định lý trên.

Ví dụ. Lấy 1 đồng xu tung 3 lần, mỗi lần hiện lên S (sấp) hoặc N (ngửa). Không gian xác suất các sự kiện ở đây là không gian các dãy 3 chữ cái mà mỗi chữ cái là S hay N:

\Omega = \{ SSS, SSN, SNS, SNN, NSS, NSN, NNS, NNN \}

Ký hiệu (\Omega_k = \{S_k,N_k\}, p_k) là không gian xác suất của mặt hiện lên trong lần tung thứ k. Ta giả sử các kết quả của các lần tung là độc lập với nhau (tức là kết quả lần trước không ảnh hưởng đến kết quả của các lần sau), khi đó \Omega có thể coi là tích trực tiếp của các không gian xác suất (\Omega_k = \{S_k,N_k\}, p_k). Giả sử đồng xu là “cân bằng”, hai mặt sấp ngửa có xác suất hiện lên giống nhau trong mỗi lần tung. Khi đó các không gian (\Omega_k = \{S_k,N_k\}, p_k) là đẳng cấu với nhau và với một không gian xác suất Bernoulli với tham số p = 1/2. Ta có thể viết:

\Omega = \{S, N\}^3

Ví dụ. Trong ví dụ trên, nếu thanh vì chỉ tung đồng xúc sắc có 3 lần, ta hình dùng la ta tung vô hạn lần (trong thực tế không làm được như vậy, nhưng cứ giả sử ta có vô hạn thời gian và làm được như vậy). Khi đó mỗi sự kiện được có thể được đánh dấu bằng một dãy vô hạn các chữ cái mà mỗi chữ là S hoặc N, và không gian xác suất là

\Omega = \{S, N\}^\mathbb{N}

Ta có thể xây dựng một ánh xạ bảo toàn xác suất sau từ \{S, N\}^\mathbb{N} vào đoạn thẳng [0,1] với phân bố xác suất đều trên đó:

\phi((M_i)_{i \in \mathbb{N}}) := \sum_{i =1}^\infty \chi(M_i)/2^i

Ở đây mỗi M_i là S hoặc N, và \chi(N) = 0, \chi(S) = 1. Ánh xạ

\phi: \{S, N\}^\mathbb{N} \to [0,1]

xây dựng như trên không phải là một song ánh, nhưng nó là một đẳng cấu xác suất ! (Bài tập: chứng minh điều đó).

Phân bố nhị thức

Phân bố nhị thức là một trong những phân bố hay gặp nhất, và nó là ví dụ về sự xuất hiện các phép toán tổ hợp trong xác suất thống kê.

Định nghĩa. Phân bố xác suất p(k)= C^k_n q^k (1-q)^{n-k} trên tập hợp \{0,1,2,\hdots,n\} được gọi là phân bố nhị thức với các tham số n,q (n \in \mathbb{N}, 0 \leq q \leq 1).

Ở đây C^k_n = {n! \over k! (n-k)!} là nhị thức Newton. Ý nghĩa tổ hợp của C^k_n là: nó là số các tập con có đúng k phần tử trong một tập hợp có n phần tử, hay nói cách khác, nó là số cách chọn ra một nhóm con với k

phần tử, từ một nhóm có n phần tử.

Nhắc lại rằng ta có công thức đại số quen thuộc sau:

(x+y)^n = \sum_{k=0}^n C^k_n x^k y^{n-k},

Nếu thay x bằng q và y bằng 1-q trong công thức trên, thì ta được đẳng thức \sum_{k=0}^n C^k_n q^k(1-q)^{n-k} =1, chưngs tỏ định nghĩa phân bố xác suất nhị thức trên phù hợp với các tiên đề về xác suất.

Ý nghĩa của phân bố nhị thức như sau: Khi ta làm n lần một “phép thử” nào đó, và mỗi lần thì xác suất xảy ra kết quả X nào đó là p (ví dụ: một người bắn súng n lần, xác suất trúng đích mỗi lần là patex]), và giả sử là kết quả của các lần thử khác nhau độc lập với nhau (lần thử này không ảnh hưởng đến lần thử kia), thì tống số lần xảy ra kết quả X trong số [latex]n lần đó là một số nguyên nằm giữa 0 và n, và với mỗi k = 0,1,2,\hdots,n , xác sất của sự kiện “số lần ra kết quả X là k” bằng C^k_nq^k (1-q)^{n-k}.

Thật vậy, nếu ta lấy không gian xác suất cho mỗi phép thử là không gian \{X,\overline{X}\}, thì không gian xác suất các trường hợp của n lần thử là \{X,\overline{X}\}^n (các phần tử của không gian này là các dãy n kết quả, mà mỗi kết quả là X hoặc \overline{X}. Có C^k_n phần tử của không gian \{X,\overline{X}\}^n có chứa đúng k kết quả X và (n-k) kết quả \overline{X}. Xác suất của mỗi phần tử đó là q^k(1-q)^k theo công thức tích của xác suất. Bởi vậy xác suất của sự kiện “kết quả X xảy ra k lần” số phần tử của sự kiện này (hiểu như là một tập con của không gian xác suất) nhân với xác suất của một phần tử (vì các phần tử này có cùng xác suất), và bằng C^k_nq^k(1-q)^{n-k}.

$$Phần 3 của chương “Xác suất là gì”

Các mục trong phần này:

- Xác suất có điều kiện

- Sự độc lập và phụ thuộc của các sự kiện

- Công thức Bayes tính xác suất có điều kiện

Xác suất có điều kiện

Như chúng ta đã biết, xác suất của một sự kiện có thể phụ thuộc vào nhiều yếu tố, điều kiện khác nhau. Để chỉ ra một cách cụ thể hơn về việc xác suất của một sự kiện A nào đó phụ thuộc vào một điều kiện B nào đó ra sao, người ta đưa vào khái niệm xác suất có điều kiện. Điều kiện B cũng có thể hiểu là một sự kiện, tức là sự kiện “có B”.

Định nghĩa. Giả sử (trong một không gian xác suất nào đó) điều kiện B có xác suất khác không, p(B) > 0, thì xác suất của sự kiện A dưới điều kiện B, ký hiệu là p(A|B), được định nghĩa như sau:

p(A|B) = { p(A \cap B) \over p(B) }

Một hệ quả trực tiếp của định nghĩa xác suất có điều kiện là công thức tích sau đây:

p(A \cap B) = p(A|B). p(B)

Tất nhiên, ta cũng có thể coi B là sự kiện, A là điều kiện, và khi đó ta có p(A \cap B) = p(B|A). p(A)

Ví dụ. Một lớp học có 30 bạn, trong đó có 17 bạn nữ và 13 bạn nam. Có 3 bạn tên là Thanh, trong đó có 1 bạn nữ và 2 bạn nam. Thầy giáo gọi ngẫu nhiên 1 bạn lên bảng. Xác suất để bạn đó có tên là Thanh sẽ là 1/10. Nhưng với điều kiện “đó là bạn nữ” thì xác suất để bạn đó tên là Thanh là 1/17. Sự kiện ở đây là A=”tên là Thanh”, và điều kiện là B=”nữ”. Không gian xác suất \Omega có 30 phần tử, với phân bố xác suất đều. A có 3 phần tử, B có 17 phần tử, và A \cap B có 1 phần tử. Bởi vậy: p(A) = { \# A \over \# \Omega } = 3/30 = 1/10; p(A|B) = p(A \cap B)/ p(B) = (1/30)/(17/30) = 1/17. Chú ý rằng, trong ví dụ này ta có p(A|B) \neq p(A). Vẫn ví dụ này, nếu thầy giáo gọi 1 bạn có tên là Thanh lên bảng, thì xác suất để bạn đó là bạn nữ là bao nhiêu ? Lời giải: trong 3 bạn Thanh có 1 bạn là nữ, bởi vậy xác suất là 1/3. Sử dụng công thức p(A\cap B) = p(B|A). p(A) với xác suất có điều kiện, ta cũng có p(B|A) = p(A \cap B) / p(A) = (1/30) / (1/10) = 1/3 . (Câu hỏi: Vì sao hai cách giải khác nhau lại ra kết quả giống nhau ?)

Chú thích. Có thể giải thích ý nghĩa triết lý và toán học của định nghĩa trên như sau: Sự kiện A cùng với điều kiện B chính là sự kiện A \cap B, tức là “cả A và B cùng xảy ra”. Ta có thể coi A và B là hai tập con của một không gian xác suất \Omega ban đầu. Các tập con của B chính là các sự kiện với điều kiện B được thỏa mãn. Khi chúng ta đặt điều kiện B, thì tức là chúng ta đã hạn chế không gian xác suất từ \Omega xuống còn B, và hạn chế các sự kiện A xuống còn A \cap B. Xác suất của A với điệu kiện B chính là xác suất của A \cap B trong không gian xác suất mới B với một độ đo xác suất p_1: p(A|B) = p_1 (A \cap B). Độ đo xác suất p_1 không tùy ý, mà nó được sinh ra bởi độ đo xác suất p ban đầu, theo nguyên tắc “bình quân”: nếu C và D là hai tập con của B (tức là 2 sự kiện thỏa mãn điều kiện B) với cùng xác suất, p(C) = p(D), thì ta cũng phải coi rằng chúng có cùng xác suất có điều kiện: p_1(C) = p_1(D). Một cách tổng quát hơn, ta có công thức tỷ lệ thuận: p(C)/p(D) = p_1(C)/p_1(D) nếu C và D là hai tập con của B. Từ đó suy ra:

p(A \cap B) / p (B) = p_1 (A \cap B) / p_1 (B) = p_1 (A\cap B) = p(A|B)

(bởi vì p_1(B) = 1).

Ví dụ. Theo một con số thống kê ở Mỹ năm 2007, có khoảng 40% các vụ tai nạn xe cộ gây chết người là có người lái say rượu. Giá sử tỷ lệ số người say rượu khi lái xe là 4%. Thử hỏi việc xay rượu khi lái xe làm tăng khả năng gây tai nạn chết người lên bao nhiêu lần ? Nói cách khác, chúng ta muốn tính tỷ lệ p(A|S)/p(A), ở đây A là sự kiện “lái xe xảy ra tai nạn chết người”, S là điều kiện “người lái bại say”. Từ công thức p(A\cap S) = p(A|S).p(S) = p(S|A).p(A) ta có p(A|S)/p(A) = p(S|A)/p(S) = 40\%/4\% = 10, tức là việc say rượu khi lái xe có thể làm tăng khả năng gây tai nạn xe cộ chết người lên khoảng 10 lần.

Sự độc lập và phụ thuộc của các sự kiện

Thế nào là hai sự kiện độc lập với nhau ? Về mặt triết lý, hai sự kiện độc lập là hai sự kiện không liên quan gì đến nhau. Ví dụ, tôi không liên quan gì đến đội bóng đá Barcelona. Đội đó đá thắng hay thua tôi cũng không quan tâm, không ảnh hưởng gì đến việc tôi có phải đi chợ hay không. Hai sự kiện “tôi đi chợ” và “đội Barcelona thắng” có thể coi là độc lập với nhau.

Nếu hai sự kiện A và B độc lập với nhau, thì việc có xảy ra hay không sự kiện B không ảnh hưởng gì đến việc có xảy ra hay không sự kiện A. Nói cách khác, xác suất của A với điều kiện B không khác gì xác suất của A khi không tính đến điều kiện B. Đấy chính là định nghĩa trong lý thuyết xác suất về sự độc lập của hai sự kiện:

Định nghĩa. Sự kiện A được gọi là độc lập (về mặt xác suất) với sự kiện B khi và chỉ khi

p(A) = p(A|B) = p(A \cap B) / p(B)

hay viết cách khác:

p(A \cap B) = p(A). p(B)

Ghi chú. Công thức p(A|B) = p(A) tương đương với công thức p(A \cap B) = p(A). p(B) và tương đương với p(B|A) = p(B). Điều đó có nghĩa là quan hệ “độc lập” là một quan hệ đối xứng: nếu A độc lập với B thì B độc lập với A, và chúng ta có thể nói là A và B độc lập với nhau. Trong công thức p(A|B) = p(A) ta phải giả sử là p(B) \neq 0. Kể cả khi p(B) = 0 thì công thức p(A \cap B) = p(A). p(B) vẫn có thể dùng làm định nghĩa được, và khi đó nó hiển nhiên đúng: một sự kiện có xác suất bằng 0 thì độc lập với mọi sự kiện khác.

Mệnh đề. Nếu một sự kiện X độc lập với sự kiện Y, thì nó cũng độc lập với sự kiện \overline{Y}

Bài tập. Chứng minh mệnh đề trên.

Chú ý ! Một sự kiện X có thể độc lập với hai sự kiện Y_1 và Y_2 mà không độc lập với Y_1 \cap Y_2. (Bài tập: tìm phản ví dụ).

Tổng quát hơn, giả sử ta có một họ \mathcal{M} (hữu hạn hoặc vô hạn) các sự kiện.

Định nghĩa. Họ \mathcal{M} được gọi là một họ các sự kiện độc lập, nếu như với bất kỳ số tự nhiên k nào và bất kỳ k sự kiện A_1,\hdots,A_k khác nhau nào trong họ \mathcal{M} ta cũng có:

p (\cap_{i=1}^k A_i) = \prod_{i=1}^k p(A_i)

Nếu như p (A \cap B) = p(A). p(B) với bất kỳ hai sự kiện khác nhau nào trong họ \mathcal{M} (tức là đẳng ta chỉ yêu cầu đẳng thức trên đúng trong trường hợp k=2, thì họ \mathcal{M} được gọi là họ các sự kiện độc lập từng đôi một.

Chú ý. Tất nhiên nếu ta có một họ các sự kiện độc lập, thì các sự kiện trong họ độc lập từng đôi một với nhau. Nhưng điều ngược lại không đúng: Có những họ không độc lập, mà trong đó các sự kiện độc lập từng đôi một với nhau !

Ví dụ. Tung 1 xúc sắc 2 lần, được 2 số ký hiệu là a, b. Xét 3 sự kiện sau: X là sự kiện “a+b là số chẵn”, Y là sự kiện “a=1” và Z là sự kiện “b= 4”. Ở đây không gian xác suất là không gian có 6^2 = 36 phần tử, mỗi phần tử là một cặp số (a,b), mỗi số có thể nhận 1 trong 6 giá trị 1,2,3,4,5,6. Ta có thể giả sử không gian xác suất này có phân bố xác suất đều (2 lần tung độc lập với nhau). Khi đó dễ dàng kiểm tra rằng các sự kiện X,Y,Z độc lập từng đôi một với nhau, thế nhưng họ 3 sự kiên \{X,Y,Z\} không phải là một họ độc lập: p(X \cap Y \cap Z) = 0 trong khi p(X).p(Y).p(Z) = (1 /2).(1/6). (1/6) \neq 0

Ghi chú. Bạn đọc có thể thấy một sự tương tự nào đó giữa lý thuyết xác suất và đại số tuyến tính ở đây: Một họ vector có thể không độc lập, nhưng trong đó từng đôi một các vector thì độc lập tuyến tính.

Nếu như hai sự kiện không độc lập với nhau, thì người ta nói là chúng phụ thuộc vào nhau. Do tính chất đối xứng, nếu sự kiện A phụ thuộc vào sự kiện B thì B cũng phụ thuộc vào A. Nếu như p(A|B) > p(B) thì ta có thể nói là điều kiện B thuận lợi cho sự kiện A, và ngược lại nếu p(A) < p(A|B) thì điều kiện B không thuận lợi cho sự kiện A.

Công thức p(A|B). p(B) = p(B|A). p(A) tương đương với công thức

p(A|B)/p(A) = p(B|A)/p(B)

có thể được suy diễn như sau: B thuận lợi cho A (tức là p(A|B)/p(B) > 1) thì A cũng thuận lợi cho B và ngược lại.

Ví dụ. Giả sử cứ 5 học sinh thì có 1 học sinh giỏi toán, cứ 3 học sinh thì có 1 học sinh giỏi ngoại ngữ, và trong số các học sinh giỏi toán thì cứ 2 học sinh có 1 học sinh giỏi ngoại ngữ. Khi đó trong số các học sinh giỏi ngoại ngữ, tỷ lệ học sinh giỏi toán là 30%: (1/2)/(1/3) = 30%/(1/5)

Công thức Bayes

Công thức Bayes (mang tên Thomas Bayes, 1702-1761, một linh mục đồng thời là người có những nghiên cứu về xác suất) là công thức ngược, cho phép ta tính xác suất có điều kiện p(B|A) khi biết xác suất có điều kiện p(A|B) và một số thông tin khác. Dạng đơn giản nhất của công thức này là:

Định lý Bayes. Nếu A, B là hai sự kiện bất kỳ với xác suất khác 0 thì ta có công thức Bayes:

p(B|A) = { p(A|B).p(B) \over p(A) }

Công thức trên là hệ quả trực tiếp của công thức p(B|A).p(A) = p(A|B).p(B) = p(A \cap B) đã được bàn đến ở phần trước..

Nếu như ta chưa biết p(A) mà mới chỉ biết các xác suất p(B), p(A|B) và p(A|\overline{B}) (\overline{B} có nghĩa là “B không xảy ra, hay nói cách khác là phần bù của B trong không gian xác suất), thì ta có thể tính p(A) theo công thức sau

p(A) = p(A \cap B) + p(A \cap \bar{B}) = p(A|B).p(B) + p(A|\overline{B}).p(\overline{B})

Một cách tổng quát hơn, nếu một họ các tập con B_1,\hdots,B_n của không gian xác suất \Omega là một sự phân chia (partition) của \Omega, có nghĩa là các tập B_i đôi một không giao nhau và hợp của chúng bằng toàn bộ không gian \Omega, thì ta có công thức sau, gọi là công thức xác suất toàn phần để tính xác suất của một sự kiện:

p(A) = \sum_{i=1}^n p(A \cap B_i) = \sum_{i=1}^n p(A|B_i). p(B_i)

Lắp công thức xác suất toàn phần vào định lý Bayes phía trên, ta được dạng sau của công thức Bayes:

p(B_k|A) = { p(A|B_k). p(B_k) \over \sum_{i=1}^n p(A|B_i). p(B_i)}

Chú ý. Công thức Bayes rất đơn giản nhưng nó có ý nghĩa rất sâu xa. Một trong những lỗi mà mọi người rất hay mắc phải, là lẫn lộn giữa p(A|B) và p(B|A), coi hai con số đó như là bằng nhau. Nhưng công thức Bayes cho thấy hai con số đó có thể chênh lệch nhau rất nhiều, nếu như p(A) và p(B) chênh lệch nhau rất nhiều ! Dưới đây là một số ví dụ minh họa điều đó.

Ví dụ. Đây là một bài toán được 3 nhà toán học Cassels, Shoenberger và Grayboys đem đố 60 sinh viên và cán bộ y khoa tại Harvard Medical School năm 1978 . Giả sử có một loại bệnh mà tỷ lệ người mắc bệnh là 1/1000. Giả sử có một loại xét nghiệm, mà ai mắc bệnh khi xét cũng ra phản ứng dương tính, nhưng tỷ lệ phản ứng dương tính nhầm (false positive) là 5% (tức là trong số những người không bị bệnh có 5% số người thử ra phản ứng dương tính). Thử hỏi khi một người xét nghiệm bị phản ứng dương tính, thì khả năng mắc bệnh của người đó là bao nhiêu ? Theo bạn là bao nhiêu ? Hãy thử tự tìm câu trả lời trước khi đọc tiếp. (Nguồn: Casscells, Schoenberger and Grayboys, Interpretation by physicians of clinical laboratory results. New England Journal of Medicine, 299 (1978), 999-1000)

Nếu bạn trả lời 95% (= 100% – 5%), thì câu trả lời của bạn cũng giống câu trả lời của phần lớn những người khác được hỏi. Ta hãy thử phân tích kỹ thêm về câu hỏi này. Nếu ký hiệu N là sự kiên “không bị bệnh” và P là sự kiện phản ứng dương tính, thì con số 5% là con số p(P|N) (xác suất có phản ứng dương tính khi mà không bị bệnh) chứ không phải p(N|P) (xác suất không bị bệnh khi mà có phản ứng dương tính). Để tính p(N|P), ta dùng công thức Bayes p(N|P) = { p(P|N). p(N) \over p(P|\bar{N}). p(\bar{N}) + p(P|N). p(N)} . Ta có p(P|N) = 5/100, p(N) = 1 -1/1000 = 999/1000, và p(P|\bar{N}). p(\bar{N}) + p(P|N). p(N) = (1).(1/1000) + (5/100).(999/1000) = 51/1000 (tính xấp xỉ), và bởi vậy: p(N|P) = (5/100). (999/1000) / (51/1000) = 98\%. Như vậy trong số những người xét nghiệm ra dương tính, có khoảng 98% số người là không bị bệnh. Nói cách khác, khi xét nghiệm ra dương tính, xác suất để thực sự mắc bệnh chỉ có 2% !

$$Phần này của chương “Xác suất là gì” gồm một số “nghịch lý” cho thấy tính toán xác suất, đặc biêt là xác suất có điều kiện, rất dễ bị nhầm lẫn, kể cả trong những trường hợp tưởng chừng rất đơn giản.

- Nghịch lý Simpson: thuốc nào tốt hơn ?

- Hoàng tử có chị em gái không ?

- Văn Phạm có phải là thủ phạm không ?

Tính toán xác suất là một vấn đề nhiều khi hết sức tế nhị. Kể cả trong những bài toán tưởng chừng như rất đơn giản, cũng có thể tính ra kết quả sai mà khó phát hiện sai ở đâu. Trong bài giảng này tôi muốn đưa ra một số ví dụ “nghịch lý” để minh họa điều đó, kèm theo lời giải cho các định lý ở cuối bài. Những nghịch lý này cho thấy chúng ta cần hết sức cẩn thận trong lúc lập mô hình tính toán xác suất, đặc biệt là xác suất có điều kiện, kiểm tra lại những điều tưởng chừng như hiển nhiên, để tránh sai lầm.

Nghịch lý 1 (Nghịch lý Simpson). Thuốc nào tốt hơn ?

Một người nghiên cứu muốn xác định xem giữa 2 loại thuốc cùng để chữa 1 bệnh, loại nào tốt hơn. Kết quả thống kê về lượng người chữa được khỏi bệnh, phân biệt theo giới tính, được viết dưới đây

Giới tính: Nữ Thuốc I Thuốc II
Chữa được 200 10
Không chữa được 1800 190

Giới tính: Nam Thuốc I Thuốc II
Chữa được 19 900
Không chữa được 1 900

Dựa vào bảng thống kê trên, có 2 câu trả lời trái ngược nhau như sau cho câu hỏi thuốc nào tốt hơn:

1) Thuốc I đem cho 2020 người dùng, chữ được bệnh cho 219 người. Thuốc II đem cho 2000 người dùng, chữa được 910 người, như vậy thuôc II tốt hơn.

2) Đối với nữ, tỷ lệ chữa được bệnh của Thuốc I là 1/10, của Thuốc II là 1/20. Đối với nam, tỷ lệ chữa được bệnh của thuốc I là 19/20, của thuốc II là 1/2. Trong cả hai trường hợp thì tỷ lệ chữa được bệnh của thuốc I cao hơn, vậy nên thuốc I tốt hơn.

Trong hai câu trả lời trên câu trả lời nào đáng tin? Vì sao ? Nghịch lý nằm ở đâu ?

Nghịch lý 2. Hoàng tử có chị em gái không ?

Biết rằng cha mẹ của 1 hoàng tử có 2 con. Thử hỏi xác suất để hoàng tử đó có sister (chị gái hoặc em gái) là bao nhiêu ? Có 2 đáp án sau:

1) Hoàng tử có 1 người anh chị em ruột. Có hai khả năng: hoặc người đó là con trai, hoặc là con gái. Như vậy xác suất để người đó là con gái (tức là hoàng tử có sister) là 1/2.

2) Có 4 khả năng cho 1 gia đình có 2 con: {B,B}, {B,G}, {G,B}, {G,G}. (B = boy = con trai, G = =girl = con gái, xếp theo thứ tự con thứ nhất – con thứ hai). Vì ta biết hoàng tử là con trai (đây là điều kiện) nên loại đi khả năng {G,G}, còn 3 khả năng {B,B}, {B,G}, {G,B}. Trong số 3 khả năng đó thì có 2 khả năng có con gái. Như vậy xác suất để hoàng tử có sister là 2/3.

Trong hai đáp án trên, ắt hẳn phải có (ít nhất) 1 đáp án sai. Thế nhưng cái nào sai, sai ở đâu, vì sao ?

Nghịch lý 3. Văn Phạm có phải là thủ phạm ?

Một người đàn ông tên là Văn Phạm bị tình nghi là thủ phạm trong một vụ án. Cảnh sát điều tra được những tin sau đây: 1) ngoài nạn nhân chỉ có 2 người có mặt lúc xảy ra vụ án, một trong hai người đó là Văn Phạm, người kia cảnh sát không hề biết là ai, và một trong hai người đó là thủ phạm; 2) thủ phạm phải là đàn ông. Thử hỏi xác suất để “Văn Phạm là thủ phạm” là bao nhiêu ?

Gọi người thứ hai mà cảnh sát không biết là ai là “X”. X có thể là đàn ông hoặc đàn bà. Ta gọi sự kiện “Văn Phạm là thủ phạm” là A, sự kiện “X là đàn ông” là B, “thủ phạm là đàn ông” là C. Có hai cách giải khác nhau như sau:

1) Theo công thức xác suất toàn phần ta có

p(A) = p(A|B).p(B) + p(A|\overline{B}). p(\overline{B})

Nếu X là đàn bà thì X không thể là thủ phạm và Văn Phạm phải là thủ phạm, bởi vậy p(A|\overline{B}) = 1. Nếu X là đàn ông thì một trong hai người, X hoặc Văn Phạm, là thủ phạm, bởi vậy p(A|B) = 1/2. X có thể là đàn ông hoặc đàn bà, và ta coi số đàn ông bằng số đàn bà, bởi vậy p(B) = p(\overline{B}) = 1/2. Từ đó ta có

p(A) = (1/2).(1/2) + 1. (1/2) = 3/4, có nghĩa là xác suất để “Văn Phạm là thủ phạm” bằng 3/4.

2) Ta coi C là điều kiện, và muốn tính xác suất có điều kiện p(A|C) (xác suất để Văn Phạm là thủ phạm, khi biết rằng thủ phạm là đàn ông). Theo công thức Bayes ta có

p(A|C) = { p(C|A). p(A) \over p(C|A).p(A) + p(C|\overline{A}). p(\overline{A} }

Ở trong công thức trên, p(A) là xác suất của sự kiện “Văn Phạm là thủ phạm” nếu như chưa có điều kiện “thủ phạm là đàn ông”. Vì một trong hai người Văn Thành và X là thủ phạm, nên xác suất p(A) không có điều kiện ở đây là p(A)= 1/2. Ta có p(C|A) = 1 vì tất nhiên nếu Văn Phạm là thủ phạm thì thủ phạm là đàn ông. Ngược lại, p(C|\overline{A}) = 1/2 (nếu X là thủ phạm, thì thủ phạm có thể là đàn ông hoặc đàn bà, khi mà chưa đặt điều kiện “thủ phạm là đàn ông”). Bởi vậy ta có:

p(A|C) = {1.(1/2) \over 1.(1/2) + (1/2).(1/2)} = {1/2 \over 3/4} = 2/3

Hai cách giải trên cho 2 đáp số khác nhau, như vậy (ít nhất) một trong hai cách giải trên là sai. Cách giải nào sai và sai ở chỗ nào ?

Lời giải cho các nghịch lý

Lời giải cho Nghịch lý 1. Vấn đề nằm ở chỗ Thuốc I được đem thử cho quá it nam, quá nhiều nữ so với thuốc II, nên khi lấy tổng số các kết quả của các phép thử thì nó thiên vị thuốc II và không phản ánh đúng tỷ lệ chữa được bệnh. Kết luận 1) là sai và kết luận 2) đáng tin hơn.

Lời giải cho Nghịch lý 2. Nghịch lý này có trong 1 quyển giáo trình tiếng Anh về xác suất. Điều làm tôi ngạc nhiên là tác giả của giáo trình đó nói rằng đáp án thứ hai đúng (tức là xác suất = 2/3) và đáp án thứ nhất sai. Đọc kỹ đáp án thứ 2, ta thấy khả năng {B,B} thực ra không phải là một khả năng đơn, mà là một khả năng kép gồm có 2 khả năng trong đó: hoảng tử được nói đến hoặc là người con trai thứ nhất, hoặc là người con trai thứ hai. Như vậy phải tính {B,B} là 2 khả năng {B=H,B} và {B, B=H} (H là hoàng tử). Như thế tổng cộng vẫn có 4 khả năng, và xác suất vẫn là 2/4 = 1/2. Sai ở đây là sai trong cách đếm số khả năng. (Có câu hỏi khác: tại sao 4 khả năng này lại phải có xác suất bằng nhau ? Tại sao lại phải có phân bố xác suất đều ?. Câu trả lời dành cho bạn đọc). Nếu ta đổi bài toán đi một chút thành: Một gia đình có 2 con, biết rằng ít nhất một trong hai con là con trai, thử hỏi xác suất để có con gái là bao nhiêu ? Trong bài toán này thì xác suất là 2/3 thật. Bạn đọc thử nghĩ xem sự khác nhau giữa hai bài toán nằm ở chỗ nào ?

Lời giải cho Nghịch lý 3. Vấn đề ở đây nằm ở sự lẫn lỗn giữa các không gian xác suất trong lúc lập mô hình để tính xác suất. Trong cách giải thứ nhất, khi ta viết p(A) để tính xác suất của sự kiện “Văn Phạm là thủ phạm”, không gian xác suất của ta phải là không gian \Omega_C tất cả các khả năng (với một trong 2 người Văn Phạm và X là thủ phạm) thỏa mãn điều kiện “thủ phạm là đàn ông”, chứ không phải là không gian \Omega của tất cả các khả năng có thể xảy ra (với một trong 2 người Văn Phạm và X là thủ phạm), bất kể thủ phạm là đàn ông hay đàn bà. Để cho khỏi lẫn lộn, thì trong cách giải thứ nhất ta phải viết

p_C(A) = p_C(A|B).p_C(B) + p_C(A|\overline{B}). p_C(\overline{B})

Trong không gian \Omega thì ta có p(B) = 1/2, tức là xác suất để X là đàn ông là 1/2. Nhưng trong không gian \Omega_C dùng trong cách giải thứ nhất, thì ta phải dùng xác suất p_C của không gian đó, và p_C(B) không phải là 1/2, mà thực ra là 2/3, và p_C(\overline{B}) = 1/3. Nói cách khác, khi biết rằng một trong hai người X và Văn Phạm là thủ phạm, và biết rằng thủ phạm là đàn ông, thì xác suất để X là đàn ông là 2/3 chứ không còn là 1/2 nữa ! (Vì sao vậy ?). Nếu ta sử dụng các con số xác suất này trong công thức tính xác suất toàn phần của A trong không gian \Omega_C thì ta được:

p_C(A) = (1/2).(2/3) + 1. (1/3) = 2/3

Tức là nếu ta sửa lỗi về xác suất của B đi, thì cách giải thứ nhất sẽ cho cùng đáp số 2/3 như cách giải thứ hai.

$$Đây là một số bài tâp cho chương “Xác suất là gì”

Bài tập. Giả sử trong một giải bóng đá đấu loại trực tiếp có 16 đội tham gia: vòng 1 có 8 trận, vòng 2 có 4 trận, v.v. Giá sử xác suất để mỗi đội thắng mỗi trận đều là 1/2, và các đội bắt thăm để xem đội nào đấu với đội nào ở vòng đầu, các vòng sau thì được xếp theo kết quả vòng trước. Tính xác suất để hai đội A và B nào đó trong giải có đấu với nhau.

Bài tập. Thời bao cấp, có 2 người được chia chung 1 cái lốp xe đạp, và phải tung đồng xu để xem ai trong hai người đó được nhận lốp. Nhưng đồng xu bị méo, và xác suất 2 mặt khác nhau. Hãy nghĩ ra cách tung xu và tính kết quả (có thể tung mấy lần) để sao cho công bằng (sao cho xác suất “được” hay “không được” của mỗi người đều là 1/2).

Bài tập. Một lớp học có 36 học sinh. Hỏi rằng xác suất để có hai học sinh của lớp có cùng ngày sinh nhật là bao nhiêu ? (Viết công thức để tính số đó, và thử ước lượng xem số đó gần số nào hơn trong 3 số này: 0, 50%, 1 ?)

Bài tập. Chúng ta từng chứng kiên giá dầu hỏa dao động rất mạnh, có khi đi lên hơn 100% trong vòng 1 năm. Biết rằng, nếu tính giá theo USD của năm 2009 (sau khi đã điểu chỉnh theo tỷ lệ lạm phát), thì giá dầu hỏa không bao giờ xuống dưới 10 USD một thùng (dưới mức đó người ta ngừng sản xuất dầu hỏa vì không còn lãi gì nữa) và không bao giờ lên quá 300 USD một thùng (trên mức đó người ta dùng các loại năng lượng khác rẻ hơn nhiều). Thử hỏi họ các sự kiện Gx sau đây (x=0,1,…9) có thể là một họ độc lập các sự kiện được không : Gx = “năm 201x giá dầu hỏa tăng lên ít nhất 50% tính từ đầu năm đến cuối năm, tính theo USD của năm 2009” (tức là sau khi đã trừ đi tỷ lệ lạm phát) ? Giải thích tại sao ?

Bài tập. Ta biết rằng một nhà nọ có 3 con mèo, trong đó có ít nhất 1 con là mèo cái. Hỏi rằng xác suất để cả 3 con mèo đều là mèo cái là bao nhiêu ?

Bài tập. Được biết có 5% đàn ông bị mù màu, và 0,25% đàn bà bị mù màu. Giả sử số đàn ông bằng số đàn bà. Chọn 1 người bị mù màu một cách ngẫu nhiên. Hỏi rằng xác suất để người đó là đàn ông là bao nhiêu ?

Bài tập. Một kế toán viên hay viết nhầm: có 5% dấu + bị người này viết nhầm thành -, và 10% dấu trừ viết nhầm thành +. Giả sử rằng dấu + và dấu – được xuất hiện nhiều lân như nhau trong các bản kế toán nếu không viết nhầm. Tính xác suất để một dấu + trong một bản kế toán do người này lập là + thực sự (chứ không phải là – bị viết nhầm thành +).

Gs. Nguyễn Tiến Dũng ĐH TOULOUSE PHÁP

Hãy luôn khát khao, hãy cứ dại khờ

Tìm kiếm

Thứ Sáu, 27 tháng 8, 2010

Bài giảng xác suất thống kê.