Tìm kiếm

Thứ Sáu, 27 tháng 8, 2010

Bài giảng xác suất thống kê: Biến ngẫu nhiên

Phần đầu của chương “Biến ngẫu nhiên”

- Biến ngẫu nhiên là gì

- Mô hình toán học của biến ngẫu nhiên

- Phân bố xác suất của biến ngẫu nhiên

- Phân bố Poisson

- Hàm phân phối

- Hàm mật độ

- Phân bố normal

- Phụ lục: tích phân trên không gian xác suất

Biến ngẫu nhiên là gì ?

“Biến” là cái có thể thay đổi. “Ngẫu nhiên” là khi người ta chưa xác định được cái gì đó, thì người ta gọi nó là ngẫu nhiên. Cái gì khi đã xác định được, thì thành “định tính”, hết ngẫu nhiên. Một biến có thể là ngẫu nhiên với người này, nhưng không ngẫu nhiên với người khác, tùy theo lượng thông tin nhận được. Ví dụ, số thứ tiếng ngoại ngữ mà ông A nói được là một số xác định, không ngẫu nhiên đối với ông A, nhưng nó là một số không xác định, ngẫu nhiên với một ông B nào đó.

Biến ngẫu nhiên có thể nhận giá trị trong mọi phạm trù (hiểu từ phạm trù ở đây theo nghĩa thông thường chứ không phải theo nghĩa phạm trù toán học), ví dụ như màu sắc, hình dạng, phương hướng, v.v. Tuy nhiên, bằng các ánh xạ (không ngẫu nhiên), chúng ta có thể chuyển việc nghiên cứu mọi biến ngẫu nhiên về việc nghiên cứu các biến ngẫu nhiên nhận giá trị là các số. Bởi vậy ở đây, khi nói đến một biến ngẫu nhiên mà không nói cụ thể nó nhận giá trị ở đâu, chúng ta sẽ hiểu là các giá trị của nó là các con số.

Ví dụ. Tại thời điểm đóng cửa thị trường chứng khoán Mỹ hôm 04/09/2009, giá cổ phiếu của hãng phần mềm máy tính Oracle (mã chứng khoán: ORCL) là 21,97 USD. Nó đã được xác định và không còn ngẫu nhiên. Thế nhưng tại thời điểm đó, thì giá cố phiếu của Oracle cho lúc cuối ngày 18/09/2009 chưa được biết, và nó là một biết ngẫu nhiên đối với thị trường chứng khoán. Người ta cho rằng giá của nó vào ngày 18/09/2009 có thể lên trên 23 USD, mà cũng có thể xuống dưới 21 USD. Điều này thể hiện qua việc, tại thời điểm cuối ngày 04/09/2009 , quyền mua ORCL trước ngày 18/09/2009 với giá 23 USD (September 2009 call option at strike price 23) có giá 0,25 USD (nếu như ai cũng biết chắc rằng giá của ORCL vào thời điểm 18/09/2009 sẽ không vượt quá 23 thì cái quyền mua đó sẽ phải có giá bằng 0 vì không có giá trị gì), đồng thời quyền bán (put option) ORCL với giá 21 có giá là 0,30 USD. (Các thông tin về giá cả cổ phiếu và option có thể xem trên rất nhiều các trang web về chứng khoán).

Mô hình toán học của biến ngẫu nhiên

Giả sử có một biến ngẫu nhiên f. Chúng ta giả sử là có nhiều tình huống khác nhau có thể xảy ra, và trong mỗi tình huống thì f sẽ nhận được một giá trị nào đó. Như vậy một biến ngẫu nhiên có thể được mô hình hóa bằng một hàm số

f: \Omega \to \mathbb{R}

Ở đây \Omega là không gian đại diện cho các tình huống có thể xảy ra. Các tình huống, hay các nhóm các tình huống (các tập hợp con của \Omega) là các sự kiện, và chúng ta có thể gắn cho mỗi sự kiện một xác suất về khả năng xẩy ra. Điều đó có nghĩa là \Omega có thể coi là một không gian xác suất, ký hiệu là (\Omega, p) với một độ đo xác suất p. Từ đó ta có định nghĩa toán học sau:

Định nghĩa. Một biến ngẫu nhiên (với giá trị thực) là một hàm số gía trị thực trên một không gian xác suất,

f: (\Omega,p) \to \mathbb{R}

Nếu ta có hai biến ngẫu nhiên F, G, thì ta sẽ nói rằng F= G theo nghĩa xác suất, hay F= G hầu khắp mọi nơi, nếu như sự kiện “F= G” có xác suất bằng 1 (tức là tập hợp các trường hợp mà ở đó F \neq G có xác suất bằng 0, có thể bỏ qua).

Ghi chú. Chúng ta sẽ chỉ quan tâm tới các biến ngẫu nhiên thỏa mãn điều kiện bình phương khả tích:

\int_\Omega |f|^2 dp < \infty

Bạn đọc nào chưa biết khái niệm tích phân trên một không gian có độ đo, thì có thể xem sách về giải tích (phần độ đo và tích phân), hoặc xem phụ lục của bài giảng phía dưới. Các biến ngẫu nhiên trong thực tế đều hữu hạn và bị chặn, và bởi vậy chúng đều hiển nhiên có bình phương khả tích. Nhưng khi làm các mô hình toán học của các vấn đề thực tế, chúng ta có thể cho phép hàm F không bị chặn (cho tiện lợi, dễ viết và dễ tính trong nhiều trường hợp), nhưng chúng ta sẽ đòi hỏi F phải bình phương khả tích, cũng vì lý do tiện lợi: không gian các hàm có bình phương khả tích là không gian (tiền) Hilbert tách được (separable), có tích vô hướng (scalar product), và chúng ta sẽ thấy là tích vô hướng này rất qua trọng trong việc nghiên cứu các biến ngẫu nhiên.

Ví dụ. Một thí sinh đi kiểm tra trắc nghiệm, được giao 5 câu hỏi một cách ngẫu nhiên. Được biết 3 câu đầu thuộc loại vừa, và xác suất để thí sinh làm đúng cho mỗi câu là 80%, 2 câu sau thuộc loại khó, và xác suất làm đúng mỗi câu là 50%. Mỗi câu làm đúng thì được tính 1 điểm. Không gian \Omegacác tình huống ở đây gồm 2^5 = 32 phần tử, mỗi phần tử có thể được ký hiệu bằng 1 dãy 5 chữ cái mà mỗi chứ cái là D (đúng) hoặc S (sai). Biến ngẫu nhiên là tổng số điểm, tức là hàm F: \Omega \to {0,1,2,3,4,5}, F của một dãy chữ cái bằng số lần chữ cái D xuất hiện trong dãy. Từ thông tin phía trên có thể suy ra xác suất của mỗi phần tử của \Omega, ví dụ như p(DDSSD) = 80\%.80\%.20\%.50\%.50\% = 4/125= 3,2\%

Ví dụ. Nếu X là một sự kiện, thì ta có thể định nghĩa hàm đặc trưng f_X của X như sau:

f_X = 1 khi X xảy ra và f_X = 0 khi X không xảy ra.

Nếu ta có một sự kiện, thì hàm đặc trưng của nó là một biến ngẫu nhiên chỉ nhận 2 giá trị 0 và 1, và ngược lại, nếu ta có một biến ngẫu nhiên f chỉ nhận 2 giá trị 0 và 1, thì nó là hàm đặc trưng của sự kiện \{f=1\}. Nếu ta biểu diễn X như là một tập con của một không gian xác suất \Omega, thì hàm đặc trưng của X được biểu diễn như là hàm đặc trưng của tập X trong \Omega:

f_X(x) = 1 nếu x \in X và f_X(x) = 0 nếu x \in \overline{X} = \Omega \setminus X

Phân bố xác suất của biến ngẫu nhiên

Nếu ta có một không gian xác suất (\Omega,p) và một ánh xạ F: (\Omega,p) \to \Lambda từ \Omega lên một không gian \Lambda nào đó, thì phép push-forward theo f sẽ biến \Lambda thành một không gian xác suất, với độ đo xác suất ký hiệu là p_F = F^*p: theo định nghĩa, nếu X là một tập con của \lambda thì

p_F(X) = p (F^{-1}(X))

(nếu như tồn tại p (F^{-1}(X)), tức là nếu như F^{-1}(X) nằm trong sigma-đại số của độ đo xác suất p)

Trong trường hợp f: (\Omega,p) \to \mathbb{R} là một biến ngẫu nhiên, thì áp dụng công thức push-forward phía trên, ta được một độ đo xác suất trên \mathbb{R}. Độ đo này được gọi là phân bố xác suất của biến ngẫu nhiên f

Trong nhiều công việc tính toán với biến ngẫu nhiên, ta có thể quên đi không gian xác suất ban đầu của biến ngẫu nhiên đó, mà chỉ cần biết đến phân bố xác suất (trên \mathbb{R}) của nó.

Ví dụ. Tiếp tục ví dụ về bài kiểm tra trắc nghiệm trong mục trước. Phân bố xác suất trên \mathbb{R} của biến ngẫu nhiên “điểm kiểm tra” trong ví dụ đó tập trung ở 6 số: 0,1,2,3,4,5, với các xác suất p(0) = 0,2\%, p(1) = 2,8\%, … (Bài tập: tính các xác suất còn lại).

Ví dụ. Một biến ngẫu nhiên X được gọi là có phân bố nhị thức với các tham số n \in \mathbb{N} và p \in [0,1] nếu như phân bố xác suất của nó trên \mathbb{R} tập trung ở các điểm 0,1,\hdots,n, với các xác suất

p(X=k) = C^k_np^k(1-p)^n.

Bạn đọc chắc nhận thấy rằng phân bố nhị thức là phân bố của số lần hiện lên một kết quả nào đó trong n lần thử độc lập, mà mỗi lần thử có xác suất hiện lên kết quả bằng p.

Ví dụ. Một người chơi trò tung vòng vào cổ chai, tung đến bao giờ trúng thì thôi. Xác suất để tung trúng mỗi lần là q. Gọi T là số lần phải tung cho đến khi tung trúng. Khi đó T là một biến ngẫu nhiên nhận giá trị trong \mathbb{N}. Xác suất để sao cho tung k-1 lần đầu trượt, nhưng lần thứ k trúng, là q(1-q)^{k-1}/latex]. Như vậy ta có [latex]p_T(k) = q(1-q)^{k-1}. Phân bố xác suất này gọi là phân bố geometric với tham số q.

Phân bố Poisson

Định nghĩa. Một biến ngẫu nhiên X được gọi là có phân bố Poisson với tham số \lambda nếu như các giá trị của nó là các số nguyên không âm, và p(X=k) = {\lambda^k \over k!}.e^{-\lambda}.

Phân bố Poisson là một trong những phân bố xác suất rời rạc (chữ rời rạc ở đây có nghĩa là: trên mỗi tập con bị chặn của \mathbb{R}, xác suất chỉ tập trung ở một số hữu hạn các điểm) hay được dùng để làm mô hình cho các bài toán thực tế. Lý do là vì nó là giới hạn của phân bố nhị thức với các tham số p = \lambda/n và n, khi n tiến tới vô cùng.

Quả vậy, ta có

C^k_n.(\lambda/n)^k.(1 -\lambda/n)^{n-k} = (n!/k!(n-k)!). (\lambda)^k.(1 -\lambda/n)^{n-k}

= (\lambda^k/k!). (n.(n-1).\hdots.(n-k+1)/n^k). (1 -\lambda/n)^{-k}.(1 -\lambda/n)^n

Khi n tiến tới vô cùng thì (n.(n-1).\hdots.(n-k+1)/n^k).(1 -\lambda/n)^{-k} tiến tới 1 (k ở đây là cố định) và (1 -\lambda/n)^n tiến tới e^{-\lambda}, bởi vậy ta có

\lim_{n \to \infty}C^k_n.(\lambda/n)^k.(1 -\lambda/n)^{n-k} = {\lambda^k \over k!}. e^{-\lambda}

Ví dụ. Biến ngẫu nhiên “số vụ tai nạn giao thông xảy ra trong một ngày” có thể được mô hình hóa bằng phân bố Poisson. Ta sẽ giả sử các tai nạn giao thông xảy ra một cách ngẫu nhiên, độc lập với nhau, và trung bình mỗi ngày có \lambda vụ tai nạn. Ta sẽ chia 24 tiếng đồng hồ trong ngày thành n khoảng thời gian (n là một số rất lớn), để sao cho có thể coi rằng trong mỗi khoảng thời gian có nhiều nhất 1 vụ giao thông xảy ra, và khả năng xảy ra tai nạn giao thông trong mỗi khoảng thời gian bằng \lambda/n. Khi đó tổng số tai nạn xảy ra trong ngày tuân theo phân bố nhị thức với các tham số n,p= \lambda/n, và khi cho n tiến tới vô cùng ta được phân bố Poisson. Tất nhiên phân bố Poisson không thể là phân bố xác suất “chính xác” của vấn đề (vì số người là hữu hạn, và số tai nạn bị chặn trên bởi số người chứ không lớn tuỳ ý được), nhưng nó là phân bố “gần đúng” thuận tiện cho việc tính toán.

Hàm phân phối

Định nghĩa. Hàm phân phối của phân bố xác suất p_F trên \mathbb{R} của một biến ngẫu nhiên F là hàm \mathcal{P}_F: \mathcal{R} \to [0,1] cho bởi công thức

\mathcal{P}_F(x) := p (F \leq x) = p_F((-\infty, x])

Tất nhiên, hàm phân phối được xác định duy nhất bởi phân bố xác suất. Điều ngược lại cũng đúng: Nếu ta biết hàm phân phối \mathcal{P}_F, thì ta có thể tính được xác suất p_F của các đoạn thẳng đóng và nửa mở của \mathbb{R} qua các công thức sau

p_F((a,b]) = \mathcal{P}_F(b) – \mathcal{P}_F(a),

p_F([a,b]) = \lim_{x \to a-}(\mathcal{P}_F(b) – \mathcal{P}_F(x)),

và từ đó tính được xác suất của các tập con khác của \mathbb{R}.

Định lý. Hàm phân phối \mathcal{P}_F của một phân bố xác suất trên \mathbb{R} là một hàm thỏa mãn 3 tính chất sau:

1) Tịnh tiến không giảm: \mathcal{P}_F(x) \geq \mathcal{P}_F(y) với mọi x \geq y,

2) \lim_{x \to -\infty}\mathcal{P}_F(x) = 0,

3) \lim_{x \to +\infty}\mathcal{P}_F(y) = 1.

Ngược lại, mọi hàm số thực trên \mathbb{R} thỏa mãn 3 tính chất trên là hàm phân phối của một phân bố xác suất trên \mathbb{R}

Bài tập: Chứng minh định lý trên.

Hàm mật độ

Có nhiều mô hình biến ngẫu nhiên F mà phân bố xác suất p_Fcủa nó trên \mathbb{R} là liên tục. Điều đó có nghĩa là có một hàm số (khả tích) \rho_F: \mathbb{R} \to \mathbb{R}_+ (xác định duy nhất theo p_F) sao cho với hai số thực a < b bất kỳ ta có:

p(a < F \leq b) = \int_a^b \rho_F(x) d x

Hàm \rho_F này được gọi là hàm mật độ của phân bố xác suất p_F trên \mathbb{R}

Tất nhiên, nếu \rho_F là một hàm mật độ của một phân bố xác suất trên \mathbb{R}, thì p_F được xác định duy nhất bởi \rho_F, và hơn nữa ta có

\int_{-\infty}^{\infty} \rho_F(x) dx = 1

do xác suất của toàn bộ không gian \mathbb{R} là 1. Ngược lại, nếu ta có một hàm không âm khả tích trên \mathbb{R} mà có tích phân trên \mathbb{R} bằng 1, thì ta luôn có thể coi nó là hàm mật độ của phân bố xác suất của một biến ngẫu nhiên nào đó.

Quan hệ giữa hàm phân phối và hàm mật độ là: hàm phân phối là tích phân của hàm mật độ,

\mathcal{P}_F(x) = \int_{-\infty}^x \rho_F(t) dt,

và ngược lại, hàm mật độ là đạo hàm của hàm phân phối hầu khắp mọi nơi:

\rho_F(x) = \mathcal{P}_F'(x)

Ghi chú. Nếu p_F không liên tục, có nghĩa là hàm phân phối \mathcal{P}_F(x) := p( F \leq x) không phải là hàm liên tục trên \mathbb{R} (điều này xảy ra khi mà p_F có “nhân”, tức là tồn tại ít nhất một số thực c sao cho p(F =c) > 0), thì không tồn tại hàm mật độ theo nghĩa hàm thông thường, nhưng người ta vẫn có thể định nghĩa hàm mật độ theo nghĩa hàm suy rộng.

Phân bố normal

Định nghĩa. Phân bố xác suất normal trên \mathbb{R} với trung điểm \mu và độ lệch chuẩn \sigma là phân bố liên tục với hàm mật độ sau:

\rho (x) = {1 \over \sigma \sqrt{2 \pi}} \exp ( – {(x – \mu)^2 \over 2 \sigma^2})

Phân bố normal, hay còn gọi là phân bố Gauss (Gaussian distribution), là một trong những phân bố xác suất quan trọng nhất, vì nhiều phân bố xác suất gặp trong thực tế có dáng điệu khá giống phân bố đều, ví dụ như phân bố của chiều cao của đàn ông, phân bố của chỉ số IQ (chỉ số trí tuệ), phân bố của giá chứng khoán trong tương lai, v.v. Các định lý giới hạn trung tâm mà chúng ta sẽ đề cập đến trong một chương sau sẽ cho chúng ta cơ sở lý thuyết để hiểu tại sao có nhiều phân bố xác xuất trong thực tế trông giống phân bố normal.

Đồ thị của hàm mật độ của phân bố normal có hình cái chuông, và bởi vậy phân bố normal còn được gọi một cách nôm na là phân bố hình cái chuông. Trung điểm của cái chuông này chính là điểm x = \mu, và độ cao của chuông chính bằng {1 \over \sigma \sqrt{2 \pi}}. Nếu \sigma càng nhỏ thì chuông càng cao và càng “hẹp”, và ngược lại \sigma càng lớn thì chuông càng thấp và càng bè ra.

normal-distribution-curve

Hình vẽ minh họa trên cho thấy hầu hết xác suất của một phân bố normal nằm trong đoạn [\mu - 2\sigma, \mu + 2\sigma]. Chỉ có 4,6% nằm ngoài đoạn đó. Nói cách khác, nếu F là một biến ngẫu nhiên có phân bố xác suất normal với các tham số \mu, \sigma, thì với xác suất 95,4% ta có thể tin rằng giá trị của F nằm trong đoạn [\mu - 2\sigma, \mu + 2\sigma]: p(\mu – 2\sigma < F < \mu + 2\sigma) = 95,4\%.

Ví dụ. Đồ thị sau đây là bảng tần số (histogram) của huyết áp của người, trong một thí nghiệm đo huyết áp 1000 người:

blood_pressure_histogram

Nếu chúng ta coi không gian xác suất ở đây là có 1000 phần tử, với xác suất của một phần tử là 1/1000, thì bảng tần số trên cho ta bảng phân bổ xác suất rời rạc của biến ngẫu nhiên “huyết áp” H: xác suất của sự kiện H = x là tần số của x chia cho 1000. Vì đồ thị có hình gần giống hình cái chuông, nên ta thấy phân bố xác suất của biến “huyết áp” trong thí nghiệm này có thể được xấp xỉ khá tốt bằng một phân bố normal.

Ghi chú. Để có một phân bố xác suất gần giống phân bố normal, cần phải có một sự “thuần nhất” nào đó trong biến ngẫu nhiên. Ví dụ, nếu ta có 1 thùng táo chín cùng một giống táo, thì khi xét biến ngẫu nhiên “đường kính của quả táo” trên thùng táo đó, ta có thể được một phân bố gần giống phân bố normal. Nhưng nếu ta trộn 2 thùng táo thuộc 2 giống táo khác nhau, một giống táo to một giống táo nhỏ, thì phân bố xác suất của biến “đường kính” trong đống táo trộn lẫn này không còn là normal được nữa, mà nó phải có 2 “đỉnh”, 1 đỉnh ứng với đường kính trung bình của giống táo to và 1 đỉnh ứng với đường kính trung bình của giống táo nhỏ.

Phụ lục: Tích phân trên không gian xác suất

Giả sử có một hàm số g: (\Omega,p) \to \mathbb{R} trên một không gian xác suất (\Omega,p) với độ đo xác suất p, bị chặn bởi một số dương M nào đó: |g(x)| \leq M với mọi x \in \Omega.

Ta sẽ giả sử hàm g là hàm đo được. Điều đó có nghĩa là với hai số thực a \leq b bất kỳ, thì tồn tại xác suất p(g^{-1}(]a,b])) của ảnh ngược của đoạn thẳng nửa mở ]a,b] qua ánh xạ g. Nói cách khác, tập hợp g^{-1}(]a,b]) nằm trong sigma-đại số đi kèm với (\Omega,p). (Có thể thay các đoạn thẳng nửa mở bằng các đoạn thẳng đóng hay các đoạn thẳng mở cũng được, định nghĩa sẽ không bị thay đổi).

Một sự chia nhỏ của đoạn thẳng [-M-1,M+1] là một dãy số a_0 = -M \leq a_1 \leq a_2 \leq \hdots \leq a_n = M hữu hạn tiến lên nào đó, sao cho số đầu bằng -M-1 và số cuối bằng M+1. Khi có một sự chia nhỏ như vậy (ký hiệu là A), ta có thể lập hai số sau:

I_A(g) := \sum_{i=0}^n a_i. p(g^{-1}(]a_i,a_{i+1}]))



J_A(g) := \sum_{i=0}^n a_{i+1}. p(g^{-1}(]a_i,a_{i+1}]))

(Chú ý rằng, ở hai công thức phía trên, ta dùng các đoạn thẳng nửa mở, để chúng khỏi giao nhau, và sau cho hợp của chúng chứa đoạn thẳng [-M,M])

Dễ thấy rằng nếu A và B là hai sự chia nhỏ bất kỳ của đoạn thẳng [-M,M] thì ta có

I_A(g) \leq J_B(g)

(Bài tập: Chứng minh bất đẳng thức trên)

Hơn nữa, nếu sự chia nhỏ A thỏa mãn tính chất a_{i+1} – a_i < \epsilon với mọi i, thì ta cũng có J_A(g) – I_A(g) < \epsilon. Từ đó suy ra

\sup_A I_A (g) = \inf_B J_B(g)

Theo định nghĩa, tích phân (Lebesgue) của g trên \Omega chính là giá trị chung đó:

\int_\Omega g dp = \sup_A I_A (g) = \inf_B J_B(g)

Nếu g không bị chặn, thì đầu tiên ta thay g bằng các hàm bị chặn

g_{M,N}(x) := \min(\max(-N,g(x)),M), (M,N > 0), rồi định nghĩa

\int_\Omega g dp = \lim_{M,N \to + \infty} \int_\Omega g_{M,N} dp

nếu như giới hạn đó tồn tại. Trong trường hợp giới hạn đó tồn tại và hữu hạn, thì ta nói g là hàm khả tích.

Hàm g được gọi là có bình phương khả tích (square-integrable)nếu hàm |g|^2 là hàm khả tích.

$$Trong phân này:

- Các phép toán với biến ngẫu nhiên

- Giá trị kỳ vọng

- Giá trị kỳ vọng hình học

Các phép toán với biến ngẫu nhiên

Tương tự như với các số và các hàm số, ta có thể làm nhiều phép toán khác nhau với các biến ngẫu nhiên: cộng, trừ, nhân, chia, lấy giới hạn, tích phân, hàm hợp, v.v. Qua các phép toán như vậy, chúng ta có thể sinh ra các biến ngẫu nhiên mới từ các biến ngẫu nhiên cho trước.

Ví dụ. Một học sinh thi vào đại học phải thi 3 môn. Điểm của mỗi môn có thể coi là 1 biến ngẫu nhiên. Tổng số điểm cũng là một biến ngẫu nhiên, và nó là tổng của 3 biến ngẫu nhiên phía trước.

Ví dụ. Tốc độ V của một xe ô tô đang chạy trên đường có thể coi là một biến ngẫu nhiên. Nếu xe đang chạy mà phải phanh gấp lại vì phía trước có nguy hiểm, thì từ thời điểm người lái xe bóp phanh cho đến thời điểm xe dừng lại, xe phải chạy thêm mất một quãng đường có độ dài D nữa. D cũng có thể coi là một biến ngẫu nhiên. Nó không phải là tỷ lệ thuận với V, mà là tỷ lệ thuận với bình phương của V. Tức là biến ngẫu nhiên D có thể được sinh ra từ biến ngẫu nhiên V theo công thức: D = k. V^2. Hệ số k ở đây phụ thuộc vào điều kiện của đường và điều kiện của xe; nó có thể coi là xác định nếu ta biết các điều kiện này, còn nếu không thì có thể coi là một biến ngẫu nhiên khác. Ví dụ, trong điều kiện đường tốt và xe tốt, thì k = 0,08m^{-1}.s^2: một xe đang chạy với tốc độ 36km/h = 10m/s thì từ lúc bóp phanh đến lúc dừng lại chạy thêm mất 0,08 \times 10^2 = 8 mét, nhưng nếu xe đang chạy với tốc độ 108km/h = 3 \times 36km/h, thì từ lúc bóp phanh đến lúc dừng lại sẽ chạy thêm mất những 8 \times 3^2 = 72 mét.

Giá trị kỳ vọng

Khi ta có một biến ngẫu nhiên, ta có thể nghiên cứu các tính chất, đặc trưng của nó, để rút ra các thông tin, kết luận nào đó. Một trong những đặc trưng quan trọng nhất là giá trị kỳ vọng.

Định nghĩa. Giá trị kỳ vọng của một biến ngẫu nhiên F, ký hiệu là \mathbb{E}(F) chính là trung bình cộng của biến ngẫu nhiên đó trên không gian xác suất các tình huống.

Trong trường hợp không gian xác suất các tình huống là một tập hợp hữu hạn, \Omega = \{x_1,\hdots,x_n\} với các xác suất p(x_i) (\sum_i p(x_i) = 1), thì công thức tính giá trị kỳ vọng (trung bình cộng) của một biến ngẫu nhiên F: \Omega \to \mathbb{R} là

\mathbb{E}(F) = \sum_{i} F(x_i). p(x_i)

Trong trường hợp tổng quát, công thức tính giá trị kỳ vọng được viết dưới dạng tích phân:

\mathbb{E}(f) = \int_\Omega f dp

Tất nhiên, nếu một biến ngẫu nhiên thực ra là một hằng số, thì giá trị kỳ vọng của nó chính là hằng số đó.

Bổ đề. Giá trị kỳ vọng của một biến ngẫu nhiên f có thể được xác định thông qua phân bố xác suất p_f của biến ngẫu nhiên đó, theo công thức sau:

\mathbb{E}(f) = \int_{x \in \mathbb{R}} x dp_f

Chứng minh. Nó được suy ra trực tiếp từ định nghĩa của tích phân trên không gian xác suất.

Một số tính chất cơ bản của giá trị kỳ vọng:

Tuyến tính: Nếu F,G là hai biến ngẫu nhiên và a,b là hai hằng số thì \mathbb{E}(aF + bG) = a \mathbb{E}(F) + b \mathbb{E}(G)

Đơn điệu: Nếu f \geq 0 thì \mathbb{E}(f) \geq 0 . Tổng quát hơn, nếu F \geq G thì \mathbb{E}(F) \geq \mathbb{E}(G)

Ví dụ. Một doanh nghiệp đầu tư phát triển một sản phẩm mới, xác suất thành công là 30%. Chi phí đầu tư bỏ ra là 100 nghìn USD. Nếu không thành công thì mất chi phí đầu tư mà không thu về được gì, nhưng nếu thành công thì thu về được 1 triệu. Thử hỏi kỳ vọng lợi nhuận từ vụ đầu tư này là bao nhiêu ? Trả lời: Không gian xác suất ở đây có thể coi gồm 2 điểm: S (thành công) với xác suất 30%, với giá trị của biến ngẫu nhiên “lợi nhuận” tại S là 1000000-100000 = 900000 (USD), và F (thất bại) với xác suất 1-30% = 70%, với giá trị của “lợi nhuận” là – 100000 USD. Như vậy giá trị kỳ vọng của lợi nhuận là (theo đơn vị USD):

900000 \times 30\% + ( – 100000) \times (1 – 30\%) = 170000

Ví dụ. Đặc trưng của những “con bạc khát nước” là ham chơi những trò dính dáng tiền nong có kỳ vọng lợi nhuận bằng 0 hoặc âm (mất tiền). Ví dụ như trò chơi đề: trong 100 số đề sẽ chỉ có 1 số thắng, 99 số thua. Thắng thì được 70 lần tiền đặt cọc. Thua thì mất tiền đặt cọc. Nếu đặt cọc T tiền, thì kỳ vọng số tiền nhận lại được là 99\% \times 0 + 1\% \times 70 . X = 0,7 . X. Kỳ vọng lãi (lỗ) là 0,7 . X – X = – 0,3 . X. Tức đem X tiền đi chơi đề một lần, thì kỳ vọng là bị thua 0,3 . X .

Ví dụ. Trong một mô hình xác suất liên tục, với không gian xác suất là đoạn thẳng [1,4] với phân bố xác suất đều trên đó (tức là xác suất của một đoạn thẳng con trong đó bằng chiều dài của đoạn đó chia cho 3, ở đây 3 laf chiều dài của đoạn [1,4], hay nói cách khác độ đo xác suất ở đây bằng 1/3 độ đo thông thường), và biến ngẫu nhiên là hàm f: [1,4] \to \mathbb{R} định nghĩa bởi công thức f(x) = x^2 + x, giá trị kỳ vọng của biến ngẫu nhiên này sẽ là

\mathbb{E}(f) = \int_1^4 (x^2 + x) dx/3 = {19 \over 2}

Ví dụ. Giá trị kỳ vọng của một biến ngẫu nhiên F với phân bố Poisson p(F = k) = {\lambda^k \over k!}. e^{-\lambda} bằng \lambda. Thật vậy, \mathbb{E}(F)= \sum_k k.p_F(k)

= \sum_k k. {\lambda^k \over k!}. e^{-\lambda}= (\sum_{k \geq 1} {\lambda^k \over (k-1)!}). e^{-\lambda}

= \lambda. (\sum_{k \geq 1} {\lambda^{k-1} \over (k-1)!}). e^{-\lambda} = \lambda.e^{\lambda}.e^{-\lambda} = \lambda

Ví dụ. Giá trị kỳ vọng của phân bố geometric p_T(k) = q(1-q)^{k-1} là \mathbb{E}(T) = \sum_{k=1}^\infty k. q. (1-q)^{k-1} = 1/q. Điều này phù hợp với suy luận trực giác rằng, nếu xác suất để ném vòng một lần trúng cổ chai là q, thì trung bình phải ném vòng 1/q lần mới trúng cổ chai.

Ví dụ. Giá trị kỳ vọng của phân bố xác suất normal với các tham số \mu,\sigma chính bằng Undefined control sequence \lmu. leading text: $\lmu.

Bài tập. Xây dựng một ví dụ đơn giản với hai biến ngẫu nhiên F,G sao cho \mathbb{E}(FG) \neq \mathbb{E}(F). \mathbb{E}(G)

Giá trị kỳ vọng hình học

Trong các tài liệu khác về xác suất ít khi nhắc tới kỳ vọng hình học. Nhưng khái niệm này cũng rất quan trọng, bởi vậy tôi muốn đề cập nó ở đây. Giá trị kỳ vọng ứng với trung bình cộng, còn giá trì kỳ vọng hình học ứng với trung bình nhân. Một ví dụ đơn giản sau đây cho thấy sự quan trọng của trung bình nhân trong thực tế.

Ví dụ. Giả sử giá nhà dao động trong 4 năm như sau. Năm đầu tiên giảm 15%, năm thứ hai tăng 35%, năm thứ ba giảm 20%, năm thứ tư tăng 20%. Hỏi xem trong 4 năm đó giá nhà tăng lên (hay giảm đi) trùng bình mỗi năm bao nhiêu % ? Nếu ta lấy trung bình cộng thì được (-15% + 35% – 20% + 20%)/ 4 = 5% một năm. Nhưng con số đó có phản ánh chính xác sự đi lên của giá nhà trong 4 năm không ? Nếu gọi giá lúc đầu là X, thì sau năm đầu giá là (1-15%)X, sau năm thứ hai giá là (1+35%)(1-15%)X, sau năm thứ ba giá là (1-20%)(1+35%)(1-15%)X, sau 4 năm giá là (1+20%)(1-20%)(1+35%)(1-15%)X = 1,1016 X. Tức là sau 4 năm giá nhà chỉ tăng lên có 10,16%, chứ không phải 20% (= 4 lần 5%) như là người ta tưởng ! Để có cái nhìn chính xác về mức độ tăng trưởng trung bình hàng năm trong giai đoạn 4 năm, cần phải lấy trung bình nhân của các con số 1+20%, 1-20%, 1+35%, 1-15% rồi trừ đi 1. Kết quả là 2,449% một năm.

Như chúng ta biết, nếu có một dãy các số dương a_1,\hdots, a_n, a_i > 0 với mọi i, thì ngoài giá trị trung bình cộng (\sum a_i)/n, chúng ta còn có thể nói đến trung bình nhân:

(\prod_i a_i)^{1/n}

Từ tiếng Anh cho trung bình nhân là geometric mean, nếu dịch từng chữ ra tiếng Việt thì là “trung bình hình học”, còn trung bình cộng là “trung binh số học”.

Trung bình nhân có thể được định nghĩa qua trung bình cộng và qua hàm logarithm \ln, và hàm ngược của hàm \ln, tức là hàm \exp:

(\prod_i a_i)^{1/n} = \exp (\sum_i (\ln a_i)/n )

Hàm \ln là hàm lõm trên nửa đường thẳng dương (đạo hàm bậc hai của nó bằng - 1/x^2 là một hàm âm), bởi vậy ta có:

(\sum_i \ln a_i)/n \leq \ln (\sum_i a_i)

Lấy \exp của hai vế của bất đẳng trên, ta được bất đẳng thức quen thuộc sau: Trung bình nhân luôn luôn nhỏ hơn hoặc bằng trung bình cộng:

(\prod_i a_i)^{1/n} \leq (\sum_i a_i)/n

Dấu bằng xảy ra khi và chỉ khi tất cả các số a_i bằng nhau.

Nếu thay vì một dãy các số dương, ta có một biến ngẫu nhiên Fmà các giá trị đều dương, thì ta cũng có thể làm tương tự như trên, và kết quả gọi là giá trị kỳ vọng hình học của F, và tôi sẽ ký hiệu là \mathbb{G}(F):

\mathbb{G}(F) = \exp ( \mathbb{E}( \ln F) ) = \exp (\int_\Omega \ln(F) dp)

Chúng ta cũng có bất đẳng thức sau: Giá trị kỳ vọng hình học luôn nhỏ hơn hoặc bằng giá trị kỳ vọng:

\mathbb{G}(F) \leq \mathbb{E} (F)

Dấu bằng xảy ra khi và chỉ khi F là hằng số trên không gian xác suất, tức là không ngẫu nhiên. (Nói theo kiểu chặt chẽ toán học, thì F là hằng số theo nghĩa xác suất, tức là có thể có một tập con có độ đo xác suất bằng 0 mà ở đó F nhận giá trị khác).

Ví dụ. Giả sử có một cơ hội đầu tư như sau. Khả năng thắng/thua là 50%/50%, sau 1 tháng biết kết quả. Nếu thắng thì lãi 100%, nếu thua thì lỗ 50% tiền bỏ ra. (Trên thị trường chứng khoán có những trường hợp tương tự như vậy, ví dụ như 1 hãng công nghệ sinh học khi đang đợi kết quả thí nghiệm lâm sàng của một loại thuốc chữa ung thư, nếu thành công thì giá trị cổ phiếu của hãng có thể tăng vài lần, nếu thất bại thì giá trị cũng có thể mất trên 50%). Thử hỏi đối với người đầu tư thì có nên đầu tư vào những cơ hội như vậy không, và nếu nên thì nên đầu tư với nhiều nhất nhiêu % vốn đầu tư (để đạt kỳ vọng lợi nhuận cao nhất, giả sử là không có các cơ hội đầu tư khác)?

Trước hết, ta có thể tính giá trị kỳ vọng của lợi nhuận của đầu tư theo cơ hội trên, với 1 đơn vị vốn bỏ ra. Gọi P là biến “lợi nhuận”, ta có 2 khả năng: hoặc P = 1 hoặc P = – 1/2, mỗi khả năng có xác suất 50%. Như vậy kỳ vọng lợi nhuận trên 1 đơn vị vốn bỏ ra là:

\mathbb{E}(P) = 50\%. 1 + 50\%. (-1/2) = 0,25

Kỳ vọng lợi nhận ở đây là dương và khá lớn (bằng 25% vốn bỏ ra), nên đây là cơ hội nên đầu tư, trừ khi có những cơ hội khác tốt hơn. (Lãi 25% trong một tháng có thể gọi là siêu lợi nhuận).

Câu hỏi thứ hai là nhà đầu tư nên đầu tư vào đó nhiều nhất là bao nhiêu phần trăm vốn đầu tư ? Nếu giả sử đầu tư toàn bộ 100% vốn. Khi đó có 2 khả năng, hoặc là tổng số vốn tăng lên gấp đôi, hoặc là giảm đi còn 1 nửa, với xác suất của mỗi khả năng là 50%. Nhưng nếu một nhà đầu tư mà làm như vậy 2 lần liên tiếp, 1 lần thắng một lần thua, thì sau hai lần số vốn lại về như cũ không tăng trưởng được gì cả. Muốn đảm bảo cho vốn tăng trưởng “về lâu về dài”, cái cần tính đến không phải là giá trị kỳ vọng của vốn sau mỗi lần đầu tư, mà là giá trị kỳ vọng hình học. Nếu giả sử chỉ có 1 cơ hội đầu tư duy nhất như trên, thì giá trị kỳ vọng hình học của vốn có được sau khi đầu tư Y tiền vào đó trên tổng số X tiền sẽ là:

\sqrt{(X – Y/2) (X + Y)}

Để tối ưu hóa giá trị kỳ vọng hình học tức là tìm Y sao cho \sqrt{(X -Y/2) (X + Y)} đặt cực đại, với X cho trước. Kết quả là Y = X/2, và khi đó giá trị kỳ vọng hình học của vốn sau khi đầu tư là \sqrt{(X – X/4) (X + X/2)} =1,061.X Như vậy, kỳ vọng lợi nhuận của một cơ hội đầu tư như trên, tính trên toàn bộ vốn của nhà đầu tư, chỉ có không quá 6,1% chứ không phải 25%.

Ngoài bất đẳng thức “giá trị kỳ vọng hình học nhỏ hơn hoặc bằng giá trị kỳ vọng” viết phía trên, giá trị kỳ vọng hình học còn có thêm một số tính chất đáng chú ý như sau:

Tính đơn điệu: Tương tự như giá trị kỳ vọng, nếu F \geq G thì \mathbb{G}(F) \geq \mathbb{G}(G)

Tính thuần nhất: Nếu c là hằng số thì \mathbb{G}(cF) = c \mathbb{G}(F)

Tính lõm: Giá trị kỳ vọng hình học không có tính tuyến tính như giá trị kỳ vọng; thay vì đó nó có tính lõm:

(\mathbb{G}(F) + \mathbb{G}(G))/2 \leq \mathbb{G}((F+G)/2)

Dấu bằng xảy ra khi và chỉ khi F và G tỷ lệ thuận với nhau, tức là tồn tại một hằng số dương c sao cho G = cF.

(Bài tập: chứng minh bất đẳng thức trên, cho trường hợp không gian xác suất là một không gian hữu hạn phần tử có phân bố xác suất đều)

Tính lõm của giá trị kỳ vọng hình học chính là cơ sở của nguyên tắc đa dạng hóa tài sản (diversification) trong đầu tư: Bằng cách đa dạng hóa tài sản (đầu tư một phần vào F và một phần vào G , thay vì chỉ đầu tư vào F hay chỉ đầu tư vào G) có thể làm tăng giá trị kỳ vọng hình học của danh mục đầu tư (ít ra là trong trường hợp F và G có cùng kỳ vọng hình học về performance).

$$Chương “Biến ngẫu nhiên”, §3: Phương sai, độ lệch chuẩn, và các moment

- Phương sai và độ lệch chuẩn

- Các moment của một biến ngẫu nhiên

Phương sai và độ lệch chuẩn

Định nghĩa. Độ lệch chuẩn (standard deviation) của một biến ngẫu nhiên F là

\sigma(F) = \sqrt{ \mathbb{E}( (F – \mathbb{E}(F))^2)}

Phương sai của F chính là bình phương \sigma(F)^2 của độ lệch chuẩn của F, tức là bằng \mathbb{E}( (F – \mathbb{E}(F))^2)

Ý nghĩa của độ lệch chuẩn là: nó là thước đo độ lệch của các giá trị của F so với giá trị trung bình của nó. Định nghĩa của phương sai cho thấy nó luôn luôn lớn hơn hoặc bằng 0, và bằng 0 khi và chỉ khi F là hằng số (tức là nó không bị lệch đi đâu cả so với giá trị trung bình của nó).

Độ lệch chuẩn có tính thuần nhất bậc một: \sigma(cF) = c\sigma(F), còn phương sai thì thuần nhất bậc hai: \sigma(cF)^2 = c^2 \sigma(F)^2

Ví dụ. Nếu F nhận hai giá trị a và - a (a > 0), mỗi giá trị với xác suất 50%, thì giá trị kỳ vọng của F là 0, phương sai của F là a^2. 50\% + (-a)^2. 50\% = a^2, và độ lệch chuẩn chính là a.

Sử dụng tính tuyến tính của giá trị kỳ vọng, ta có thể biến đổi công thức của phương sai như sau: \mathbb{E}( (F – \mathbb{E}(F))^2) = \mathbb{E}( F^2 – 2\mathbb{E}(F).F + \mathbb{E}(F)^2) = \mathbb{E}(F^2) – 2 \mathbb{E}(F). \mathbb{E}(F) + \mathbb{E}(F)^2 = \mathbb{E}(F^2) – \mathbb{E}(F)^2. Như vậy, ta có công thức sau:

\sigma(F)^2 = \mathbb{E}(F^2) – \mathbb{E}(F)^2

Câu hỏi cho những người tò mò: Tại sao người ta lại hay dùng phương sai và độ lệch chuẩn làm thước đo cho độ lệch giữa các giá trị của một biến ngẫu nhiên F với giá trị kỳ vọng của nó, chứ không dùng một đại lượng kiểu như \mathbb{E}(|F- \mathbb{E}(F)|) ?

Ví dụ. Nếu F có phân bố normal với hàm mật độ

\rho (x) = {1 \over \sigma \sqrt{2 \pi}} \exp ( – {(x – \mu)^2 \over 2 \sigma^2})

thì giá trị kỳ vọng của F chính là \mu, còn độ lệch chuẩn của F chính là \sigma trong công thức của hàm mật độ. (Bài tập: chứng minh điều đó bằng các biến đổi tích phân, xuất phát từ công thức \int_{-\infty}^\infty {1 \over \sqrt{2 \pi}} \exp ( – {x^2 \over 2}) dx = 1)

Bài tập. Chứng minh rằng độ lệch chuẩn của phân bố geometric với tham số q (p(k) = q(1-q)^k với mọi k \in \mathbb{N}) là \sigma = {\sqrt{1-q} \over q}.

Bài tập. Chứng minh rằng độ lệch chuẩn của phân bố Poisson với tham số \lambda (p(k) = e^{-\lambda}.\lambda^k/k! với mọi k \in \mathbb{Z}_+) là \sigma = \sqrt{\lambda}.

Ghi chú. Đối với các biến ngẫu nhiên với vô hạn các giá trị, thì các đại lượng đặc trưng của chúng như kỳ vọng, phương sai, và các đại lượng khác, không phải lúc nào cũng tồn tại hay hữu hạn. Ta chỉ sử dụng các đại lượng đặc trưng khi chúng tồn tại và hữu hạn.

Ví dụ. Phân bố xác suất rời rạc p(k) = C/k^2 với mọi k \in \mathbb{N}, với C = 1/ (\sum 1/n^2) = 6/\pi^2, không có kỳ vọng và sai phương hữu hạn. Một phân bố như vậy không phải là một mô hình tốt cho các bài toán thực tế.

Các moment của một biến ngẫu nhiên

Định nghĩa. Nếu F là một biến ngẫu nhiên, và k là một số tự nhiên, thì đại lượng \mathbb{E}(F^k) được gọi là moment bậc k của F, và đại lượng \mathbb{E}((F- \mathbb{E}(F))^k) được gọi là moment trung tâm bậc k của F.

Như phía trên chúng ta đã thấy, moment bậc 1 của F chính là giá trị kỳ vọng của nó, moment trung tâm bậc 1 của F thì luôn bằng 0, moment trung tâm bậc 2 của F chính là phương sai của nó, và nó có thể được biểu diễn qua các moment của F theo công thức:

\mathbb{E}( (F – \mathbb{E}(F))^2) = \mathbb{E}(F^2) – \mathbb{E}(F)^2

Tương tự như vậy, các moment trung tâm bậc cao hơn của F cũng có thể khai triển dưới dạng đa thức của các moment của F.

Nếu khí hiệu p_F là phân bố xác suất trên \mathbb{R} của F, thì ta có thể viết moment bậc k của F theo công thức sau:

\mathbb{E}(F^k) = \int_{x \in \mathbb{R}} x^k dp_F

Nếu như phân bố xác suất p_F la một phân bố xác suất liên tục với hàm mật độ \rho_F thì ta có thể viết:

\mathbb{E}(F^k) = \int_\mathbb{R} x^k \rho_F(x) dx

Các moment của một biến ngẫu nhiên cho ta các thông tin về dáng điệu của phân bố xác suất của biến ngẫu nhiên đó. Ví dụ, nếu moment trung tâm bậc 2 nhỏ, thì có nghĩa là các giá trị của F nói chung ít bị sai lệch so với giá trị kỳ vọng của nó, hay nói cách khác phần lớn xác suất của phân bổ xác suất của F tập trung trong một khoảng nhỏ xung quanh điểm giá trị kỳ vọng. Ngược lại, nếu moment trung tâm bậc 2 lớn, thì phân bố xác suất của F nói trung sẽ “dàn trải” hơn ra xa điểm giá trị kỳ vọng.

Moment trung tâm bậc 3 của F thể hiện độ lệch (skewness) của phân bổ xác suất của F: Nếu F có phân bố xác suất đối xứng quanh điểm giá trị kỳ vọng (có nghĩa là F và 2\mathbb{E}(F) -F có cùng phân bố xác suất), thì moment trung tâm bậc 3 của nó bằng 0. Nếu như moment trung tâm bậc 3 lớn hơn không thì phân bố xác suất của F được gọi là lệch về bên phải (hay là lệch dương), còn nều moment trung tâm bậc 3 nhỏ hơn không thì phân bố xác suất của F được gọi là lệch về bên trái (lệch âm).

skewness

Ví dụ. Moment trung tâm bậc 3 của một phân bố normal bằng 0.

Ví dụ. Giả sử có một biến ngẫu nhiên F với phân bố xác suất rời rạc sau: p(F= -2) = 1/2, p(F=1) =1/4, p(F=3) = 1/4. Khi đó giá trị kỳ vọng của F bằng 0, moment trung tâm bậc 3 của F bằng moment bậc 3 của F và bằng: (1/2).(-2)^3 + (1/4).1^3 + (1/4). 3^3 = 3 > 0. Đồ thị phân bố xác suất của F (với 3 đoạn thẳng nhô lên ở 3 điểm -2,1,3 trên trục hoành) bị “lệch về bên phải” so nếu lấy điểm giá trị kỳ vọng (=0) làm trung điểm.

Moment trung tâm bậc 4 của F liên quan đến cái gọi là kurtosis của F. Theo định nghĩa, độ kurtosis (hay còn gọi là độ nhọn) của một biến ngẫu nhiên là đại lượng

\gamma_2 = {\mu_4 \over \sigma^4} – 3

trong đó \mu_4 là moment trung tâm bậc 4, còn \sigma là độ lệch chuẩn. Tỷ lệ \mu_4 / \sigma^4 được gọi là moment chuẩn hóa bậc 4. Lý do của việc chuẩn hóa này là: các moment chuẩn hóa của các phân bố normal đều là hằng số và không phụ thuộc vào độ lệch chuẩn. Moment chuẩn hóa của bậc 4 của một phân bố normal chính bằng 3, bởi vậy kurtosis của một phân bố normal bằng 0. Khi một phân bố xác suất có kurtosis dương (phân bố như vậy gọi là phân bố leptokurtic – nhọn vượt chuẩn) thì có nghĩa là nó “nhọn” hơn phân bố normal có cùng độ lệch chuẩn, còn khi kurtosis âm (phân bố như vậy gọi là phân bố platykurtic) thì có nghĩa là nó “bẹt” hơn phân bố normal có cùng độ lệch chuẩn. Nếu kurtosis bằng 0 thì phân bố được gọi là mesokurtic.

kurtosis

Tất nhiên, nếu hai biến ngẫu nhiên có cùng phân bố xác suất trên \mathbb{R}, thì tất cả các moment của chúng đều bằng nhau. Điều ngược có đúng không, hay nói cách khác, dãy các moment \mathbb{E}(F^k), k = 1,2,3, \hdots của một biến ngẫu nhiên xác định hoàn toàn phân bố xác suất của biến ngẫu nhiên đó không ? Đây là một câu hỏi toán học thú vị. Có những ví dụ về các phân bố xác suất liên tục khác nhau nhưng có tất cả các moment như nhau. Tuy nhiên, trong trường hợp các không gian xác suất chỉ có hữu hạn phần tử (mà thực ra tất cả các vấn đề trong thực tế đều chỉ có hữu hạn các khả năng xảy ra, và các mô hình liên tục với vô hạn khả năng chỉ là các mô hình mô phỏng gần đúng), thì ta có:

Định lý. Nếu F và G là hai biến ngẫu nhiên chỉ nhận một số hữu hạn các giá trị, và có \mathbb{E}(F^k) = \mathbb{E}(G^k) với mọi k \in \mathbb{N}, thì phân bố xác suất của chúng trên \mathbb{R} bằng nhau.

Bài tập. Chứng minh định lý trên

$$§4, Chương Biến Ngẫu Nhiên

- Hàm đặc trưng

- Hàm sinh xác suất

- Biến đổi Laplace

Thay vì xét các moment M_k = \mathbb{E}(F^k) của một biến ngẫu nhiên F, ta có thể xét các giá trị đặc trưng dạng \mathbb{E}(\exp(yF)) trong đó y là một tham số nào đó. Khi ta biến đổi y trong một miền nào đó trên \mathbb{R} hoặc \mathbb{C}, sẽ ta được một hàm các giá trị đặc trưng của F. Sự liên quan giữa hàm này và các moment được thể hiện qua đẳng thức sau (xảy ra nếu như ta có các điều kiện về hội tụ):

\mathbb{E}(\exp(yF)) = \mathbb{E}(\sum_k (y^k/k!).F^k) = \sum_k \mathbb{E}(F^k). (y^k/k!) = \sum_k M_k. y^k / k!

Hàm đặc trưng

Trong biểu thức \mathbb{E}(\exp(yF)), nếu ta lấy y = \sqrt{-1}s, với s \in \mathbb{R}, thì ta có \exp(yF) = \exp(\sqrt{-1}sF) = \cos(sF) + \sqrt{-1}(\sin(sF)) là một biến ngẫu nhiên bị chặn (có giá trị tuyệt đối bằng 1), và ta có thể yên tâm về sự tồn tại của \mathbb{E}(\exp(\sqrt{i}sF)). Từ đó sinh ra định nghĩa sau:

Định nghĩa. Hàm đặc trưng (characteristic function) của một biến ngẫu nhiên thực F là hàm \Phi_F: \mathbb{R} \to \mathbb{C} được cho bởi công thức sau:

\Phi_F(s) := \mathbb{E}(\exp(\sqrt{-1}sF)) = \int_{x \in \mathbb{R}} e^{\sqrt{-1}sx}d p_F

Trong trường hợp F có phân bố xác suất liên tực với hàm mật độ \rho_F, thì ta có thể viết

\Phi_F(s) := \int_{-\infty}^{+\infty} e^{\sqrt{-1}sx}\rho_F(x) dx

Điều đó có nghĩa là, hàm đặc trưng chính là biến đổi Fourier của hàm mật độ, và hàm mật độ là biến đổi Fourier ngược của hàm đặc trưng. Trong trường hợp chung thì phân bố xác suất cũng được xác định duy nhất bởi hàm đặc trưng.

Một số tính chất của khác hàm đặc trưng:

1) \Phi_F(0) = 1

2) |\Phi_F(s)| < 1 với mọi s \in \mathbb{R}

3) \mathbb{E}(F^k) = {1\over (\sqrt{-1})^k}. {d^n\Phi_F(s) \over ds^n}|_{s=0}

Ví dụ. Hàm đặc trưng của phân bố xác suất normal với hàm mật độ \rho(x) = {1 \over \sqrt{2\pi}} \exp(-x^2/2) là hàm \Phi(s) = \exp(-s^2/2)

Hàm sinh xác suất

Nếu trong biểu thức \mathbb{E}(\exp(yF)), ta đặt y = \ln z, thì ta được hàm sau, gọi là hàm sinh xác suất (generating function):

G_F(z) = \mathbb{E}(z^F)

Hàm sinh xác suất hay được dùng khi mà các giá trị của biến ngẫu nhiên đều là số nguyên không âm. Khi đó hàm sinh xác suất có dạng đa thức hoặc chuỗi Taylor có bán kính hội tụ lớn hơn hoặc bằng 1:

G_F(z) = \sum_k p_F(k).z^k,

và ta có p(F=k) = {1 \over k!} {d^k G_F(z) \over dz^k}|_{z=0} với mọi k \in \mathbb{Z}_+

Từ quan điểm của giải tích toán học (giải tích phức), hàm đặc trưng \Phi_F(s) và hàm sinh G_F(z) gần như là một, có thể chuyển từ hàm này sang hàm kia bằng cách đổi biến. Bởi vậy, tất nhiên các moment của một biến ngẫu nhiên cũng có thể suy ra được từ hàm sinh xác suất của biến ngẫu nhiên đó. Ta có định lý sau:

Định lý. Giả sử F là một biến ngẫu nhiên với hàm sinh xác suất G . Khi đó:

1) \mathbb{E}(F) = G'(1)

2) \sigma^2(F) = G^{(2)}(1) + G'(1) – G'(1)^2

3) \mathbb{E}(F(F-1) \hdots (F-k+1)) = G^{(k)}(1) với mọi k \in \mathbb{N}. Ở đây G^{(k)} là đạo hàm bậc k của hàm G.

Bài tập. Chứng minh định lý trên cho trường hợp F nhỉ nhận một số hữu hạn các giá trị.

Ví dụ. Hàm sinh xác suất của một biến ngẫu nhiên với phân bố Poisson với tham số \lambda là hàm G(z) = \exp((z-1)\lambda)

Ví dụ. Hàm sinh xác suất của một biến ngẫu nhiên với phân bố geometric với tham số q là hàm G(z) = {qz \over 1 – z + qz}

Biến đổi Laplace

Trong trường hợp biến ngẫu nhiên F chỉ nhận các giá trị thực không âm, người ta hay dùng hàm Laplace L_F(t): \mathbb{R}_+ \to \mathbb{R}, nhân được từ biểu thức

\mathbb{E}(\exp(yF)) bằng cách đặt t = – y:

L_F(t) := \mathbb{E}(\exp(-tF))

Ở đây ta coi biến t nằm trong tập các số thực không âm. Với giả sử rằng F chỉ nhận các giá trị không âm, ta luôn có 0 < (\exp(-tF)) \leq 1, từ đó suy ra các giá trị của L_F(t) là số dương và bị chặn trên bởi 1.

Trong trường hợp F có phân bố xác suất liên tục với hàm mật độ \rho_F thỏa mãn điều kiện \rho_F(x) = 0 với mọi x < 0 (có nghĩa là F không nhận các giá trị âm), thì ta có

L_F(t) = \int_{0}^{\infty} \exp^{-tx}\rho_F(x) dx,

và hàm L_F(t) được gọi là biến đổi Laplace của hàm mật độ \rho_F(x)

Tương tự như đối với hàm sinh và hàm đặc trưng, các đạo hàm của hàm L_F(t) tại điểm t = 0 cũng cho ta các moment của F.

Gs. Nguyễn Tiến Dũng ĐH TOULOUSE PHÁP