Xác suất thống kê: Cuộc chiến frequentist vs. Bayesian

Hai cách tư duy chính về xác suất thống kê khác nhau như thế nào, và chúng dẫn đến những kiểu mô hình phân tích dữ liệu khác nhau ra sao?

Bài viết do tác giả của zeal chắp bút. Xem thêm các bài viết cây nhà lá vườn của zeal tại đây.

§ Tác giả: Linh Nghiêm | Hiệu đính: Nguyên
21/02/2017

Xác suất là một khái niệm tất cả chúng ta được nghe, thấy, hoặc tiếp xúc hàng ngày. Từ những bản dự báo thời tiết – chẳng hạn như 50% ngày mai sẽ có mưa, dự đoán về bầu cử tổng thống Mỹ – Hillary Clinton có khả năng chiến thắng lên đến 60%, hay trong những trò chơi như cá ngựa – xác suất tung 2 con xúc xắc ra được 12 thấp hơn so với xác suất tung 2 con xúc xắc ra được 7. Xác suất đi vào tâm trí mọi người một cách rất trực giác như một con số hoặc một đại lượng để nhận định về khả năng xảy ra của 1 sự kiện gì đó. Tuy vậy, thực sự thì những con số này ở đâu ra, và liệu rằng nguồn gốc của những con số này có quyết định việc chúng được sử dụng như thế nào?

Có thể bạn không ngờ, nhưng câu trả lời cho câu hỏi đơn giản trên đã dẫn tới 2 trường phái “đối thủ” không đội trời chung của nhau trong các lí thuyết về xác suất và mô hình dữ liệu – frequentist (tần suất) và Bayesian. Trong khi tư duy Bayesian manh nha ra đời từ khoảng thế kỉ 18 (dựa trên một định lí toán xác suất cơ bản), các tư duy frequentist được hình thành vào nửa đầu thế kỉ 20. Tuy vậy, về mặt thực tiễn, trường phái frequentist được áp dụng nhanh chóng ngay từ khi ra đời bởi sự đơn giản về mặt tính toán và tính giải thích cao; trong khi đó trường phái Bayesian không phát triển cho tới khi các công nghệ tính toán bùng nổ vào những năm cuối thế kỉ 20.

Sự khác nhau trong triết lí phân tích của hai trường phái này dẫn tới sự khác biệt trong cách phân tích và kết quả thu được của cùng một dữ liệu. Tuy vậy, cả hai trường phái vẫn song song tồn tại, và có những ưu thế cũng như hạn chế nhất định so với trường phái còn lại. Bài viết này sẽ minh hoạ những sự khác biệt quan trọng nhất thông qua các ví dụ đơn giản về việc tung đồng xu.

1. Giả sử bây giờ có một đồng xu và chúng ta thường hay nói về xác suất mặt sấp/mặt ngửa khi tung lên là một con số nào đó. Ví dụ, xác suất tung được mặt sấp là 0,5. Trường phái frequentist cho rằng, điều đó có nghĩa là nếu đồng xu được tung rất rất nhiều lần, khoảng 50% trong tổng số lần tung đồng xu sẽ rơi mặt sấp. Tuy vậy, trường phái Bayesian cho rằng, con số 0,5 chỉ là một sự đo lường chủ quan về độ không chắc chắn (measure of uncertainty), tức là bạn chắc chắn 50% rằng xác suất ra mặt sấp là 0,5. Nói cách khác, với Bayesian, xác suất là một ý kiến (opinion), một niềm tin (belief), phụ thuộc vào niềm tin của người phân tích. Còn với frequentist, xác suất là một con số khách quan, một thực tế (fact), hoàn toàn độc lập với niềm tin của người phân tích.

2. Sự khác biệt về cách hiểu xác suất ở trên dẫn tới những sự khác biệt quan trọng trong việc lập và phân tích mô hình dữ liệu. Thứ nhất, giả sử chúng ta cần ước lượng xác suất ra mặt sấp khi tung một đồng xu. Với frequentist, vì xác suất này là khách quan, nó là một tham số cố định – giá trị của nó là một thực tế. Trong khi đó, với Bayesian, vì xác suất là chủ quan, nó biến động tuỳ theo người phân tích, nên nó sẽ là một biến ngẫu nhiên – nó thể hiện niềm tin. Trước khi thu thập dữ liệu, bạn cũng đã có một niềm tin nhất định về độ chắc chắn của xác suất một kết quả. Niềm tin này còn được gọi là phân phối tiền nghiệm (prior distribution). Chẳng hạn, trước khi tung, phân phối tiền nghiệm của bạn A là bạn A tin rằng 20% xác suất mặt sấp là 0,5 và 80% xác suất mặt sấp không phải là 0,5, còn với bạn B, niềm tin là 70% xác suất mặt sấp là 0,5, còn 30% xác suất mặt sấp không phải là 0,5.

Hệ quả là, trường phái frequentist xây dựng mô hình tìm giá trị của tham số hợp lí nhất với những gì quan sát được, còn trường phái Bayesian xây dựng mô hình để cập nhật niềm tin về biến ngẫu nhiên. Ví dụ, nếu trong 600 lần tung đồng xu chúng ta quan sát được 302 lần ra mặt sấp, frequentist đơn giản sẽ nói 302/600 là một giá trị hợp lí của xác suất mặt sấp. Còn với trường phái Bayesian, bạn sẽ cập nhật “niềm tin” của mình, để có một phân phối hậu nghiệm (posterior distribution), tức niềm tin mới của bạn về xác suất sau khi thu thập dữ liệu, và từ đó rút ra các kết luận cần thiết. Với phân phối tiền nghiệm như trong ví dụ về hai bạn A và B ở trên, phân phối hậu nghiệm của bạn A có thể như sau: 50% xác suất mặt sấp là 0,5, còn 50% xác suất mặt sấp không phải là 0,5, tức là bạn A vẫn chưa chắc chắn lắm về việc xác suất ra hai mặt của đồng xu có cân bằng hay không. Còn bạn B, phân phối hậu nghiệm có thể là 90% xác suất mặt sấp là 0,5, còn 10% xác suất mặt sấp không phải là 0,5, bạn B chắc chắn về sự cân bằng của đồng xu hơn bạn A rất nhiều. Như vậy, phân phối hậu nghiệm này cũng là một “niềm tin,” tức là nó cũng thay đổi theo từng người.

Quay lại với xác suất chủ quan và xác suất khách quan, hệ quả tiếp theo là, các phương pháp frequentist thường yêu cầu số lượng quan sát lớn, còn phương pháp của trường phái Bayesian có thể áp dụng với tất cả số lượng quan sát. Đây là một ưu điểm cực lớn của trường phái Bayesian. Điều này hoàn toàn hợp lí, vì giả sử giờ bạn chỉ tung đồng xu 2 lần, và không có lần nào ra mặt sấp. Với trường hợp frequentist, rất khó để bạn có thể kết luận được một giá trị hợp lí của xác suất mặt sấp. Nhưng trường phái Bayesian thì vẫn có kết luận: phân phối hậu nghiệm sẽ gần như giống hệt phân phối tiền nghiệm, niềm tin của bạn gần như không có gì thay đổi!

3. Bạn có thể đang băn khoăn phân tích Bayesian thế khác gì đoán mò, vì mỗi người có một niềm tin khác nhau, hay làm gì khi không có cơ sở gì để có phân phối tiền nghiệm? Đúng như vậy, đây cũng thường là nội dung bị chỉ trích nhiều nhất về trường phái Bayesian. Nhưng ngược lại, Bayesian cũng chỉ trích frequentist về những con số hoàn toàn tuỳ ý như độ tin cậy 95%, mức ý nghĩa 5%1. Đồng thời, các phương pháp và mô hình Bayesian cũng cố gắng (1) thể hiện sự chi phối của dữ liệu so với phân phối tiền nghiệm, tức là phân phối hậu nghiệm chịu ảnh hưởng của dữ liệu mạnh hơn so với ảnh hưởng của phân phối tiền nghiệm, và (2) sử dụng phân phối tiền nghiệm không có thông tin (trong ví dụ kể trên, một phân phối tiền nghiệm không có thông tin là khi bạn tin rằng xác suất mặt sấp có thể là bất cứ giá trị nào từ 0 đến 1).

4. Cuối cùng, với tất cả các mô hình cổ điển theo trường phái frequentist, từ các mô hình đơn giản như hồi quy tuyến tính2cho tới mô hình phức tạp như các mô hình phi tham số, đều có một “phiên bản” song song của Bayesian. So với các mô hình frequentist, mô hình Bayesian thường linh động hơn nhiều. Bây giờ, giả sử, chúng ta xây dựng một hồi quy tuyến tính giữa điểm trung bình của học sinh tiểu học và thu nhập của bố mẹ học sinh, và dữ liệu của chúng ta có là từ học sinh của 5 trường tiểu học trên địa bàn thành phố Hà Nội. Với phương pháp frequentist, mô hình thông thường sẽ rơi vào 2 trường hợp cực đoan như sau:

Trường hợp 1: Chúng ta bỏ qua sự khác biệt của các trường, nên mô hình chỉ bao gồm điểm trung bình là biến được giải thích (Y), thu nhập của bố mẹ là biến giải thích (X):

Y = b₀+ b₁X

Trường hợp 2: Mô hình cân nhắc sự khác biệt của mối quan hệ theo các trường, nên chúng ta xây dựng 5 mô hình, mỗi mô hình cho một trường 3. Tức là, chúng ta có tới 5 mô hình:

Y = b_0i+ b_1iX cho trường i (i = 1, …, 5)

Có thể thấy, trong khi mô hình ở trường hợp 1 quá đơn giản, thì ở trường hợp 2 mô hình lại trở nên quá phức tạp, và quan trọng hơn, mô hình ở trường hợp 2 không ghi nhận được một thông tin quan trọng là các trường tiểu học ở cùng trên một thành phố (Hà Nội). Tức là, với thông tin này, sự khác biệt của các trường là có cơ sở, nhưng nó cần phải ở trong một giới hạn nhất định nào đó. Giới hạn này được mô hình Bayesian giải quyết tương đối dễ dàng.

Nếu như trong trường phái frequentist, tất cả các tham sốb_0i,b_1ilà các tham số cố định, trong Bayesian, chúng trở thành các biến ngẫu nhiên. Chúng ta sẽ sử dụng mô hình như ở trường hợp 2 như trên, nhưng với thêm một điều kiện là tất cả các b_0i(i = 1, …, 5) sẽ cùng có chung một phân phối tiền nghiệm, và tất cả các b_1i(i = 1, …, 5) sẽ cùng có chung một phân phối tiền nghiệm. Rất khó cho trường phái frequentist có thể tìm được một điều kiện tương tự như thế này. Về mặt kĩ thuật, phổ biến nhất là phân phối chuẩn sẽ được dùng cho phân phối tiền nghiệm:

b_0i~ N (µ₀, σ₀²)

b_1i ~ N (µ₁, σ₁²)

Tham số σ₀², σ₁²là phương sai trong 2 phân phối trên có thể thể hiện “niềm tin” của người phân tích rất rõ về độ khác biệt của các trường. Nếu người phân tích tin là sự khác biệt giữa các trường là nhỏ, σ₀²và σ₁²sẽ được chọn tương đối nhỏ. Còn nếu người phân tích tin sự khác biệt giữa các trường là lớn, hoặc không có thông tin gì trước khi phân tích, σ₀²và σ₁²có thể được chọn lớn. Và tất nhiên, mỗi lựa chọn cho phân phối tiên nghiệm sẽ gắn với một kết quả của phân phối hậu nghiệm khác nhau cho các tham số b_0i và b_1i.

Tuy vậy, điểm trừ thứ nhất cho mô hình Bayesian trên, cũng như các mô hình Bayesian nói chung, là việc “lắp ráp” (fitting) mô hình không sử dụng các phương pháp bình phương nhỏ nhất thông thường như trong frequentist, mà sử dụng các định lí về xác suất và các giả lập (simulation) một cách rộng rãi. Vì thế, các mô hình Bayesian đòi hỏi các kĩ thuật tính toán tương đối cao cấp và công suất tính toán (computing power) nhiều hơn rất nhiều so với frequentist, nên vì thế không phát triển mạnh cho tới những năm cuối thế kỉ 20, mặc dù những tư tưởng Bayesian được hình thành từ rất sớm. Điểm trừ thứ hai cho mô hình này, nó tương đối “xa lạ” với những người ngoại đạo. Nếu như ở trường phái frequentist, mô hình hồi quy tuyến tính ở trên có thể hình dung bằng một đường thẳng quen thuộc, mô hình Bayesian ở trên đòi hỏi hiểu biết sâu về lí thuyết xác suất.

KẾT LUẬN
Các mô hình Bayesian, đã tăng tính linh hoạt và tăng sự lựa chọn cho việc phân tích dữ liệu hơn rất nhiều cho khoa học dữ liệu nói chung, còn trường phái frequentist thể hiện điểm mạnh về tính hiệu quả trong việc tính toán và tính giải thích (interpretation). Ngày nay, sự phát triển và nhu cầu cao của việc phân tích dữ liệu làm cho sự phân chia trường phái ít quan trọng hơn; thay vào đó, người phân tích dữ liệu cần sử dụng linh hoạt cả hai trường phái để phân tích dữ liệu một cách hiệu quả nhất.

Độ tin cậy thể hiện phần trăm số ước lượng khoảng có chứa giá trị đúng của tham số; mức ý nghĩa trong kiểm định giả thuyết thể hiện khả năng tối đa của việc mắc sai lầm loại 1 – bác bỏ một giả thuyết khi giả thuyết đó là đúng.↩
Mô hình biểu diễn mối quan hệ giữa một biến giải thích và biến được giải thích bằng 1 đường thẳng.↩
Với những bạn đã học về lí thuyết hồi quy tuyến tính, việc sử dụng biến giả để kiểm soát sự khác biệt giữa các trường là một trường hợp đặc biệt của mô hình kiểu này↩

Thích bài này? Bạn thích zeal, thích sự không-quảng-cáo của website, và muốn zeal phát triển hơn? Chung tay góp sức cho một cộng đồng cùng lan tỏa trí tò mò ở đây nhé.

5 thoughts on “Xác suất thống kê: Cuộc chiến frequentist vs. Bayesian”

Tuan Trịnh says:

March 29, 2018 at 14:53

cảm ơn bài viết của tác giả. Hi vọng tác giả có thể viết nhiều bài hay nữa.

Reply
Vu Anh says:

January 8, 2018 at 15:28

cảm ơn tác giả vì bài viết bổ ích

Reply
Trung Huynh says:

May 24, 2017 at 10:59

Cảm ơn tác giản, một vài viết hay!!!

Reply
1. Ooker says:
  
  January 7, 2018 at 09:59
  
  Lêu lêu :))
Dat Nguyen says:

April 28, 2017 at 23:21

Cảm ơn tác giả vì bài viết ngắn gọn và bổ ích! Thật trùng hợp là mình vừa mới học một môn tên là Game Theory and Application to Economics – cũng có đề cập tới một cái gọi là Bayesian Rule, nhưng còn mù mờ không hiểu rõ. Bây giờ mới biết là có 2 trường phái của xác suất thông kê như vậy. Sẽ tìm hiểu nghiên cứu thêm 🙂

Reply

5 thoughts on “Xác suất thống kê: Cuộc chiến frequentist vs. Bayesian”

Leave a Reply to Trung Huynh Cancel reply