“Tất cả các mô hình đều không chính xác, nhưng cũng có một số hữu dụng.”
Đây là tuyên bố của nhà thống kê George Box vào 30 năm trước, và ông đã đúng. Nhưng chúng ta có những lựa chọn nào vào thời điểm đó? Chỉ có các mô hình, từ các phương trình vũ trụ đến lý thuyết hành vi con người, dường như mới có thể giải thích một cách nhất quán, nếu không hoàn hảo, về thế giới quanh ta. Cho đến ngày nay. Những công ty phát triển trong một kỷ nguyên dữ liệu đồ sộ, như Google, không còn phải dựa vào những mô hình sai lầm nữa. Mà thực ra, họ chẳng cần dựa vào các mô hình chút nào.
Sáu mươi năm về trước, các máy tính kỹ thuật số1 giúp con người có thể đọc được thông tin. Hai mươi năm trước, Internet giúp con người có thể tiếp cận thông tin. Mười năm trước, những search engine crawler2 đầu tiên tạo nên một cơ sở dữ liệu đơn. Ngày nay, Google và các công ty tương tự đang chọn lọc thông tin qua thời kì thận trọng nhất trong lịch sử, xử lý tập hợp dữ liệu khổng lồ này như một phòng thí nghiệm của con người. Chúng là những đứa con của Thời đại Petabyte3 (Petabyte Age).
Thời đại Petabyte khác biệt vì có nhiều thứ khác biệt. Các Kilobyte được lưu trữ trong các đĩa mềm. Megabyte lưu trữ trong đĩa cứng. Terabyte thì trong các dãy đĩa4 (disk array). Còn Petabyte là trên các đám mây5 (cloud). Cũng theo sự phát triển đó, chúng ta đã đi từ cấp độ tương tự như thư mục đến tương tự như tủ dữ liệu đến tương tự như thư viện rồi đến – chà, ở cấp petabyte thì ta hết thứ để tương tự rồi.
Ở quy mô petabyte, thông tin không còn là vấn đề của việc phân loại và trật tự ba và bốn chiều đơn giản nữa, mà là khoa học thống kê bất khả tri theo chiều. Nó đòi hỏi một cách tiếp cận hoàn toàn khác, một cách tiếp cận yêu cầu chúng ta phải từ bỏ mong muốn hiểu biết về dữ liệu như một thứ gì đó có thể hình dung một cách tổng thể. Thông tin ở cấp độ petabyte cũng buộc chúng ta trước tiên phải nhìn nhận dữ liệu dựa trên toán học, rồi sau đó mới thiết lập bối cảnh cho dữ liệu. Lấy ví dụ, Google đã chinh phục thế giới quảng cáo chỉ bằng toán học ứng dụng. Họ không ra vẻ mình biết mọi điều về văn hóa và quy ước quảng cáo – họ chỉ cho rằng những dữ liệu tốt hơn, với những công cụ phân tích tốt hơn, sẽ chiến thắng. Và Google đã đúng.
Triết lý cơ bản của Google là chúng tôi không biết vì sao trang web này tốt hơn trang kia: Nếu số lượng thống kê những đường link dẫn đến một trang web đủ lớn thì có nghĩa đó là một trang web tốt. Không cần một phân tích ngữ nghĩa hay nhân quả nào cả. Đó là lý do Google có thể dịch các ngôn ngữ mà không cần thực sự “biết” về chúng (với cùng một lượng dữ liệu như nhau, Google có thể dịch tiếng Klingon6 sang tiếng Ba Tư cũng dễ dàng như từ tiếng Pháp sang tiếng Đức). Và đó cũng là lý do Google có thể khớp các quảng cáo và nội dung với nhau một cách phù hợp mà không cần bất kỳ kiến thức hay giả định nào về những quảng cáo hay nội dung đó.
Phát biểu tại Hội nghị Công nghệ Mới nổi O’Reilly vào tháng 03/2008, giám đốc nghiên cứu của Google, Peter Norvig, đã cập nhật câu châm ngôn của George Box như sau: “Tất cả các mô hình đều không chính xác, và bạn ngày càng có thể thành công mà không cần đến chúng.”
Đây là một thế giới mà lượng dữ liệu khổng lồ và toán học ứng dụng thay thế tất cả những công cụ khác có thể được sử dụng. Nằm ngoài tất cả mọi lý thuyết về hành vi con người, từ ngôn ngữ học đến xã hội học. Hãy quên đi phép phân loại học, bản thể học, và tâm lý học. Ai mà biết được vì sao con người lại hành động như vậy? Trọng tâm ở đây là việc họ thực hiện hành động đó, và chúng ta có thể theo dõi và đo lường nó với độ trung thực chưa từng thấy. Nếu có đủ dữ liệu, những con số sẽ tự nói về chúng.
Google đã chinh phục thế giới quảng cáo chỉ bằng toán học ứng dụng
Dù vậy, mục tiêu lớn ở đây không phải là quảng cáo, mà là khoa học. Phương pháp khoa học được xây dựng xung quanh những giả thuyết có thể kiểm chứng. Những mô hình này, phần lớn, là những hệ thống được hình dung trong tâm trí những nhà khoa học. Mô hình sau đó được kiểm chứng, và những thí nghiệm sẽ chứng minh các mô hình lý thuyết về cách thế giới vận hành có đúng hay không. Đây là cách mà khoa học đã thực hiện hàng trăm năm qua.
Các nhà khoa học được đào tạo để nhận ra rằng sự tương quan không có nghĩa là nhân quả, không một kết luận nào được phép rút ra chỉ đơn giản dựa trên cơ sở mối tương quan giữa X và Y (vì tương quan có thể chỉ là sự trùng hợp ngẫu nhiên). Thay vào đó, chúng ta cần phải hiểu những cơ chế ẩn kết nối hai yếu tố. Một khi có một mô hình, chúng ta có thể tự tin kết nối các bộ dữ liệu lại với nhau. Dữ liệu mà không có mô hình thì chỉ là những dữ liệu vô nghĩa.
Nhưng đối diện với một khối lượng dữ liệu khổng lồ, cách tiếp cận theo khoa học này – đưa ra giả thuyết, mô hình, kiểm chứng – dần trở nên lỗi thời. Hãy xem xét ngành vật lý: các mô hình theo lý thuyết của Newton là những ước lượng chưa hoàn thiện về thực tế (sai sót ở cấp độ nguyên tử, nhưng vẫn hữu dụng). Một trăm năm trước, cơ học lượng tử dựa vào thống kê đã cung cấp một bức tranh tổng quan tốt hơn – nhưng cơ học lượng tử chỉ là một mô hình khác, và vì vậy nên cũng vẫn còn sai sót, không nghi ngờ gì về việc cơ học lượng tử cũng chỉ là một bức tranh biếm họa của một thực tế phức tạp hơn ẩn dưới. Lý do mà vật lý bị cuốn theo suy đoán lý thuyết về các mô hình lớn thống nhất có n-chiều trong vài thập kỷ qua (giai đoạn “câu chuyện đẹp” của một ngành học khát dữ liệu) là vì chúng ta không có cách nào để thực hiện các thí nghiệm chứng minh các giả thuyết là sai lầm — do năng lượng quá lớn, các máy gia tốc quá đắt, .v.v.
Sinh học ngày nay cũng đang đi theo hướng tương tự. Những mô hình chúng ta được dạy ở trường về các gen “trội” và “lặn” dẫn dắt toàn bộ quy trình theo thuyết di truyền của Mendel, hóa ra là sự đơn giản hóa hiện thực thậm chí còn lớn hơn cả các định luật của Newton. Việc khám phá ra các tương tác gen-protein và những khía cạnh khác của ngành nghiên cứu ngoại di truyền7 (epigenetics) đã và đang thách thức việc coi ADN như định mệnh và thậm chí còn đưa ra bằng chứng về việc môi trường có thể ảnh hưởng đến những tính trạng di truyền, một quan điểm có thời từng bị xem là bất khả thi về mặt di truyền học.
Tóm lại, càng nghiên cứu về sinh học thì chúng ta lại càng rời xa mô hình có thể giải thích nó.
Hiện nay đã có một cách tốt hơn. Petabyte cho phép chúng ta nói rằng: “Chỉ cần tương quan là đủ.” Chúng ta có thể ngừng tìm kiếm các mô hình. Chúng ta có thể phân tích dữ liệu mà không cần đến những giả thuyết về việc dữ liệu đó có thể cho thấy điều gì. Chúng ta có thể quăng những con số vào các cụm máy tính8 lớn nhất trên thế giới và để những thuật toán thống kê tìm ra các đặc điểm mà khoa học không thể làm được.
Ví dụ thực tiễn tốt nhất cho vấn đề này là “kỹ thuật xác định gen trình tự nhỏ” (Shotgun gene sequencing)9 của J. Craig Venter10. Nhờ khả năng của những máy giải trình tự tốc độ cao (high-speed sequencer)11 và các siêu máy tính (phân tích thống kê những dữ liệu mà chúng xuất ra), Venter đã đi từ giải trình tự các sinh vật riêng biệt cho đến giải trình tự toàn bộ các hệ sinh thái. Năm 2003, ông đã bắt đầu giải trình tự hầu hết đại dương, vẽ lại cuộc hành trình của Thuyền trưởng Cook12. Và vào năm 2005, ông đã bắt đầu giải trình tự không khí. Trong quá trình này, ông đã khám phá ra hàng ngàn loài vi khuẩn và những dạng sống khác chưa từng được biết đến trước đây.
Nếu cụm từ “khám phá ra một loài mới” khiến bạn nghĩ đến Darwin cùng những bản vẽ các loài chim sẻ, thì có khả năng là bạn đang sa vào con đường làm khoa học cũ. Venter có thể gần như không giải thích được gì những loài ông tìm thấy. Ông không biết chúng trông như thế nào, chúng sống ra sao, hay những điều khác về hình thái của chúng. Ông thậm chí còn không biết toàn bộ hệ gen của chúng. Tất cả những gì ông có là một đốm sáng thống kê – một trình tự độc nhất không giống bất cứ trình tự nào khác trong cơ sở dữ liệu, tượng trưng cho một loài mới.
Trình tự này có thể tương quan với những trình tự của các loài chúng ta đã biết. Trong trường hợp này, Venter có thể phỏng đoán về những loài vật đó – rằng chúng chuyển đổi ánh sáng mặt trời thành năng lượng theo một cách nhất định, hoặc chúng đã phân ly từ một tổ tiên chung. Nhưng bên cạnh đó, ông cũng không có một mô hình nào cho những loài này tốt hơn mô hình Google có cho trang Myspace13 của bạn. Nó chỉ là dữ liệu thôi. Và dù chỉ bằng cách phân tích nó với những nguồn máy tính chất lượng cao của Google, Venter cũng đã thúc đẩy sinh học tiến bộ hơn bất cứ ai khác cùng thế hệ với ông.
Đã đến lúc đặt câu hỏi: Khoa học học được gì từ Google?
Cách tư duy này đã sẵn sàng để trở thành xu hướng chủ đạo. Tháng 02/2008, Quỹ Khoa học Quốc gia của Hoa Kỳ đã giới thiệu chương trình Cluster Exploratory, một chương trình tài trợ nghiên cứu được thiết kế để chạy trên nền điện toán phân bổ theo quy mô lớn được phát triển bởi Google và IBM, kết hợp cùng sáu trường đại học thí điểm. Cụm máy tính này bao gồm 1.600 bộ xử lý, nhiều terabyte bộ nhớ, và hàng trăm terabyte lưu trữ, cùng phần mềm, gồm Tivoil của IBM và phiên bản mở của Hệ thống Tập tin Google (Google File System) và MapReduce. Các dự án CluE (Cluster Exploratory) ban đầu sẽ thực hiện những mô phỏng bộ não và hệ thống thần kinh, và những nghiên cứu sinh học khác nằm đâu đó giữa “phần ướt” (wetware)14 và “phần mềm.”
Học cách sử dụng “máy tính” ở quy mô này có thể là một thử thách. Nhưng cơ hội mở ra thì lại rất tuyệt vời: một lượng dữ liệu khổng lồ mới, cùng với các công cụ thống kê để xử lý những con số này, cung cấp một một cách hoàn toàn mới để khám phá thế giới. Tương quan thay thế cho nhân quả, và khoa học có thể phát triển mà thậm chí không cần đến những mô hình chặt chẽ, những lý thuyết thống nhất, hay bất kỳ cách giải thích máy móc nào cả.
Không còn lý do gì để bám lấy những phương pháp cũ của chúng ta. Đã đến lúc đặt câu hỏi: Khoa học học được gì từ Google?
Lời một editor, trả lời cho bình luận của độc giả: bài viết này đã xuất hiện từ năm 2008, và tại thời điểm đó đã tạo ra rất nhiều tranh luận. Đến hiện nay, câu hỏi liệu dự đoán của Chris Anderson, rằng phương pháp khoa học sẽ bị thay thế bởi cơn lũ dữ liệu, có thực sự nhìn trước thời đại, hay là quá tự tin, vẫn chưa thể trả lời. Ít ra theo góc nhìn hẹp của mình, thì trong một số ngành (mà mình có theo dõi), ngày càng có thêm nhiều những nghiên cứu tổng hợp dữ liệu từ rất nhiều nghiên cứu với các quy mô khác nhau và cố gắng tìm ra những điểm trùng hợp hay thú vị trong dữ liệu, thay vì bắt đầu bằng một giả thuyết (hypothesis) và cố gắng tìm bằng chứng để chứng minh để loại bỏ nó. Tuy vậy, trong các ngành sinh học vi mô chẳng hạn, thí nghiệm và giả thuyết vẫn là một phần quan trọng; và để xác lập được quan hệ nhân quả (causality) thì thí nghiệm vẫn là tiêu chuẩn (mình không đủ tầm để bình luận rằng liệu việc thiết lập causality trong tương lai còn là một nhiệm vụ quan trọng hay không :-).
Máy tính kỹ thuật số (digital computer) là những thiết bị hay hệ thống thực hiện tự động các phép toán số học trên các giá trị số rời rạc (discreet value) hoặc giá trị tượng trưng (symbolic value).
Một chương trình hoặc mã kịch bản tự động duyệt mạng lưới thông tin toàn cầu (World Wide Web) một cách có phương pháp để cung cấp dữ liệu cập nhật cho một cỗ máy tìm kiếm riêng biệt.↩
Sự bùng nổ của thông tin khiến cho dữ liệu lưu trữ lên đến hàng petabyte (1 petabyte = 1024 terabyte).
Lượng dữ liệu lưu trữ gia tăng khiến cho các phương pháp tiếp cận, xử lý, khai thác, … không còn như trước đây. Tạo ra một thời kỳ mới đối với công nghệ thông tin cũng như nhiều phương diện khác của cuộc sống.↩
Hệ thống lưu trữ dữ liệu gồm nhiều ổ đĩa và một bộ nhớ đệm.↩
Một số cụm máy chủ cho phép sử dụng nguồn lực tài nguyên của chúng cho việc lưu trữ từ các trang web. Những cụm máy chủ này được gọi là “đám mây”. Ngày nay chúng ta có thể thấy các đám mây xuất hiện ở khắp mọi nơi, đơn cử như Google Drive.↩
Một ngôn ngữ được nói bởi người Klingon (hư cấu) trong vũ trụ Star Trek.↩
Ngành học nghiên cứu về những tính trạng di truyền không thể giải thích bằng sự thay đổi trong chuỗi ADN.
Cụm máy tính (Computing Cluster) là các máy tính được kết nối và làm việc chung với nhau. Trên nhiều phương diện có thể xem đây là một hệ thống duy nhất. Trong điện toán cụm, mỗi nút (node) thiết lập để thực hiện cùng một nhiệm vụ, được điều khiển và lập lịch bởi phần mềm.
Shotgun gene sequencing hay còn gọi là shotgun cloning: là phương pháp giải trình tự các đoạn phân tử DNA dài, thông qua kỹ thuật dò dẫm trên nhiễm sắc thể (chromosome walking) bằng những contig (BAC clones). Được đặt tên tương tự như kiểu hỏa lực lan rộng và gần như ngẫu nhiên của sung săn.
Thông tin chi tiết về Shotgun sequencing có thể xem tại đây.↩
Tên đầy đủ là John Craig Venter (sinh năm 1946). Ông là một nhà công nghệ sinh học, nhà hóa sinh, nhà di truyền học, đồng thời cũng là một doanh nhân người Mỹ. Ông được biết đến là một trong những người đầu tiên thiết lập trình tự hệ gen người và biến nạp một tế bào với một hệ gen nhân tạo. Thông tin chi tiết về John Craig Venter có thể xem tại đây. Bạn đọc quan tâm đến quá trình biến nạp (transfection) có thể đọc thêm tại đây.↩
Một thiết bị khoa học dùng để tự động hóa quá trình giải trình tự ADN. Khi đưa một mẫu ADN vào, máy sẽ xác định thứ tự 4 đơn phân G (guanine), C (cytosine), A (adenine), và T (thymine).
Thông tin chi tiết về Máy giải trình tự có thể xem tại đây.↩
Thuyền trưởng James Cook (1728 – 1779) là một nhà thám hiểm, nhà hàng hải và người chuyên vẽ bản đồ người Anh. Sau khi được thăng lên chức vụ thuyền trưởng trong Hải quân Hoàng gia Anh, ông đã thực hiện 3 chuyến hải trình đến Thái Bình Dương, trở thành người châu Âu đầu tiên đặt chân đến bờ biển phía đông của Úc; ông cũng là người châu Âu đầu tiên phát hiện ra quần đảo Hawaii và là người đầu tiên được ghi nhận là đi vòng quanh New Zealand.
Thông tin chi tiết về Thuyền trưởng James Cook có thể xem tại đây.↩
Myspace là một trang mạng xã hội cung cấp mạng lưới thông tin tương tác giữa người dùng với bạn bè, cho phép người dùng tạo những hồ sơ cá nhân, viết blog, lập nhóm, tải hình ảnh lên, lưu trữ nhạc và video.
Một thuật ngữ bắt nguồn từ ý tưởng liên quan đến máy tính về phần cứng (hardware) và phần mềm (software), nhưng áp dụng cho các dạng sống sinh học. Wetware được dùng để mô tả những yếu tố tương đương với phần cứng và phần mềm tìm thấy trong con người, mà cụ thể là hệ thống thần kinh trung ương và tâm trí con người.
Từ “phần mềm” trong cơ thể sống tượng trưng cho những chuỗi xung nhịp truyền qua các neuron thần kinh, và tương tự “phần cứng” dùng để diễn tả các neuron thần kinh vật lý.
Lúc đọc máy dòng internet ra đời 20 năm trước thấy nghi nghi, cuối cùng thì nhìn lại bài viết từ 2008.
10 năm là quá đủ để những dự đoán thể hiện ra bản chất của mình: đó là dự đoán sai lầm hay dự đoán chính xác. Không biết các bạn có thể cập nhật lại bài viết không, hoặc có thêm phần nhận xét/đánh giá/cập nhật/suy nghĩ của zeally? Còn nếu vẫn giữ nguyên bài viết vì đây chỉ là bài dịch thì xem ra cũng không có nhiều tác dụng lắm 😕
Bạn ơi, mình vừa update bài với một số bình luận cá nhân của mình nhé 😀
1 Petabyte = 1024 Terabytes bạn ơi chỉnh lại đi :d
Cảm ơn bạn nhiều, mình đã chỉnh lại rồi nhé 🙂