Sự thức tỉnh của A.I. vĩ đại (Phần 1)

Google đã sử dụng trí tuệ nhân tạo để nâng cấp Google Translate như thế nào?

Editors' choice! Xem thêm các bài hay nhất của zeal tại đây.

§ Tác giả: Gideon Lewis - Kraus | Nguồn: The New York Times
Biên dịch: Minh Nhật | Hiệu đính: Dexter
21/08/2017

Bạn có thể theo dõi tiếp Phần 2 ở đây.

Mở đầu: Bạn là những gì bạn từng đọc

Một tối thứ Sáu đầu tháng Mười Một, Jun Rekimoto, vị giáo sự lỗi lạc của ngành tương tác người – máy tính tại Đại học Tokyo, trong lúc đang trực tuyến chuẩn bị cho bài giảng của mình thì ông bắt đầu chú ý đến một số bài viết đổ về trên mạng xã hội. Có vẻ như Google Translate (Google Dịch), dịch vụ dịch máy nổi tiếng của Google, đã đột nhiên cải thiện đáng kinh ngạc. Rekimoto vào Translate và bắt đầu tự trải nghiệm. Ông đã rất ngạc nhiên. Và cả khi đi ngủ, sự lôi cuốn của Translate vẫn tiếp tục quanh quẩn trong đầu ông.

Rekimoto ghi chép lại khám phá ban đầu của mình trong một bài đăng trên blog. Trước tiên, ông so sánh một vài câu từ hai phiên bản của cuốn tiểu thuyết “The Great Gatsby” (Gatsby vĩ đại), một bản dịch của Takashi Nozaki vào năm 1957 và một tái bản gần đây của Haruki Murakami, với những gì phiên bản Google Translate mới có thể cung cấp. Bản dịch của Murakami được viết bằng một “phong cách tiếng Nhật hết sức tinh tế”, Rekimoto đã giải thích cho tôi qua email sau đó, nhưng đoạn văn rõ ràng mang “phong cách của Murakami”. Ngược lại, bản dịch của Google – dù “có chút không tự nhiên” – với ông lại “dễ hiểu hơn.”

Trong phần còn lại của bài đăng, Rekimoto đã thử nghiệm dịch vụ này theo một hướng khác, từ tiếng Nhật sang tiếng Anh. Ông thảo nhanh một bản dịch sang tiếng Nhật đoạn mở đầu trong tác phẩm “The Snows of Kilimanjaro” (Tuyết trên đỉnh Kilimanjaro) của nhà văn Hemingway, rồi cho Google dịch đoạn văn ấy ngược sang tiếng Anh. Ông đăng bản dịch này bên cạnh bản gốc của Hemingway, và mời người đọc đoán thử xem đâu mới là tác phẩm của một cỗ máy.

Bản 1:

Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai “Ngaje Ngai,” the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.

(Bản dịch sang tiếng Việt của người dịch: Kilimanjaro là ngọn núi cao nhất Châu Phi với độ cao 19.710 feet (khoảng 6.008 m) và được bao phủ bởi tuyết. Đỉnh phía Tây của ngọn núi được gọi là Masai “Ngaje Ngai,”ngôi nhà của Chúa. Sát cạnh đỉnh phía Tây là bộ xác khô đóng băng của một con báo. Không ai có thể đưa ra được lời giải thích cho việc con báo đang tìm kiếm điều gì ở độ cao này.

Bản 2:

Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called “Ngaje Ngai” in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.

Thậm chí với cả một người nói tiếng Anh bản địa, đoạn văn chưa đầy đủ cuối đoạn về chú báo là manh mối duy nhất để có thể nhận ra Bản 2 là sản phẩm của một thiết bị tự động. Sự tương đồng của hai đoạn văn khiến Rekimoto rất ngạc nhiên, người đã từng quá đỗi quen thuộc với những khả năng của dịch vụ này lúc trước. Chỉ mới 24 giờ trước, Google sẽ dịch đoạn văn tiếng Nhật trên ra như sau:

Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west, “Ngaje Ngai” in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard. Whether the leopard had what the demand at that altitude, there is no that nobody explained.

Rekimoto đã giới thiệu khám phá của ông đến hàng trăm ngàn người đang theo dõi ông trên Twitter, và trong vài giờ sau đã có hàng ngàn người đã đăng tải trải nghiệm của họ với dịch vụ dịch máy này. Một số thí nghiệm thành công, một số khác thì cho kết quả chủ yếu mang nghĩa khá hài hước. Khi bình minh ló dạng trên thành phố Tokyo, Google Translate trở thành xu hướng Số 1 trên Twitter Nhật Bản, ngay trên một số seri anime văn hóa và một đĩa đơn mới đang được chờ đợi của một nhóm nhạc nữ thần tượng. Tất cả mọi người cùng tự hỏi: Google Translate đã trở nên tinh vi một cách phi thường đến vậy như thế nào?

Bốn ngày sau, hàng trăm nhà báo, doanh nhân, và nhà quảng cáo từ khắp nơi trên thế giới cùng tụ họp lại tại văn phòng kỹ thuật của Google ở London để dự một buổi thông báo đặc biệt. Các khách mời được chào đón bằng những chiếc bánh may mắn (fortune cookies) mang thương hiệu Translate. Các mẩu giấy chứa một cụm từ ghi bằng tiếng nước ngoài ở một mặt – của tôi là tiếng Na-uy – và ở mặt còn lại, là lời mời tải ứng dụng Translate. Trên bàn là những khay bánh rán cùng smoothie (nước trái cây pha cùng sữa hoặc kem), mỗi loại có một tấm bảng đi kèm giới thiệu về vị của chúng bằng tiếng Đức (zitrone – chanh), Bồ Đào Nha (baunilha – vani), Tây Ban Nha (manzana – táo). Một lúc sau, mọi người được dẫn vào một hội trường tối và sang trọng.

Sundar Pichai, giám đốc điều hành Google. Nguồn: Flickr

Sadiq Khan, thị trưởng của London, đứng lên phát biểu một vài câu mở đầu. Một người bạn, ông bắt đầu kể, vừa nói với ông rằng ông khiến cho anh ta nhớ đến Google. “Vì sao, vì tôi biết mọi câu trả lời ư?”, ông hỏi. “Không,” người bạn đáp, “vì anh luôn cố hoàn tất câu nói của tôi”. Đám đông khúc khích cười. Khan kết thúc bằng việc giới thiệu Sundar Pichai, giám đốc điều hành Google.

Pichai có mặt tại London một phần để khánh thành tòa nhà Google mới, nền tảng của một “nguồn tri thức” mới đang được xây dựng tại King’s Cross, một phần để tuyên bố hoàn thành giai đoạn đầu tiên của việc chuyển đổi công ty đã được Pichai thông báo vào năm trước. Trong nhiều dịp Pichai đã từng nói rằng Google của tương lai sẽ trở thành “A.I. đầu tiên.” (AI – Artificial Intelligence – Trí tuệ nhân tạo) Điều đó trên lý thuyết là vô cùng phức tạp và thu hút nhiều suy đoán. Còn trên thực tế, nếu có bất kỳ may mắn nào xảy ra, thì ngay khi Google trở thành “A.I. đầu tiên”, những sản phẩm của công ty sẽ không còn là đại diện cho thành quả của lập trình máy tính truyền thống nữa, mà là của “học máy.” (machine learning)

Google Brain, một đơn vị chuyên biệt trong công ty, được thành lập năm năm trước dựa trên nguyên lý sau: như cách một đứa bé vừa biết đi thực hiện, “mạng lưới thần kinh” nhân tạo tự làm quen với thế giới thông qua việc thử-và-sai, để từ đó phát triển một thứ tương tự sự linh hoạt của con người. Đây không phải là một khái niệm mới – một phiên bản của khái niệm này đã xuất hiện từ những giai đoạn đầu tiên của ngành điện toán hiện đại, vào những năm 1940 – nhưng trong phần lớn lịch sử, hầu hết các nhà khoa học máy tính nhìn nhận nó như một điều khó tin, thậm chí là huyền bí. Tuy vậy, từ năm 2011, Google Brain đã chứng minh rằng việc sử dụng cách tiếp cận này cho trí tuệ nhân tạo có thể giải quyết rất nhiều vấn đề khiến các nỗ lực thông thường đã phải loay hoay trong vài thập kỷ. Công nghệ nhận diện giọng nói không thực sự hoạt động tốt cho đến khi Brain đảm nhận việc cải tiến; ứng dụng học máy đã giúp cho hiệu suất của việc nhân diện giọng nói trên Android, nền tảng di động của Google, gần tốt bằng khả năng nghe và ghi chép lại của con người. Điều tương tự cũng xảy đến với công nghệ nhận diện hình ảnh. Chưa đầy một năm trước, khi lần đầu tiên Brain bắt tay vào nâng cấp phần cốt lõi của toàn bộ một sản phẩm tiêu dùng, những kết quả quan trọng đã được tán dương ngay vào buổi tối hôm đó.

Một bản thể mới, trước sự ngạc nhiên của các kỹ sư Google, đã được hoàn thiện chỉ trong chín tháng.

Translate xuất hiện lần đầu tiên trước công chúng vào năm 2006 và sau đó trở thành một trong những tài sản được tin tưởng và phổ biến nhất của Google; phục vụ hơn 500 triệu người dùng hàng tháng với nhu cầu 140 tỷ từ mỗi ngày tính theo từng ngôn ngữ khác riêng biệt. Không chỉ là một ứng dụng độc lập, Translate còn là một tính năng tích hợp trong Gmail, Chrome và rất nhiều dịch vụ khác của Google, nơi ta có thể sử dụng chỉ bằng một nút nhấn – một phần dễ dàng và tự nhiên trong tiến trình thương mại số của chúng ta. Chỉ tới khi cuộc khủng hoảng tị nạn bắt đầu, Pichai giải thích, công ty mới tính đến tầm quan trọng về mặt địa chính trị của Translate: Màn hình phía sau ông hiển thị lên một biểu đồ có đường cong biểu diễn rất dốc, chỉ ra sự gia tăng gấp năm lần trong việc dịch giữa tiếng Ả-rập và tiếng Đức diễn ra gần đây. (Đây cũng là một điều rất quan trọng đối với Pichai. Ông lớn lên tại Ấn Độ, một vùng đất bị chia cắt bởi nhiều thứ tiếng.) Đội ngũ đã từng đều đặn thêm vào những ngôn ngữ và tính năng mới nhưng những gì thu được về mặt chất lượng trong suốt 4 năm trước lại không mấy đáng kể.

Cho đến cuối tuần trước, Translate đã được chuyển đổi sang một hệ thống có nền tảng A.I. để đáp ứng lượng truy cập lớn, không chỉ tại Hoa Kỳ, mà còn ở Châu Âu và Châu Á: Việc triển khai gồm khả năng dịch từ tiếng Anh sang Tây Ban Nha, Pháp, Bồ Đào Nha, Đức, Trung Quốc, Nhật Bản, Hàn Quốc, và Thổ Nhĩ Kỳ. Hàng trăm ngôn ngữ ít phổ biến hơn cũng có mặt, với mục tiêu tám ngôn ngữ mỗi tháng cho đến cuối năm sau. Một bản thể mới, trước sự ngạc nhiên của các kỹ sư Google, đã được hoàn thiện chỉ trong chín tháng. Hệ thống A.I. đã cho thấy những đổi mới bất ngờ xấp xỉ tổng những gì mà hệ thống cũ phải tích lũy trong suốt cuộc đời của nó.

Pichai có một niềm yêu thích với các tài liệu văn học ít người biết đến; ông nói với tôi một tháng trước đó, trong văn phòng của ông tại Mountain View, Califonia, rằng Translate một phần tồn tại vì không phải ai cũng có thể như nhà vật lý học Robert Oppenheimer, học tiếng Phạn để có thể đọc bản gốc của Bhagavad Gita. Tại London, slide bài diễn thuyết trên màn hình sau ông xuất hiện một câu trích dẫn của Borges: “Uno no es lo que es por lo que escribe, sino por lo que ha leído.” (Tạm dịch: Một người không phải những gì anh ta đã từng viết, mà là những gì anh ta đã từng đọc.)

Toét miệng cười, Pichai đọc to bản tiếng Anh vụng về của câu văn được hệ thống Translate cũ dịch lại: “One is not what is for what he writes, but for what he has read.”

Bên phải là bản dịch bởi A.I. mới: “You are not what you write, but what you have read.”

Đó là một bản dịch hợp lý: phiên bản Google Translate mới đã được chạy trên những máy tính đầu tiên, theo một cách hiểu, chưa từng học để đọc bất cứ điều gì cả.

Việc quyết định cải tổ lại của Google xung quanh tâm điểm A.I. là dấu hiệu quan trọng đầu tiên của thứ trở thành cơn sốt “học máy” trong toàn ngành. Trong bốn năm qua, sáu công ty độc lập – Google, Facebook, Apple, Amazon, Microsoft, và Baidu (một công ty Trung Quốc) – đã phát động một cuộc chạy đua vũ trang cho những nhân tài A.I., đặc biệt là trong các trường đại học. Các cam kết về tài nguyên và tự do đã khiến những ban nghiên cứu hàn lâm hàng đầu giảm đi. Điều đó càng trở nên phổ biến hơn tại thung lũng Silicon, nơi Mark Zuckerberg, giám đốc điều hành của Facebook, đích thân giám sát những đề nghị từ công ty đến với những sinh viên tốt nghiệp giỏi nhất (cùng những lời xu nịnh qua điện thoại và video-chat). Những mức lương khởi điểm bảy con số không phải chưa từng xuất hiện. Lượng thành viên tham gia những buổi hội nghị hàn lâm trọng điểm trong lĩnh vực tăng lên bốn lần. Thứ đang bị đe dọa không chỉ là một cuộc đổi mới từng phần mà còn là sự kiểm soát những gì tượng trưng cho một nền tảng điện toán hoàn toàn mới: trí tuệ nhân tạo ở khắp mọi nơi, trong từng ngõ ngách.

Cụm từ “trí tuệ nhân tạo” được sử dụng khi ý nghĩa tự bản thân nó đã rõ ràng, nhưng nó lại luôn là nguồn gốc của sự bối rối và tranh cãi. Thử tưởng tượng nếu bạn trở lại những năm 1970, dừng một ai đó trên đường lại, rút một chiếc điện thoại thông minh ra và chỉ cho họ thấy Google Maps. Một khi bạn làm cho cô ấy tin rằng bạn không phải là một thầy phù thủy ăn mặc kì quặc, và thứ bạn rút ra từ túi quần không phải là một lá bùa phép thuật mà chỉ đơn thuần là một chiếc máy tính tí hon có sức mạnh hơn cả chiếc máy tính đã điều khiển nhiệm vụ Apollo, thì Google Maps đối với họ chắc chắn sẽ là một ví dụ thuyết phục của “trí tuệ nhân tạo”. Theo một ý nghĩa rất thực tế thì nó là vậy. Nó có thể giải quyết những nhiệm vụ mà bất cứ người sử dụng bản đồ nào thực hiện, như đưa bạn từ khách sạn đến sân bay – dù rằng còn nhanh và đáng tin hơn nhiều. Nó còn có thể làm cả những điều mà con người về cơ bản và hiển nhiên không thể nào thực hiện: đánh giá lưu lượng giao thông, lập tuyến đường tốt nhất và tự tái định hướng khi ta đi nhầm đường.

Tuy nhiên, thực tế hiện nay không còn ai dành cho Google Maps tên gọi kính cẩn là “A.I.” nữa, chúng ta đã quá đa cảm và cân nhắc trong việc sử dụng từ “trí tuệ.” Mọi người tin rằng trí tuệ nhân tạo phải là một thứ gì đó phân biệt được HAL với những gì mà một khung cửi hay một chiếc cút kít có thể thực hiện. Vào giây phút chúng ta có thể tự động hóa một nhiệm vụ, chúng ta cũng hạ thấp kỹ năng liên quan đến một trong những cơ chế đơn thuần đang tồn tại. Ngày nay thì Google Maps có vẻ (theo nghĩa tiêu cực) giống như người máy: Nó chỉ đơn giản chấp nhận một mệnh lệnh rõ ràng (nhu cầu đi từ nơi này đến nơi khác) và cố gắng đáp ứng nhu cầu đó một cách hiệu quả nhất có thể. Các chân chống cho cụm từ “trí tuệ nhân tạo” vì thế cũng không ngừng giảm sút.

Khi có cơ hội, Pichai đã phân biệt một cách cẩn thận những ứng dụng hiện tại của trí tuệ nhân tạo và mục tiêu sau cùng của “trí tuệ nhân tạo rộng.” (artificial general intelligence) Trí tuệ nhân tạo rộng sẽ không còn chỉ tuân thủ chính xác các chỉ thị rõ ràng nữa, mà thay vào đó sẽ có khả năng hiểu và diễn giải cả những hàm ý. Nó sẽ là một công cụ tổng hợp, thiết kế cho những mục đích chung trong một ngữ cảnh chung. Pichai tin rằng tương lai của công ty ông phụ thuộc vào những điều như thế. Thử tưởng tượng nếu bạn có thể nói với Google Maps rằng: “Tôi muốn đến sân bay, nhưng cần phải dừng lại đâu đó trên đường để mua một món quà cho cháu trai mới sinh của mình.” Một phiên bản thông minh rộng hơn của dịch vụ này – một phụ tá xuất hiện khắp mọi nơi, như nhân vật mà Scarlett Johansson đã hóa thân vào và để lại nhiều ấn tượng trong lòng khán giả trong bộ phim “Her” của đạo diễn Spike Jonze ba năm về trước – sẽ biết mọi điều mà một người bạn thân hay một thực tập sinh tận tụy có thể biết: tuổi của cháu bạn, khoản chi mà bạn thường dành ra để mua quà cho lũ trẻ, và nơi bạn có thể tìm thấy một cửa hàng đang mở cửa. Nhưng một Maps thực sự thông minh còn có thể biết những điều mà người bạn thân không biết được, như món quà nào đang trở thành tâm điểm thu hút lũ trẻ tại trường học của cháu bạn – hoặc quan trọng hơn, món quà nào mà chúng thực sự muốn. Nếu một cỗ máy thông minh có thể nhận thức được về những thói quen phức tạp sâu thẳm trong dữ liệu về những gì chúng ta đã làm trong quá khứ, nó có thể suy luận ra các mong muốn tiếp theo của chúng ta, kể cả khi tự bản thân ta không hoàn toàn biết về những mong muốn đó.

Trào lưu về những trợ lý nâng cao A.I. – Siri của Apple, M của Facebook, Echo của Amazon – đều là những tạo vật của học máy, được xây dựng với những ý định tương tự nhau. Tuy vậy, những giấc mơ về học máy của các doanh nghiệp không hề suy giảm bởi mục tiêu nhìn thấu hành vi khách hàng. Một công ty con về kỹ thuật siêu âm y khoa của Samsung tuyên bố vào năm nay rằng một thiết bị siêu âm mới của họ có thể phát hiện ra ung thư vú. Các nhà tư vấn quản lý thì đổ xô nhau chuẩn bị kế hoạch mở rộng những ứng dụng công nghiệp có khả năng tự lập trình trên máy tính. DeepMind, một thương vụ của Google vào năm 2014, đã đánh bại sự thống trị của con người trong bộ môn cờ cổ mang tên Go (cờ vây), dù rằng các dự đoán ước tính phải mất thêm đến 10 năm nữa mới có thể đạt được thành tựu này.

Nếu một cỗ máy thông minh có thể nhận thức được về những thói quen phức tạp sâu thẳm trong dữ liệu về những gì chúng ta đã làm trong quá khứ, nó có thể suy luận ra các mong muốn tiếp theo của chúng ta, kể cả khi tự bản thân ta không hoàn toàn biết về những mong muốn đó.

Trong một tiểu luận nổi tiếng năm 1950, Alan Turing đã đề xuất một bài kiểm tra đối với trí tuệ nhân tạo rộng: một chiếc máy tính trong suốt năm phút trao đổi bằng văn bản đã có thể đánh lừa thành công một người đối thoại thực sự. Một khi máy móc có thể phiên dịch trôi chảy qua lại giữa hai ngôn ngữ tự nhiên (natural language), thì đồng nghĩa với việc máy móc cũng đã được thiết lập một nền tảng để một ngày nào đó có thể “hiểu được” ngôn ngữ con người đủ giỏi để đối thoại một cách khéo léo. Những thành viên thúc đẩy và giúp giám sát các dự án Translate của Google Brain tin rằng một cỗ máy như vậy sẽ trở thành một trợ lý kỹ thuật số cá nhân thông minh toàn diện.

Tiếp theo là câu chuyện về cách mà một đội ngũ các nhà nghiên cứu và kỹ sư của Google – đầu tiên là một hoặc hai, sau đó là ba hoặc bốn, cuối cùng là hơn một trăm thành viên – đã tạo ra những tiến bộ to lớn theo hướng đó. Đây không phải là một câu chuyện phổ biến, nhất là khi nó thách thức rất nhiều định kiến đã trở nên quen thuộc với chúng ta về thung lũng Silicon. Câu chuyện này không đề cao những người nghĩ rằng tất cả mọi thứ sẽ thay đổi hoàn toàn vào ngày mai hoặc ngày mốt chỉ bởi một vài người nghịch ngợm không ngừng nghỉ trong ga ra. Nó không phải là câu chuyện về những người nghĩ rằng công nghệ có thể giải quyết được mọi vấn đề của chúng ta hay về những người nghĩ rằng công nghệ là một bước nhảy vọt không thể tránh khỏi tạo nên những câu chuyện mới về ngày tận thế. Đó không phải là về sự đột phá, hay ít nhất cũng không phải theo cách từ này thường được sử dụng.

Trên thực tế nó là ba câu chuyện chồng chéo nhau cùng quy tụ trong sự thay đổi thành công của Google Translate để trở thành A.I. – một câu chuyện về kỹ thuật, một về thể chế, và một về việc phát triển ý tưởng. Câu chuyện kỹ thuật là về một đội ngũ đảm nhiệm một sản phẩm tại một công ty, và quá trình họ cải tiến, thử nghiệm và giới thiệu một phiên bản hoàn toàn mới của một sản phẩm cũ chỉ trong thời gian một phần tư thời gian mà bất kỳ ai, kể cả các thành viên trong đội ngũ phát triển, trông đợi. Câu chuyện thể chế là về những nhân viên trong một đội ngũ trí tuệ nhân tạo tuy nhỏ nhưng có tầm ảnh hưởng trong công ty, và quá trình những quan điểm cổ hũ, thiếu dẫn chứng và khó có thể chấp nhận của họ về tin học đã lật đổ tất cả những công ty khác trong một phạm vi lớn. Câu chuyện ý tưởng là về những nhà khoa học nhận thức, tâm lý học, và những kỹ sư ương ngạnh đã cống hiến trong bóng tối trong một thời gian dài, và quá trình mà niềm tin sắt đá mang vẻ ngoài phi lý của họ cuối cùng đã truyền cảm hứng cho một sự thay đổi hiểu biết của chúng ta, không chỉ về công nghệ, mà còn về ý thức, theo lý thuyết.

Câu chuyện đầu tiên là của Google Translate, diễn ra tại Mountain View trong suốt chín tháng, giải thích cho sự chuyển đổi về khả năng dịch thuật của máy móc. Câu chuyện thứ hai là của Google Brain cùng rất nhiều đối thủ cạnh tranh, diễn ra tại Thung lũng Silicon trong suốt năm năm, giải thích cho sự chuyển đổi của toàn bộ cộng đồng Silicon. Câu chuyện thứ ba, câu chuyện về sự học sâu (deep learning), diễn ra tại một loạt các phòng thí nghiệm trải rộng khắp nơi – tại Scotland, Thụy Sỹ, Nhật Bản và hầu hết cả Canada – trong suốt bảy thập kỷ, đóng góp rất lớn vào việc xem xét lại sự tự nhận thức về bản thân của chúng ta như những sinh vật tư duy đứng đầu và lỗi lạc nhất.

Cả ba đều là những câu chuyện về trí tuệ nhân tạo. Câu chuyện bảy thập kỷ là về những gì chúng ta có thể trông đợi hoặc mong muốn. Câu chuyện năm năm là về những gì chúng ta có thể thực hiện trong tương lai gần. Câu chuyện chín tháng là về những gì chúng ta có thể thực hiện ngay. Ba câu chuyện này bản thân chúng chính là những minh chứng cho khái niệm. Tất cả chỉ là sự khởi đầu.

Phần I: Máy học

1. Sự ra đời của Brain

Jeff Dean, mặc dù chức danh của ông là nghiên cứu sinh cao cấp, thực chất là người đứng đầu của Google Brain. Dean là một người đàn ông gân guốc, điềm đạm với khuôn mặt hẹp dài, đôi mắt sâu và một sự nhiệt tình nghiêm túc. Là con trai của một nhà nhân chủng học về y khoa và một nhà nghiên cứu dịch tễ học về sức khỏe cộng đồng, Dean lớn lên tại nhiều nơi trên khắp thế giới – Minnesota, Hawaii, Boston, Arkansas, Geneva, Uganda, Somalia, Atlanta – và khi đang theo học một trường phổ thông và cao đẳng, ông đã viết phần mềm cho Tổ chức Y tế Thế giới. Năm 1999, ở tuổi 25, ông bắt đầu làm việc cho Google và từ đó tham gia vào những hệ thống phần mềm cốt lõi trong tất cả những nhiệm vụ quan trọng. Một tác phẩm được yêu thích của văn hóa công ty là Jeff Dean Facts, được viết theo phong cách Chuck Norris Facts: “Số PIN của Jeff Dean là bốn chữ số cuối của số pi.” Khi Alexander Graham Bell phát minh ra điện thoại, ông thấy một cuộc gọi nhỡ từ Jeff Dean.” “Jeff Dean được thăng lên cấp 11 trong một hệ thống có cấp cao nhất là 10.” (Điều cuối cùng là thật.)

Một ngày đầu năm 2011, Dean bước vào một trong những “căn bếp tí hon” của Google – một từ “Googley” được dùng để ám chỉ những khu vực nghỉ ngơi chung tại hầu hết các tầng trong tòa nhà tại khu phức hợp Mountain View – và va phải Andrew Ng, một giáo sư khoa học máy tính trẻ của trường Stanford, làm việc tại công ty trên cương vị một tư vấn viên. Ng nói với Dean về Dự án Marvin, một nỗ lực nội bộ (được đặt tên theo nhà tiên phong nổi tiếng về A.I., Marvin Minsky) gần đây ông đã giúp thành lập để thử nghiệm “mạng lưới thần kinh,” những lưới mắt xích kỹ thuật số mềm dẻo dựa trên cấu trúc não bộ. Bản thân Dean cũng đã từng làm việc trên một phiên bản nguyên thủy của công nghệ này khi còn là sinh viên chưa tốt nghiệp tại trường Đại học Minnesota năm 1990, trong suốt quãng thời gian mà một trong những cách nhìn nhận sơ lược về phương pháp trở thành xu thế. Giờ đây, trong suốt năm năm trở lại, số lượng các viện nghiên cứu làm việc về mạng lưới thần kinh đã gia tăng trở lại, từ một số ít đến vài tá. Ng nói với Dean rằng Dự án Marvin, đang được bảo lãnh bởi phòng thí nghiệm bí mật X của Google, đã đạt được một số kết quả đầy hứa hẹn.

Dean đã thích thú đến mức cho mượn hẳn “20 phần trăm” thời gian của ông – một phần giờ làm việc mà mọi nhân viên Google đều được trông đợi sẽ cống hiến cho các chương trình ngoài công việc chính của họ – vào dự án. Không bao lâu sau, ông đã đề xuất với Ng đưa một đồng nghiệp khác có nền tảng về thần kinh học vào dự án, đó là Greg Corrado. (Tại trường ông từng theo học, Corrado đã được dạy sơ lược về công nghệ, nhưng chỉ như một sự hiếu kì liên quan đến lịch sử. “Thật tốt khi tôi đã tập trung vào buổi học ngày hôm đó,” Corrado nói đùa.) Vào cuối mùa xuân, họ đưa thêm Quốc Lê, một trong những sinh viên giỏi nhất của Ng, vào làm thực tập sinh đầu tiên của dự án. Vào thời điểm ấy, một số kỹ sư của Google đã nhắc đến Dự án Marvin bằng một cái tên khác: Google Brain.

Từ khi thuật ngữ “trí tuệ nhân tạo” lần đầu tiên được sử dụng trong một hội nghị kiểu như quy ước về tâm trí tại Dartmouth mùa hè năm 1956, phần lớn những nhà nghiên cứu trong một thời gian dài đã nghĩ về cách tiếp cận tốt nhất để tạo ra A.I. là sẽ viết một chương trình cực lớn và toàn diện có thể trình bày những quy tắc của việc lập luận logic và đủ kiến thức về thế giới. Lấy ví dụ, nếu bạn muốn dịch từ tiếng Anh sang tiếng Nhật, bạn cần phải lập trình cho máy tính toàn bộ những nguyên tắc ngữ pháp của tiếng Anh, rồi sau đó là toàn bộ định nghĩa chứa trong từ điển Oxford, rồi sau đó tiếp tục toàn bộ những quy tắc ngữ pháp tiếng Nhật, cũng như tất cả những từ có trong từ điển tiếng Nhật, và chỉ sau khi thực hiện toàn bộ những bước trên mới có thể bắt đầu đưa vào một câu ngôn ngữ nguồn và yêu cầu nó sắp xếp thành một câu tương ứng trong ngôn ngữ đích. Bạn có thể cung cấp cho máy một bản đồ ngôn ngữ như vậy, giống như Borges đã có thể có, với kích thước của cả vùng lãnh thổ đó. Viễn cảnh như vậy thường được gọi là “A.I. biểu tượng” (symbolic A.I.) – vì định nghĩa của nó về nhận thức được dựa trên logic biểu tượng – hoặc, một cách mỉa mai, là một loại “A.I. tốt và cổ điển.” (good old-fashioned A.I.)

Có hai vấn đề chính trong cách tiếp cận cổ điển. Đầu tiên là nó tốn thời gian kinh khủng. Thứ hai là nó chỉ có thể thực sự hoạt động được trong những lĩnh vực có quy tắc và định nghĩa hết sức rõ ràng: ví dụ như toán học, hay cờ vua. Tuy nhiên, dịch thuật lại là một ví dụ cho lĩnh vực mà cách tiếp cận này trở nên thất bại một cách thảm hại, bởi số lượng định nghĩa của các từ quá lớn, và cũng bởi các ngôn ngữ có khuynh hướng tồn tại nhiều ngoại lệ như số lượng quy tắc chúng có vậy. Khá thường xuyên, một hệ thống như vậy rất có thể sẽ dịch “bộ trưởng Bộ nông nghiệp” thành “linh mục nông nghiệp.” Mặc dù vậy, đối với toán và cờ vua thì nó lại hoạt động rất tốt, và những người đề xuất A.I. biểu tượng thì lại cho rằng không có một hoạt động nào có thể minh chứng cho dấu hiệu về “trí tuệ rộng” tốt hơn là toán và cờ vua.

Cũng có những giới hạn trong khả năng của hệ thống kiểu này. Vào những năm 1980, một nhà nghiên cứu về robot tại Carnegie Mellon đã chỉ ra rằng các máy tính có thể làm những việc của người lớn rất dễ dàng, nhưng lại gần như không thể thực hiện những điều mà một đứa trẻ 1 năm tuổi có thể thực hiện, như giữ một quả bóng hay nhận ra một con mèo. Đến tận những năm 1990, dù đã có những vượt bậc trong khả năng chơi cờ của máy tính nhưng ta vẫn còn cách xa trí tuệ nhân tạo rộng.

Đã luôn có một cách nhìn nhận khác về A.I. – một cách nhìn nhận đối lập – mà theo đó, các máy tính sẽ học từ nền lên (tức là từ dữ liệu) thay vì từ trên xuống (tức là từ các quy tắc). Khái niệm này đã tồn tại từ thời kỳ đầu của những năm 1940, khi các nhà nghiên cứu cho rằng mô hình tốt nhất cho trí tuệ tự động linh hoạt chính là bản thân bộ não. Bộ não, sau cùng chỉ là một cụm những phần tử nhỏ gọi là nơ ron, với chức năng hoặc là cho một điện tích di chuyển qua nơ ron kế tiếp, hoặc là không. Điều quan trọng là số lượng những nơ ron riêng lẻ lại ít hơn số liên kết đa dạng giữa chúng. Cấu trúc này, với sự đơn giản của nó, đã giúp cho bộ não có nhiều lợi thế về thích nghi. Bộ não có thể hoạt động trong những tình huống ít hoặc thiếu thông tin; nó có thể chịu được những thiệt hại đáng kể mà không mất toàn bộ sự kiểm soát; nó có thể lưu trữ một lượng lớn kiến thức một cách rất hiệu quả; và nó cũng có thể cô lập những khuôn mẫu rõ ràng nhưng vẫn giữ được sự lộn xộn cần thiết để xử lý những thứ mơ hồ.

Không có lý do gì ta không thể bắt chước được cấu trúc này dưới hình thức điện tử, và vào năm 1943 ta đã thấy được sự sắp xếp những nơ ron nhân tạo đơn giản có thể thực hiện những chức năng logic cơ bản. Chúng cũng có thể, ít nhất là về mặt lý thuyết, học như cách chúng ta vẫn làm. Cùng với kinh nghiệm sống, dựa vào những lần thử-và-sai của mỗi cá nhân, những kết nối synap giữa các cặp nơ ron sẽ trở nên mạnh hơn hay yếu dần. Một mạng lưới nơ ron nhân tạo cũng có thể thực hiện điều tương tự bằng cách sửa đổi dần dần những mối quan hệ số học giữa các các nơ ron nhân tạo dựa trên cơ sở phương pháp thử nghiệm và sai theo hướng dẫn. Nó sẽ không cần phải cần lập trình trước với những quy tắc cố định mà thay vào đó sẽ tự chuyển đổi để phản ánh những khuôn mẫu trong dữ liệu mà chúng tiếp nhận.

Quan điểm này xem trí tuệ nhân tạo là sự tiến hóa hơn là sự sáng tạo. Nếu bạn muốn một cơ chế linh hoạt, bạn sẽ muốn một thứ có thể thích nghi với môi trường của nó. Nếu bạn muốn một thứ có thể thích nghi, bạn sẽ không muốn bắt đầu bằng việc truyền bá những quy tắc về chơi cờ. Bạn sẽ muốn bắt đầu với những khả năng hết sức cơ bản – nhận thức cảm giác và kiểm soát cơ vận động – rồi hy vọng rằng những kỹ năng tiên tiến hơn sẽ xuất hiện một cách tự nhiên. Con người không học ngôn ngữ bằng cách ghi nhớ từ điển và sách ngữ pháp, vậy tại sao chúng ta trông đợi máy tính của chúng ta sẽ có thể làm được?

Một mạng lưới nơ ron nhân tạo cũng có thể thực hiện điều tương tự bằng cách sửa đổi dần dần những mối quan hệ số học giữa các các nơ ron nhân tạo dựa trên cơ sở phương pháp thử nghiệm và sai theo hướng dẫn. Nó sẽ không cần phải cần lập trình trước với những quy tắc cố định mà thay vào đó sẽ tự chuyển đổi để phản ánh những khuôn mẫu trong dữ liệu mà chúng tiếp nhận.

Google Brain là đơn vị thương mại lớn đầu tiên đầu tư vào những khả năng được thể hiện bằng cách suy nghĩ về A.I. theo hướng này. Dean, Corrado và Ng bắt đầu công việc như một thử nghiệm cộng tác và bán thời gian, nhưng họ đã có tiến triển ngay lập tức. Họ lấy nguồn cảm hứng kiến trúc cho những mô hình của họ từ những phác thảo lý thuyết gần đây – cho đến những ý tưởng đã nằm trên kệ sách từ những năm 1980 đến 1990 – và sử dụng cả lượng dữ liệu có một không hai lẫn cơ sở hạ tầng máy tính khổng lồ của công ty. Họ đã hướng dẫn mạng lưới các kho lưu trữ khổng lồ những dữ liệu “được dán nhãn” – ví dụ như những tập tin lời nói với sự phiên âm chính xác – và các máy tính đã cải thiện phản ứng của chúng để phù hợp hơn với thực tế.

“Sự phát triển nên đôi mắt của động vật trong tiến trình tiến hóa là một sự phát triển lớn,” Dean nói với tôi vào một ngày nọ, bằng giọng văn thông thường. Chúng tôi đang ngồi, như thường lệ, trong một phòng họp với tấm bảng trắng, trên đó ông vẽ một dòng thời gian uốn lượn và chật ních của Google Brain cùng mối quan hệ của nó với các bước ngoặt trong lịch sử các mạng lưới nơ ron gần đây. “Giờ đây máy tính đã có mắt. Chúng tôi sẽ có thể xây dựng chúng xung quanh những khả năng hiện có để chúng có thể hiểu được hình ảnh. Robot sẽ được chuyển đổi một cách mạnh mẽ. Chúng sẽ có thể hoạt động trong một môi trường không biết rõ, về nhiều vấn đề khác nhau.” Những năng lực mà chúng đang được xây dựng trông có vẻ nguyên thủy, nhưng lại mang ý nghĩa sâu sắc.

Geoffrey Hinton, người có ý tưởng đặt nền móng cho cách tiếp cận theo mạng lưới nơ-ron của Google Translate. Nguồn: Wikipedia

2. Thực tập sinh không ngờ tới

Trong hơn một năm tồn tại, những thí nghiệm của Brain về việc phát triển của một máy tính với những khả năng tương đương đứa bé 1 tuổi (như Dean đã nói) đã hoạt động hết sức hiệu quả. Đội ngũ phát triển công nghệ nhận diện giọng nói đã hoán đổi một phần trong hệ thống cũ của họ bằng mạng lưới nơ ron và bất ngờ nhận được những cải tiến về mặt chất lượng hơn bất cứ ai từng thấy trong 20 năm qua. Khả năng nhận diện đối tượng của hệ thống được cải thiện theo mức cường độ âm. Thành quả này không phải bởi các thành viên của Brain đã tạo ra một loạt các ý tưởng mới mẻ chỉ trong vòng một năm, mà là nhờ Google cuối cùng đã dành hết những nguồn lực – về máy tính và nhân lực – để lấp đầy những phác thảo đã tồn tại từ rất lâu.

Những khái niệm vẫn còn đang tồn tại và lộn xộn này còn có một phiên bản vượt trội hơn được đề xuất và cải tiến bởi một học giả người Anh tên Geoffrey Hinton. Trong năm tồn tại thứ hai của Brain, Hinton đã được tuyển mộ vào Brain khi Andrew Ng rời đi. (Ng giờ đây là lãnh đạo của đội ngũ 1.300 thành viên A.I. tại Baidu.) Hinton đã muốn rời khỏi vị trí của mình tại Đại học Toronto chỉ trong ba tháng, vì vậy ông đã được tuyển dụng vào vị trí thực tập sinh do những lý do cá nhân liên quan đến hợp đồng. Tại khóa đào đạo thực tập sinh, người lãnh đạo việc định hướng đã nói một điều gì đó kiểu như, “Hãy gõ LDAP của bạn vào” – một mục đăng nhập vào tài khoản – và Hinton ra hiệu với người giúp đỡ để hỏi, “LDAP là gì?” Tất cả những thành viên thông minh, 25 tuổi, chỉ mới biết đến việc học sâu như là một phần không thể thiếu của trí tuệ nhân tạo, khúc khích cười: “Ông bác ấy là ai vậy? Tại sao ông ấy lại không biết điều đó?”

Hinton nói: “Vào giờ ăn trưa, một ai đó đang xếp hàng hét lên: ‘Giáo sư Hinton! Em đã từng tham dự buổi dạy của thầy! Thầy đang làm gì ở đây vậy?’ Sau đó, mọi việc cũng ổn.”

Một vài tháng sau, Hinton cùng hai học trò của ông đã giành được thành công đáng kinh ngạc trong một cuộc thi nhận diện hình ảnh, tổ chức bởi một tập đoàn mã nguồn mở tên ImageNet, yêu cầu máy tính không chỉ nhận dạng ra được con khỉ, mà còn phải phân biệt được khỉ nhện và khỉ rú, giữa không biết bao nhiêu giống mèo khác nhau. Google sau đó đã sớm tiếp cận Hinton và học trò của ông với một lời đề nghị. Họ đã chấp nhận. Ông nói: “Tôi nghĩ họ quan tâm đến I.P. của chúng tôi, nhưng hóa ra là họ quan tâm đến chúng tôi.”

Hinton đến từ một trong những gia đình Anh quốc lâu đời được tán dương giống như gia đình Darwin trong góc độ lập dị về mặt trí tuệ, nơi bất chấp những thiên kiến về địa vị, một người được trông đợi sẽ có những đóng góp bên lề cho những vấn đề nhỏ trong thiên văn học và động lực học chất lỏng. Người cụ tổ vĩ đại của Hinton là George Boole, người có công trình nền tảng trong logic biểu tượng giúp xây dựng nền móng cho máy tính; cụ tổ vĩ đại khác là một nhà phẫu thuật lừng danh, bố ông là nhà côn trùng học mạo hiểm, chú ông là một nhà nghiên cứu tại Los Alamos; danh sách còn dài nữa. Ông được đào tạo tại Cambridge và Edinburgh, rồi sau đó dạy học tại Carnegie Mellon trước khi ông dừng chân tại Toronto, nơi ông tiếp tục dành nửa cuộc đời. (Công việc của ông từ lâu đã được hỗ trợ bởi sự hào phóng của chính phủ Canada.) Tôi đến thăm ông tại văn phòng của ông ở chi nhánh Google tại đó. Ông có mái tóc rối màu vàng thiếc được chải về phía trước theo phong cách Noel Gallagher lúc trưởng thành và mặc một chiếc sơ mi sọc rộng thùng thình, và chiếc kính oval trượt xuống đỉnh chiếc mũi nổi bật. Ông sẽ nói chuyện với một lái xe có khiếu hài hước những điều như: “Máy tính sẽ hiểu được sự mỉa mai trước cả người Mỹ.”

Hinton đã làm việc với các mạng lưới nơ ron từ những ngày còn chưa tốt nghiệp tại đại học Cambridge những năm cuối thập niên 60, và ông được xem là ông tổ của lĩnh vực đương thời này. Phần lớn thời gian khi ông nói về học máy, mọi người nhìn ông như thể ông đang nói về những hình cầu Ptolemaic hoặc việc hút máu của những kẻ bóc lột. Mạng nơ ron đã bị xem như một sự điên rồ phi lý, phần lớn dựa trên nền tảng của một dự án được thổi phồng quá mức: Perceptron, một mạng lưới nơ ron nhân tạo được Frank Rosenblatt, một nhà tâm lý học trường đại học Cornell, phát triển vào những năm cuối thập niên 50. Thời báo New York Times đưa tin rằng người bảo trợ của chiếc máy, Hải quân Hoa Kỳ, đã trông đợi nó sẽ “có khả năng nói, đi lại, nhìn, viết, tự sản xuất và ý thực được sự tồn tại của nó.” Tuy vậy, nó đã không làm được gì trong số những điều trên cả. Marvin Minsky, nhân vật lão làng về trí tuệ nhân tạo tại châu Mỹ, đã nghiên cứu về mạng nơ ron cho luận án Princeton năm 1954, nhưng cũng thấy mệt mỏi vì những tuyên bố vội vã rằng Rosenblatt – một nhân vật cùng thời tại trường Trung học phổ thông khoa học Bronx – đã làm ra được mô hình thần kinh. (Ông lúc đó cũng đang cạnh tranh để giành được tài trợ từ Bộ Quốc phòng.) Cùng với một đồng nghiệp tại M.I.T., Minsky đã xuất bản một cuốn sách chứng minh rằng có những vấn đề giản đơn một cách đau đớn mà Perceptron có thể mãi mãi không bao giờ giải quyết được.

Sự chỉ trích của Minsky đối với Perceptron chỉ hướng về những mạng lưới của một “lớp”, tức một lớp của các nơ ron nhân tạo giữa những gì được đưa vào máy móc và những gì ta trông đợi từ nó – và sau đó, ông đã giải nghĩa những ý tưởng rất giống với sự học sâu hiện đại. Nhưng Hinton tại thời điểm đó cũng đã biết rằng những nhiệm vụ phức tạp có thể được thực hiện nếu ta sử dụng nhiều lớp. Mô tả đơn giản của một mạng thần kinh là nó không phải một chiếc máy thực hiện phân loại và dự đoán dựa trên khả năng khai thác các hình mẫu trong dữ liệu. Với một lớp, ta chỉ có thể tìm ra những hình mẫu đơn giản; nếu có nhiều hơn một, ta có thể tìm kiếm những hình mẫu của những hình mẫu. Xem xét trường hợp nhận diện hình ảnh, có xu hướng dựa vào một công cụ kỳ quặc mang tên “Mạng nơ-ron tích chập” (convolutional neural net). (Được mô tả chi tiết trong bài báo năm 1998, tác giả chính bài báo, một người pháp tên Yann LeCun đã thực hiện nghiên cứu tiến sỹ tại Toronto dưới sự hướng dẫn của Hinton và hiện giờ lãnh đạo những nỗ lực khổng lồ về A.I. tại Facebook.) Lớp đầu tiên của mạng lưới học để nhận diện chuyển biến thị giác cơ bản của một “cạnh”, có nghĩa là một thứ không có gì (một pixel đóng) theo sau một thứ gì đó (một pixel mở) hoặc ngược lại. Mỗi lớp kế tiếp trong mạng lưới tìm kiếm một hình mẫu trong lớp trước đó. Một hình mẫu của các cạnh có thể là một hình tròn hoặc một hình chữ nhật. Một hình mẫu của các hình tròn hoặc chữ nhật có thể là một khuôn mặt.v.v. Điều này ít nhiều cũng tương đương với cách mà thông tin được kết hợp theo những cách ngày càng trừu tượng như cách nó đi vào các tế bào cảm nhận ánh sáng phía sau võng mạc và lên vỏ não thị giác. Tại mỗi bước định nghĩa, chi tiết không liên quan ngay lập tức bị đào thải. Nếu nhiều cạnh và đường tròn kết hợp tạo thành khuôn mặt, ta không phải quan tâm chính xác đâu là khuôn mặt được tìm thấy trong vùng thị giác; ta chỉ cần quan tâm đó là một khuôn mặt.

Vấn đề xảy đến với những mạng lưới nơ ron “tầng sâu”, đa lớp là phần thử-và-sai trở nên phức tạp vô cùng tuy rằng nó không hề phức tạp trong một lớp đơn. Thử tưởng tượng bạn đang chơi đùa cùng một đứa bé. Bạn bảo bé rằng: “Con hãy nhặt quả bóng xanh và cho vào hộp A thử xem nào.” Đứa bé có thể sẽ nhặt quả bóng xanh và cho vào hộp B. Lúc đó bạn lại nói rằng: “Con hãy thử cho lại quả bóng xanh vào hộp A đi nào.” Đứa bé thử cho vào hộp A. Hoan hô, đúng rồi.

Giờ hãy tưởng tượng bạn nói với đứa bé rằng: “Con hãy nhặt một quả bóng xanh, bước qua cánh cửa số 3 và đặt vào hộp A xem nào.” Đứa trẻ lúc này nhặt một quả bóng màu đỏ, đi qua cửa số 2 và đặt quả bóng vào hộp B. Bạn sẽ phải bắt đầu thế nào để sửa sai cho bé? Bạn không thể lặp lại lời hướng dẫn lúc đầu, bởi vì đứa bé không biết rằng nó sai ở điểm nào. Trong thực tế, bạn có thể bắt đầu bằng cách nhặt quả bóng đỏ và quả bóng xanh lên và nói: “Đây là bóng đỏ, còn đây là bóng xanh.” Tuy vậy, toàn bộ vấn đề của học máy là để tránh hình thức huấn luyện rõ ràng. Hinton và một một vài người khác đã đi đến việc phát minh ra một giải pháp (hay đúng hơn là tái phát minh một giải pháp cũ) cho vấn đề lỗi nhiều lớp này, trong suốt thời gian nghiên cứu tạm hoãn vào cuối những năm 1970 và 1980, và sự quan tâm của các nhà khoa học máy tính về mạng lưới nơ ron đã được hồi sinh trong thời gian ngắn. “Mọi người rất hứng thú về điều đó,” ông nói. “ Nhưng chúng tôi đã đề cao nó quá mức.” Những nhà khoa học máy tính đã nhanh chóng trở lại với suy nghĩ rằng những người như Hinton là lập dị và khó hiểu.

Tuy vậy, những ý tưởng này vẫn tiếp tục phổ biến trong giới triết gia và các nhà tâm lý học. Họ gọi nó là “thuyết kết nối” (connectionism) hay “quá trình xử lý phân tán song song” (parallel distributed processing.) Hinton nói với tôi: “Ý tưởng này của một số người đã giúp giữ ngọn đuốc tiếp tục cháy, như một câu chuyện thần thoại đẹp. Tuy đó là sự thật trong lĩnh vực trí tuệ nhân tạo. Nhưng trong tâm lý học, nhiều người tin vào cách tiếp cận nhưng lại không thể làm được.” Hinton cũng đã không thực hiện được, dù có chính phủ Canada hào phóng hỗ trợ. “Chỉ là ta không có một chiếc máy tính đủ mạnh hoặc không đủ dữ liệu mà thôi. Những người theo phe của chúng tôi tiếp tục nói, ‘Đúng vậy, nếu ta có một chiếc thực sự lớn, nó sẽ hoạt động.’ Đó không hẳn là một lý lẽ thuyết phục.”

3. Một giải thích chuyên sâu về việc học sâu

Khi Pichai nói rằng Google thời gian tới sẽ trở thành “A.I. đầu tiên”, ông không chỉ tuyên bố về chiến lược kinh doanh của công ty; mà cũng gắn kết số phận của công ty với ý tưởng chưa từng hoạt động này. Pichai đã phân phối tài nguyên để đảm bảo rằng những người như Dean sẽ chắc chắn những người như Hinton sẽ có đủ hạ tầng máy tính và dữ liệu để tạo ra lý lẽ thuyết phục. Một bộ não trung bình có khoảng 100 tỷ nơ ron. Mỗi nơ ron được kết nối lên đến 10.000 nơ ron khác, có nghĩa là số lượng các khớp thần kinh (synapse) nằm giữa khoảng 100 ngàn tỷ và 1.000 ngàn tỷ. Việc cố gắng thậm chí chỉ để thử tái tạo một mạng lưới nơ ron nhân tạo đơn giản như những gì được đề xuất vào những năm 1940 cũng là một điều không tưởng. Chúng ta vẫn còn cách xa việc xây dựng nên một mạng lưới với kích thước như thế. Nhưng việc đầu tư của Google Brain đã cho phép tạo ra những mạng lưới nơ ron nhân tạo có thể so sánh với bộ não của những chú chuột.

Tuy nhiên, để hiểu được vì sao vấn đề quy mô lại quan trọng đến vậy, ta phải bắt đầu bằng việc hiểu được một số khía cạnh mang tính kỹ thuật hơn về những gì trí tuệ máy móc đang thực hiện đối với những dữ liệu mà chúng tiêu thụ. Nỗi khiếp sợ phổ biến của chúng ta xoay quanh chủ đề A.I. dựa trên ý tưởng rằng chúng chỉ đang thu nạp những kiến thức tựa như một thiên tài điên khùng trong thư viện, và rằng trí tuệ nhân tạo được tạo ra để sản xuất những chiếc kẹp giấy một ngày nào đó sẽ đối xử với con người như loài sâu bọ (nguyên bản: ants or lettuce – loài kiến hay rau diếp). Ý tưởng đó chỉ là không đề cập đến việc chúng thực hiện điều đó như thế nào. Tất cả những gì chúng đang làm là sắp xếp lại thông tin về các điểm tương đồng tìm được – đầu tiên là những hình mẫu cơ bản, rồi sau đó là những thứ phức tạp hơn – và ít nhất thì tại thời điểm hiện tại, mối nguy hiểm đáng sợ nhất là những thông tin ta cung cấp cho chúng tại điểm khởi đầu bị sai lệch.

Nếu lời giải thích ngắn gọn trên đủ làm thỏa mãn, độc giả không rành về chuyên môn có thể bỏ qua đoạn dưới và chuyển đến đoạn kế tiếp (đề cập đến những chú mèo.) Còn nếu không, bạn có thể đọc tiếp. (May mắn thay, phần này cũng nói về những chú mèo.)

Thử tưởng tượng rằng bạn muốn có một chương trình nhận diện mèo trên hệ thống A.I. biểu tượng cũ (old symbolic-A.I. model). Bạn phải thức đến mấy ngày để tải vào máy một định nghĩa rõ ràng và thấu đáo về “con mèo.” Bạn nói cho chiếc máy rằng một con mèo thì có bốn cái chân và những chiếc tai nhọn và râu và một cái đuôi, và .v.v. Tất cả những thông tin này được lưu trữ tại một nơi đặc biệt trong bộ nhớ gọi là Mèo. Giờ đưa cho máy tính một bức hình. Đầu tiên, chiếc máy tách những chi tiết riêng biệt ra. Rồi sau đó lấy những chi tiết này và áp dụng những quy tắc đã lưu lại trong bộ nhớ máy. Nếu (chân=4) và nếu (tai=nhọn) và nếu (râu=có) và nếu (đuôi=có) và nếu (biểu hiện=kiêu kì), thì (mèo=đúng). Nhưng chuyện gì sẽ xảy ra nếu bạn đưa cho cỗ máy nhận diện này một con Scottish Fold, một giống mèo hết sức được yêu chuộng nhờ một khiếm khuyết đáng giá trong gen khiến cho chúng sở hữu đôi tai rũ xuống? A.I. biểu tượng của chúng ta sẽ dùng quy tắc (tai=nhọn) và lắc đầu một cách máy móc. “Không phải mèo.” Nó rất dễ mắc sai lầm. Thậm chí cả một đứa trẻ biết đi chậm nhất cũng có thể đưa ra một lý luận sắc sảo hơn được.

Giờ hãy tưởng tượng thay vì thực hiện thủ tục thiết lập một bộ các quy tắc nhận diện được lưu trữ tại một vị trí trong bộ nhớ máy tính, ta có thể thử một thứ tương tự trên mạng nơ ron. Sẽ không còn nơi đặc biệt nào để lưu giữ định nghĩa “con mèo” nữa cả, mà chỉ là một khối khổng lồ của những công tắc nối liền, như những ngã ba trên một con đường. Ta cung cấp những đầu vào (những bức ảnh) vào một bên và những đầu ra tương ứng (những nhãn hiệu) ở bên còn lại. Rồi bạn chỉ cần bảo nó tự luyện tập, thông qua việc định chuẩn riêng biệt tất cả những công tác nối liền này, mọi con đường dữ liệu nên sử dụng để những đầu vào được vạch ra đến đúng với đầu ra. Việc luyện tập là một quá trình mà nhờ nó một chuỗi các đường hầm phức tạp như mê cung được khai phá qua khối này, những đường hầm kết nối bất cứ đầu vào nào đến với đúng đầu ra đó. Càng có nhiều dữ liệu luyện tập, số lượng và độ phức tạp của đường hầm được khai phá sẽ càng lớn hơn. Một khi việc luyện tập hoàn thành, sẽ có đủ đường hầm bên trong để tạo ra những dự đoán đủ tin cậy về cách xử lý những dữ liệu chưa từng có trước đây. Điều này được gọi là “học dưới sự giám sát.”

Việc học dưới sự giám sát là một quá trình thử-và-sai dựa trên những dữ liệu được gắn nhãn.

Nguyên nhân mạng lưới cần nhiều nơ ron và dữ liệu như vậy là vì nó hoạt động theo một cách kiểu như một nền dân chủ máy móc khổng lồ. Thử tưởng tượng nếu bạn muốn huấn luyện cho một chiếc máy tính phân biệt 5 thứ khác nhau. Mạng lưới của bạn được tạo thành từ hàng triệu “cử tri” nơ ron, mỗi người được giao cho 5 tấm thẻ khác nhau: một tấm là mèo, một tấm là chó, một là khỉ nhện, một là chiếc thìa và một là chiếc máy khử rung. Bạn cho toàn bộ các cử tri thấy một tấm hình và hỏi: “ Đây là hình của thứ nào trong các thứ sau đây: một con mèo, một con chó, một con khỉ nhện, một cái muỗng, hay một chiếc máy khử rung?” Tất cả các nơ ron trả lời giống nhau được đưa vào một nhóm, và chủ tịch mạng lưới xem xét từ trên xuống dưới và xác định nhóm chiếm đa số: “Một con chó?”

Bạn nói: “Không, nhạc trưởng đại tài ạ, nó là một con mèo. Thử lại đi.”

Giờ chủ tịch mạng lưới quay lại để xác định nhưng cử tri nào đặt niềm tin vào “con mèo” và những cử tri nào thì không. Những cử tri nào đã trả lời đúng là “con mèo” thì phiếu của họ sẽ được tính gấp đôi cho lần bỏ phiếu kế tiếp – ít nhất là nếu họ còn bỏ phiếu cho “con mèo.” Họ phải tự chứng minh một cách độc lập dù họ cũng giỏi trong việc chọn ra những chú chó hay những chiếc máy khử rung, nhưng có một điều khiến mạng lưới nơ ron rất linh hoạt là mỗi đơn vị riêng lẻ có thể đóng góp một cách khác nhau vào những kết luận được mong muốn khác nhau. Thứ quan trọng không phải là lá phiếu riêng lẻ, mà là hình mẫu của những lá phiếu. Nếu Joe, Frank và Mary cùng bỏ phiếu, nó là con chó; nếu Joe, Kate và Jessica cùng bỏ phiếu, nó là con mèo; và nếu Kate, Jessica và Frank cùng bỏ phiếu, nó là một chiếc máy khử rung. Mạng lưới nơ ron chỉ cần ghi nhận đủ một tín hiệu rõ ràng đều đặn đâu đó để nói, “Lợi thế là, sự sắp xếp riêng biệt này của các điểm ảnh thể hiện một điều gì đó mà những người này gọi là ‘những chú mèo.’” Càng nhiều cử tri tham gia và càng nhiều lần bỏ phiếu, thì mạng lưới lại càng có thể ghi nhận một cách sắc sảo dù cho những tín hiệu có rất yếu đi chăng nữa. Nếu bạn chỉ có Joe, Frank và Mary, bạn có thể sử dụng họ chỉ để phân biệt một con mèo, một con chó, và một chiếc máy khử rung. Nhưng nếu bạn có hàng triệu cử trí khác nhau để cùng cộng tác theo hàng tỷ cách khác nhau, bạn sẽ có thể học cách phân loại dữ liệu với mức độ chi tiết đáng kinh ngạc. Nhóm cử tri đã được luyện tập của bạn sẽ có thể nhìn vào một bức ảnh chưa được dán nhãn và nhận dạng nó ít nhiều cũng chính xác.

Một phần nguyên nhân khiến cho có rất nhiều ý kiến phản đối những ý tưởng này trong các ban khoa học máy tính là vì đầu ra chỉ là một sự phỏng đoán dựa trên những hình mẫu của những hình mẫu, nó sẽ không trở nên hoàn hảo được, và cỗ máy sẽ chẳng bao giờ có thể định nghĩa cho ta một con mèo là gì, mà chỉ có thể chỉ ra chúng khi nó nhìn thấy chúng. Tuy nhiên, sự mơ hồ lại là một trọng điểm. Những cử tri sẽ nhận ra một chú mèo hạnh phúc đang mơ màng dưới nắng mặt trời và một chú mèo giận dữ đang trừng mắt trong bóng tối của cái ổ bừa bộn, miễn là chúng được cung cấp đủ hàng triệu cảnh đa dạng về mèo. Ta chỉ cần nhiều thật nhiều những cử tri – để đảm bảo rằng một vài phần của mạng lưới có thể nắm bắt được kể cả những quy luật hiếm gặp, ví dụ như những chú mèo giống Scottish Folds với đôi tai rũ – và đủ dữ liệu được gắn nhãn để đảm bảo mạng lưới có thể nhận thấy nhiều khả năng khác nhau nhất của hiện tượng.

Tuy nhiên, cần phải lưu ý một điểm quan trọng là thực tế những mạng lưới nơ ron về bản chất mang tính xác suất, có nghĩa là chúng không phù hợp cho tất cả mọi nhiệm vụ. Sẽ không có gì nghiêm trọng nếu nó nhận diện sai những chú mèo thành chó với xác suất 1 phần trăm, hoặc thi thoảng đưa nhầm phim cho ta, nhưng một thứ như lái xe tự động thì ta luôn cần thứ gì đó đảm bảo hơn. Đây không chỉ là một lời cảnh báo. Việc học dưới sự giám sát là một quá trình thử-và-sai dựa trên những dữ liệu được gắn nhãn. Các cỗ máy có thể thực hiện việc học, nhưng vẫn còn thành tố lớn của con người trong việc phân loại ban đầu của những đầu vào. Nếu dữ liệu của bạn có tấm ảnh của một người đàn ông và một người phụ nữ trong hai bộ com-lê được ai đó gắn nhãn “người phụ nữ cùng sếp của cô ấy,” mối quan hệ này sẽ được mã hóa vào việc nhận dạng hình mẫu tương lai. Dữ liệu được gắn nhãn vì vậy có thể bị lỗi theo cách người gắn nhãn mắc lỗi. Nếu một cỗ máy được yêu cầu nhận ra những con nợ đáng tin (con nợ có thể trả được nợ) cho các khoản vay, cỗ máy này có thể sử dụng dữ liệu giống như việc kết án phạm nhân mang trọng tội, nhưng nếu việc kết án này không công bằng ngay tại thời điểm ban đầu – nếu chúng được dựa trên những điều luật phân biệt đối xử với ma túy chẳng hạn – thì việc tiến cử con nợ đáng tin cho khoản vay tất yếu sẽ mắc lỗi.

Những mạng lưới nhận diện hình ảnh như hệ thống nhận diện mèo của chúng ta chỉ là một trong rất nhiều kiểu học sâu, nhưng chúng lại được viện dẫn nhiều cho việc giảng dạy vì việc thực hiện một điều gì đó của mỗi lớp ít nhất cũng có phần giống con người – chọn ra những cạnh trước, sau đó là những đường cung, rồi đến những khuôn mặt. Điều đó có nghĩa là có một giải pháp để chống lại vấn đề lỗi. Lấy ví dụ, phần mềm nhận diện hình ảnh của Google có một điểm kỳ quặc là không phải lúc nào cũng nhận diện được một thanh tạ nằm riêng lẻ, mặc dù đội ngũ đã huấn luyện cho nó bằng một bộ hình ảnh chứa rất nhiều loại hình thể dục. Một công cụ mô phỏng đã chỉ ra cho họ rằng chiếc máy đã không học khái niệm “quả tạ” mà là “quả tạ+cánh tay,” vì tất cả những quả tạ sử dụng trong quá trình huấn luyện đều gắn liền với những cách tay. Khi họ đưa vào việc huấn luyện một vài bức ảnh những chiếc tạ riêng lẻ, vấn đề này đã được giải quyết. Dù vậy không phải tất cả các vấn đề đều có thể được giải quyết một cách dễ dàng như vậy.

4. Chú mèo giấy

Trong suốt chặng đường một hai nằm đầu tiên của mình, những nỗ lực của Brain nhằm trau dồi cho các cỗ máy những kỹ năng của đứa bé một tuổi đã mang lại những triển vọng đủ để đội ngũ nghiên cứu được tốt nghiệp khỏi phòng thí nghiệm X và vào một tổ chức nghiên cứu rộng hơn. (Người đứng đầu Google X đã có lần lưu ý rằng Brain đã trả toàn bộ các chi phí của X.) Họ vẫn có ít hơn 10 người và chỉ ý thức mơ hồ về những gì sẽ xảy đến cuối cùng. Nhưng thậm chí ngay cả lúc đó họ vẫn đang nghĩ đến những gì xảy ra tiếp theo. Đầu tiên tâm trí của một người học cách nhận biết một quả bóng và nghỉ ngơi với những gì đạt được trong một lúc, nhưng sớm hay muộn thì tâm trí cũng sẽ muốn biết về quả bóng. Và sau đó chú tâm vào ngôn ngữ.

Bước đi đầu tiên theo hướng đó là chú mèo giấy, thứ đã giúp Brain trở nên nổi tiếng.

Điều mà chú mèo giấy đã chứng minh được là một mạng lưới nơ ron với một tỷ liên kết “khớp thần kinh” – lớn hơn một trăm lần so với bất kỳ mạng lưới nơ rơn nào từng được công khai tính đến thời điểm đó, nhưng hãy còn cách xa so với cấp độ não bộ chúng ta – có thể quan sát những dữ liệu thô, chưa được gắn nhãn và chọn ra một khái niệm tương đương với con người ở cấp độ cao. Những nhà nghiên cứu của Brain đã cho mạng lưới thấy hàng triệu khung hình tĩnh từ các video trên Youtube, và ngoài sự lộn xộn của chức năng cảm biến đơn thuần thì mạng lưới đã cô lập một hình mẫu cố định mà bất kỳ đứa trẻ vừa biết đi và con sóc chuột nào cũng sẽ nhận ra không chút ngập ngừng như mặt của một chú mèo. Cỗ máy không được lập trình bằng những điều đã biết về một chú mèo, nó tự tiếp cận trực tiếp vào thế giới và tự nắm bắt lấy ý tưởng. (Những nhà nghiên cứu đã khám phá ra điều này bằng một mạng lưới nơ ron tương tự máy M.R.I., giúp họ thấy được rằng một khuôn mặt mèo ma quái đã khiến những nơ ron nhân tạo đồng loạt “bỏ phiếu”.) Hầu hết sự học máy tính đến thời điểm đó bị giới hạn bởi số lượng những dữ liệu được gắn nhãn. Chú mèo giấy đã cho thấy những cỗ máy cũng có thể giải quyết cả những dữ liệu thô chưa được gắn nhãn, hay thậm chí có thể là cả những dữ liệu mà con người không biết trước. Đây dường như là một tiến bộ lớn không chỉ trong các nghiên cứu nhận dạng mèo mà cả trong tổng thể trí thông minh nhân tạo.

Tác giả chính của chú mèo giấy là Quốc Lê. Lê có vóc người nhỏ nhắn và nhanh nhẹn, với chất giọng nhẹ nhàng, nụ cười bí ẩn cùng đôi giày lười đen bóng. Ông lớn lên ở Huế, Việt Nam. Cha mẹ ông là những nông dân, và thời đó nhà ông chưa có điện. Khả năng toán học của ông thể hiện từ sớm, và ông được chuyển đến học tại một trường chuyên về khoa học. Trong những năm 1990, trong lúc đang học tại trường, ông đã thử xây dựng một chatbot (phần mềm trò chuyện với máy tính) để trò chuyện. Ông đã nghĩ, nó khó đến thế nào nhỉ?

“Nhưng thực tế thì,” ông nói đùa với tôi bằng một vẻ mặt khá nghiêm trọng, “nó rất khó.”

Nhận được học bổng tại một trường đại học ở Canberra, Australia, ông rời những cánh đồng lúa và bắt đầu làm việc trong những nhiệm vụ về A.I. như thị giác máy tính (computer vision). Phương pháp nổi trội trong thời gian này, bao gồm việc đưa vào máy tính những định nghĩa cho các thứ như góc là gì, khiến ông cảm thấy như đang gian lận. Lê đã không biết rằng khi đó, hoặc chỉ lờ mờ biết, có khoảng vài chục nhà khoa học máy tính trên thế giới không thể ngừng nghĩ về việc máy tính có thể học từ đầu, cũng giống như ông đang nghĩ vậy. Vào năm 2006, Lê được nhận vào một vị trí tại Viện Max Planck, bộ môn nghiên cứu Điều khiển học Sinh học (Biological Cybernetics) tại một thị trấn đại học cổ kính ở Tübingen, Đức. Trong một nhóm đọc tại đó, ông đã bắt gặp hai bài báo mới của Geoffrey Hinton. Những người gia nhập vào một cộng đồng mới trong khoảng thời gian dài rời khỏi quê hương đều có câu chuyện riêng về những biến chuyển của mình, và khi Lê đọc được những bài báo đó, ông đã cảm thấy mình được khai sáng.

“Một cuộc tranh luận lớn đã nổ ra,” ông nói. “Một cuộc tranh luận rất lớn.” Chúng tôi lúc đó ngồi trong một căn phòng hội thảo nhỏ, không gian hẹp với trần cao được trang bị chỉ mỗi một chiếc bàn nhỏ và hai tấm bảng trắng. Ông nhìn vào đường cong ông đã vẽ lên tấm bảng phía sau lưng và quay lại tâm sự nhẹ nhàng, “Tôi chưa bao giờ thấy một cuộc tranh luận lớn đến vậy.”

Ông nhớ lại mình đã đứng lên và nói, “Đây là tương lai.” Ông nói, “Nó là một quyết định lạ lùng tại thời điểm đó.” Nguyên cố vấn từ Australia, người ngồi kế ông, không hiểu quyết định của Lê. “Tại sao anh lại làm vậy?” ông hỏi Lê trong email.

“Tôi đã không có được câu trả lời hợp lý ở thời điểm đó,” Lê nói. “Tôi chỉ tò mò. Đã có sẵn một hình mẫu thành công, nhưng một cách thành thật thì tôi chỉ tò mò về một hình mẫu mới mà thôi. Vào năm 2006, có rất ít hoạt động diễn ra.” Ông đến để gia nhập cùng Ng tại Stanford và bắt đầu theo đuổi những ý tưởng của Hinton. “Cuối năm 2010, tôi khá tin rằng một điều gì đó đang sắp sửa đến.”

Điều diễn ra sau đó là Lê đến thực tập tại Brain, nơi ông tiếp tục luận án của mình – và phần mở rộng của luận án này cuối cùng trở thành chú mèo giấy. Nói đơn giản, Lê muốn xem thử có thể huấn luyện cho máy tính nhận ra thông tin của chính nó (mà hoàn toàn thuộc bản chất) từ một bức ảnh được cung cấp hay không. Ông cấp cho mạng nơ ron một cảnh lấy từ Youtube. Rồi bảo mạng nơ ron loại bỏ một số thông tin chứa trong bức ảnh, mặc dù ông không xác định cái gì nên, hay không nên loại bỏ. Cỗ máy đã loại bỏ một số thông tin, ban đầu thì ngẫu nhiên. Ông tiếp tục nói: “Đùa thôi! Giờ hãy tạo lại bức ảnh con (ám chỉ cỗ máy) được cung cấp chỉ dựa vào những thông tin con còn giữ lại đi.” Cỗ máy đã thực hiện như ông yêu cầu bằng việc tìm cách “tổng kết” bức ảnh, và sau đó mở rộng trở lại thành bản gốc dựa trên thứ tổng kết được. Nhưng nếu thứ tổng kết được dựa trên dữ liệu không thích hợp – như màu của bầu trời chứ không phải sự có mặt của những cái râu – thì cỗ máy cũng không thể tái xây dựng lại tốt được. Phản ứng của cỗ máy sẽ giống như một người tiền sử chỉ kịp nghe tiếng sột soạt nhẹ của những chú hổ răng kiếm tạo nên khi di chuyển. Mạng nơ ron của Lê, không giống với người tiền sử này, sẽ thử lại lần nữa, lần nữa lần nữa và lần nữa. Mỗi một lần mạng lưới “lựa chọn” theo toán học để phân cấp ưu tiên cho những mẩu thông tin khác nhau và thực hiện tốt lên dần. Tuy nhiên, mỗi mạng lưới lại là một chiếc hộp đen. Nó tiên đoán trước các hình mẫu, nhưng những hình mẫu mà nó nhận dạng được không phải lúc nào cũng mang tính trực quan cho người quan sát. Cùng một mạng lưới tìm ra được khái niệm về mèo của chúng ta cũng có thể hăng hái với một hình mẫu giống với một số loại nội thất thiết kế lai với động vật (furniture-animal), ví dụ như một chiếc ghế nệm dài lai với một chú dê.

Lê không thấy mình giống một nhà ngôn ngữ trong những năm tháng say đắm với mèo, nhưng ông cảm thấy thôi thúc phải liên hệ với ý tưởng chatbot ban đầu của ông. Sau chú mèo giấy, ông nhận ra rằng nếu ta có thể yêu cầu một mạng lưới tổng kết một bức hình, thì ta cũng có thể yêu cầu nó tổng kết một câu. Vấn đề này đã ám ảnh Lê, cùng với một cộng sự tại Brain tên Tomas Mioklov, trong hai năm kế tiếp.

Trong thời gian này, đội ngũ Brain đã phát triển rất nhiều văn phòng xung quanh ông. Chỉ trong thời gian trước họ vẫn còn chia sẻ khu làm việc với các giám đốc. Họ nhận được một email yêu cầu dừng việc cho phép mọi người ngủ tại các băng ghế dài trước dãy phòng của Larry Page và Sergey Brin. Điều đó gây ảnh hưởng đến những nhân vật quan trọng. Sau đó họ được sắp xếp làm tại một phần của tòa nhà nghiên cứu phía bên kia đường, nơi những cuộc trao đổi của họ tại căn bếp nhỏ sẽ thoải mái hơn so với những cuộc trò chuyện lịch sự với những bộ com-lê. Thời gian chuyển tiếp đó cũng đã chứng kiến những nỗ lực của một phần những đối thủ của Google để bắt kịp. (Như Lê nói với tôi về sự hợp tác chặt chẽ của ông với Tomas Mikolov, ông đã tiếp tục nhắc đi nhắc lại tên của Mikolov, nhưng nghe có vẻ chua xót. Lê trông chưa bao giờ nghiêm nghị như vậy. Tôi cuối cùng cũng không thể ngăn mình được và bắt đầu hỏi, “Có phải ông ấy…?” Lê gật đầu. “Tại Facebook,” ông đáp.)

Trong giai đoạn này họ đã tìm ra những cấu trúc mạng lưới nơ ron có thể cung cấp không chỉ việc phân loại những bức ảnh đơn giản, vốn là những cấu trúc tĩnh, mà còn cả những cấu trúc phức tạp có thể mở rộng theo thời gian, như ngôn ngữ hoặc âm nhạc. Rất nhiều trong số này đã được đề xuất lần đầu tiên vào những năm 1990, và Lê cùng những cộng sự của ông đã quay lại những đóng góp từng bị bỏ qua trong thời gian dài để xem liệu họ có thể thu hoạch được gì không. Họ đã biết rằng một khi ta thiết lập được một cơ sở với khả năng dự đoán ngôn ngữ cơ bản, ta có thể tiếp tục thực hiện những loại nhiệm vụ thông minh khác – ví dụ như dự đoán bản phản hồi hợp lý cho một email, hay dự đoán diễn biến hợp lý cho một cuộc trò chuyện. Bạn có thể tiến đến những loại năng lực, ít nhất là nhìn từ bên ngoài, trông rất giống suy nghĩ con người.

Bạn có thể theo dõi tiếp Phần 2 ở đây.

Thích bài này? Bạn thích zeal, thích sự không-quảng-cáo của website, và muốn zeal phát triển hơn? Chung tay góp sức cho một cộng đồng cùng lan tỏa trí tò mò ở đây nhé.

4. Chú mèo giấy

Leave a Reply Cancel reply