Editors' choice! Xem thêm các bài hay nhất của zeal tại đây.
a
§ Tác giả: Gideon Lewis - Kraus | Nguồn: The New York Times
Biên dịch: Minh Nhật | Hiệu đính:  Dexter
31/08/2017
Phần tiếp theo của câu chuyện áp dụng trí tuệ nhân tạo trong công cụ Google Translate. Bạn có thể đọc Phần 1 ở đây.

 

Phần II: Cỗ máy ngôn ngữ

5. Bước ngoặt về ngôn ngữ

Tầm một trăm nhân viên hiện tại của Brain – trông không giống một ban tại một tập đoàn khổng lồ mà giống như một câu lạc bộ, một hội sinh viên xuất sắc, hay một quán bar liên ngân hà hơn – gia nhập vào những năm giữa giai đoạn này để trở thành những nhân viên tự do nhất và được ngưỡng mộ nhất khắp nơi trong toàn bộ tổ chức Google. Hiện họ được phân ra làm bốn trong một tòa nhà hình vỏ trứng hai tầng, với những chiếc cửa sổ lớn phủ màu xám than u ám, tại bìa rừng rậm rạp phía Tây Bắc khuôn viên Mountain View của công ty. Căn bếp nhỏ nhắn của họ có một chiếc bàn bi lắc và một máy Rock Band tôi chưa bao giờ thấy sử dụng; và một bộ cờ vây chỉ dùng trong một vài dịp (Tôi có lần thấy một cộng sự nghiên cứu trẻ của Brain giới thiệu cho các đồng nghiệp quả mít chín, tạo hình quả cầu gai khổng lồ giống như một chú gà tây.)

Khi tôi bắt đầu dành thời gian tại các văn phòng của Brain vào tháng Sáu, vẫn có một số dãy bàn trống, còn hầu hết đều được dán những mẩu ghi chú Post-in với nội dung như “Jesse, 6/27.” Còn giờ thì tất cả đã được phủ kín. Lần đầu tôi đến đây, việc đậu xe không phải là một vấn đề lớn. Những vị trí gần nhất được dành cho những thai phụ hoặc xe Teslas, nhưng vẫn còn rất nhiều chỗ trống khác. Đến khoảng tháng Mười, nếu đến sau 9:30 thì tôi phải tìm cho mình một chỗ bên kia đường.

Sự phát triển của Brain khiến cho Dean có chút lo ngại về việc làm thế nào công ty có thể giải quyết nhu cầu thị trường. Ông muốn tránh trường hợp mà tại Google gọi là “thảm họa của sự thành công” – một tình huống mà năng lực của công ty trong lý thuyết vượt qua khả năng cung cấp sản phẩm trong thực tế. Tại một thời điểm, ông đã thực hiện một số tính toán nhanh, và thuyết trình về chúng cho các giám đốc trong một buổi thuyết trình chỉ gồm hai slide.

Ông nói: “Nếu trong tương lai mọi người danh ba phút mỗi ngày để nói chuyện vào chiếc điện thoại Android của họ, đây sẽ là số lượng máy móc mà chúng ta cần.” Họ sẽ cần gấp đôi đến gấp ba lần dấu chân điện toán trên toàn cầu của họ.

“Điều đó,” ông dõi theo với một tiếng nuốt có phần cường điệu hóa và đôi mắt mở rộng, “nghe có vẻ đáng sợ. Như vậy sẽ phải” – ông ngập ngừng để tưởng tượng ra điều kế tiếp – “xây dựng những tòa nhà mới.”

Tuy nhiên, cũng còn một lựa chọn khác: chỉ cần thiết kế, sản xuất hàng loạt và cài đặt một loại chip mới tại những trung tâm dữ liệu phân tán để giúp mọi thứ trở nên nhanh hơn. Những con chip này sẽ được gọi là T.P.U1, hay “những đơn vị xử lý tensor,” và giá trị chúng mang lại – một cách khác thường – là chúng cố tình ít chính xác hơn so với những con chip thông thường. Thay vì tính toán 12,246 nhân với 54,392 thì chúng sẽ cho bạn đáp án đại khái của 12 nhân 54. Ở cấp độ toán học, hơn là một thứ có tính ẩn dụ, một mạng lưới nơ ron chỉ là một chuỗi trật tự của hàng trăm hoặc hàng ngàn hoặc hàng vạn phép nhân ma trận thực hiện liên tiếp, và quan trọng hơn là những quá trình này phải nhanh thay vì chính xác. “Thông thường,” Dean nói,” một phần cứng phục vụ một mục đích đặc biệt là một ý tưởng tồi. Nó thường hoạt động chỉ để tăng tốc độ cho một thứ. Nhưng bởi vì những mạng lưới nơ ron có tính tổng quát, ta có thể tận dụng loại phần cứng phục vụ mục đích đặc biệt này cho rất nhiều tác vụ khác nữa.”

Giá trị độc đáo mà những con chip T.P.U mang lại là chúng cố tình ít chính xác hơn so với những con chip thông thường.

Vừa lúc quá trình thiết kế chip gần hoàn thành thì Lê và hai cộng sự cuối cùng cũng đã chứng minh được rằng có thể định dạng mạng lưới nơ ron để xử lý cấu trúc ngôn ngữ. Ông rút ra một ý tưởng, gọi là “những sự gắn kết từ ngữ,” thứ đã luẩn quẩn trong đầu ông hơn 10 năm qua. Khi ta tổng kết những bức ảnh, ta có thể phán đoán ra được một bức tranh từ những gì mỗi giai đoạn sự tổng kết mang lại – một cạnh, một đường cung, .v.v. Khi ta tổng kết ngôn ngữ theo cách tương tự, về cơ bản ta sẽ tạo ra những tấm bản đồ đa chiều về khoảng cách, dựa trên mức độ phổ biến, giữa một từ và mỗi một từ đơn khác trong ngôn ngữ. Cỗ máy không “phân tích” dữ liệu theo cách chúng ta làm, với những quy tắc ngôn ngữ như xác định một số là danh từ và một số khác là động từ. Thay vào đó, chúng di chuyển và bện xoắn và làm biến đổi các từ xung quanh trong bản đồ. Trong không gian hai chiều, ta không thể thấy tấm bản đồ này phát huy tác dụng. Ví dụ ta muốn “mèo” nằm trong vùng phụ cận thô của “chó,” nhưng đồng thời bạn cũng muốn “mèo” nằm gần “đuôi,” “kiêu kỳ”, và “truyền rất nhanh trên internet (meme)”, bởi vì ta muốn cố gắng nắm bắt tất cả những mối quan hệ khác nhau – cả mạnh lẫn yếu – của từ “mèo” với những từ khác. Nó chỉ có thể đồng thời liên kết tất cả những từ này trong trường hợp nó liên kết với mỗi từ tại mỗi chiều khác nhau. Ta không thể dễ dàng tạo ra được một tấm bản đồ 160.000 chiều, thế nhưng ta lại có thể thể hiện ngôn ngữ khá tốt chỉ trong tầm một ngàn chiều – nói cách khác, một vũ trụ mà trong đó mỗi từ được chọn ra bởi một danh sách chứa một ngàn con số. Lê đã dội cho tôi một gáo nước để đáp lại những thỉnh cầu liên miên của tôi về hình dung về những tấm bản đồ này. “Gideon,” ông từ chối thẳng một cách nhẹ nhàng, “tôi thường không cố hình dung ra các vector một ngàn chiều trong một không gian ba chiều đâu.”

Dù vậy, hóa ra những chiều đã biết trong không gian dường như lại thể hiện những khía cạnh con người biết rõ, như giới tính và kích thước tương đối. Nếu ta lấy một ngàn con số mang nghĩa “vua” và theo nghĩa đen chỉ loại trừ một ngàn con số mang nghĩa “hoàng hậu,” bạn sẽ có cùng một kết quả số học với khi bạn loại trừ những con số mang nghĩa “phụ nữ” ra khỏi những con số mang nghĩa “đàn ông.” Và nếu bạn dành toàn bộ không gian của tiếng Anh và toàn bộ của tiếng Pháp, ít nhất về mặt lý thuyết thì bạn cũng có thể huấn luyện cho một mạng lưới học được cách làm thế nào để tạo ra một câu trong khoảng trống và đặt ra một câu tương tự trong một khoảng trống khác. Bạn chỉ phải cung cấp cho nó hàng triệu triệu câu tiếng Anh làm đầu vào một bên và những đầu ra mong muốn bằng tiếng Pháp ở bên còn lại, và theo thời gian nó sẽ nhận ra những hình mẫu liên quan trong các từ cũng giống như cách mà một cỗ máy phân loại hình ảnh nhận ra những hình mẫu liên quan trong các điểm ảnh. Sau đó bạn có thể cung cấp một câu tiếng Anh và yêu cầu dự đoán một câu tiếng Pháp tương xứng nhất.

Tuy nhiên, điểm khác biệt chính giữa các từ và điểm ảnh là tất cả các điểm ảnh trong một bức ảnh xuất hiện cùng lúc, trong khi các từ lại xuất hiện theo một tiến trình. Bạn cần một phương thức để mạng lưới có thể “giữ trong tâm trí” sự phát triển của một chuỗi xuất hiện theo trình tự thời gian – một con đường hoàn chỉnh từ từ đầu tiên đến từ cuối cùng. Trong khoảng thời gian một tuần vào tháng Chín năm 2014, có ba bài báo đã được xuất bản – một bài của Lê và hai bài còn lại là của các học viên tại CanadaĐức – đề cập đến việc cuối cùng thì các công cụ lý thuyết cần thiết cũng đã được tạo ra để thực hiện những nhiệm vụ này. Nghiên cứu này tạo ra một cách tiếp cận mới cho những dự án mở như Magenta của Brain, nghiên cứu về cách thức máy móc có thể tạo ra nghệ thuật và âm nhạc như thế nào. Nghiên cứu cũng giúp dọn sạch con đường đến với dịch máy. Hinton nói với tôi rằng lúc đó ông đã nghĩ công việc tiếp theo sẽ phải tốn ít nhất năm năm nữa.

 

6. Cuộc phục kích

Bài báo của Lê chỉ ra rằng việc phiên dịch ngôn ngữ bằng mạng nơ ron là có thể thực hiện được, và ông chỉ dùng một bộ dữ liệu chung tương đối nhỏ. (Nhỏ đối với Google, nhưng thực chất đó là bộ dữ liệu chung lớn nhất trên thế giới. Và suốt một thập kỷ phát triển, công cụ Translate phiên bản cũ ấy đã sản xuất ra lượng dữ liệu lớn gấp một trăm đến một ngàn lần so với ban đầu.) Quan trọng hơn là, mô hình của Lê lại làm việc không tốt lắm với những câu dài hơn bảy từ.

Mike Schuster, khi đó là một nhà nghiên cứu tại Brain, lên nắm quyền chỉ huy. Ông biết rằng nếu Google không tìm ra được cách để mở rộng những hiểu biết từ cấp độ lý thuyết lên cấp độ sản xuất thì sẽ có người khác làm. Dự án tiêu tốn hai năm kế tiếp của ông. “Anh có thể nghĩ rằng,” Schuster nói, “để dịch thứ gì đó, ta chỉ cần lấy dữ liệu, cho chạy những thử nghiệm và ta sẽ có kết quả, nhưng thực tế không phải như vậy.”

Schuster có vóc người rắn chắc cùng nước da rám nắng, quả đầu hình pít-tông và bờ vai hẹp, phong thái tập trung và nhìn ông trẻ hơn so với tuổi của mình. Ông mặc chiếc quần lửng họa tiết quân đội thắt dưới gối và mang đôi Nike Flyknits xanh dạ quang. Trông ông như thức dậy từ tư thế hoa sen yoga, với tay lấy chiếc kính nhỏ không vành hình elip, nạp calo bằng một khẩu phần ăn giản dị với quả sồi được bảo quản và hoàn thành một cuộc thi mười môn nhẹ nhàng trên sa mạc trong lúc trên đường đến văn phòng; mà thực tế như ông nói thì chỉ có 18 dặm  (gần 30 km) đi xe đạp thôi. Schuster lớn lên tại Duisburg, một quận cũ của Tây Đức, học kỹ sư điện trước khi đến Kyoto làm việc với những mạng lưới nơ ron thời kỳ đầu. Trong những năm 1990, ông thực hiện những thí nghiệm với một cỗ máy mạng lưới nơ ron lớn ngang với một căn phòng hội nghị; cỗ máy tiêu tốn hàng triệu đô la và phải được huấn luyện nhiều tuần để thực hiện điều mà giờ đây bạn có thể làm trên máy tính để bàn của mình không quá một giờ. Năm 1997, ông xuất bản một bài báo gần như không được ai chú ý trong suốt một thập kỷ rưỡi; vậy mà nó được trích dẫn đến khoảng 150 lần chỉ trong năm nay. Ông không phải là con người hài hước, mà thường biểu lộ sự nghiêm khắc, như một sự kết hợp tính tự chủ của người Đức và người Nhật.

Schuster phải giải quyết những vấn đề phức tạp. Đầu tiên là bộ mã được Lê viết theo nhu cầu không tương thích với TensorFlow, một chương trình học máy mã nguồn mở dựa trên nền tảng của Google được phát triển sau đó. Mùa thu năm 2015, Dean giao cho Schuster hai kỹ sư khác là Yonghui Wu và Zhifeng Chen. Phải tốn mất hai tháng trời họ mới tạo nên được một bản sao sản phẩm của Lê trên hệ thống mới. Lê đã ở bên cạnh họ, nhưng thậm chí cả như vậy thì đôi khi ông cũng không nắm bắt nổi những gì họ đang làm.

Như Schuster nói, “Một số phần thậm chí còn không được hoàn thiện trong lúc tỉnh táo. Nên có lúc họ cũng không biết làm sao chúng lại hoạt động được.”

Vào tháng Hai, tổ chức nghiên cứu Google – đơn vị không rõ ràng nhất của công ty, với xấp xỉ một ngàn nhân viên tất cả, không thể phân loại được và có nhiệm vụ lên kế hoạch định hướng tương lai – đã triệu tập những người lãnh đạo của mình trong một buổi họp kín bên ngoài công ty ở Khách sạn Westin St. Francis, tại Trung tâm thương mại Union Square, một khách sạn sang trọng chỉ kém tráng lệ hơn đôi chút so với cửa hàng ở San Francisco của Google cách đó tầm 1 dặm (khoảng một 1,6 km) về phía Đông. Buổi sáng của cuộc họp dành cho “những cuộc trao đổi chớp nhoáng,” những cập nhật nhanh để nắm được tổng quát toàn bộ nghiên cứu, và buổi chiều cho những “cuộc trao đổi thoải mái” giữa các phòng ban. Buổi họp kín được hy vọng sẽ mang đến một cơ hội cho những cuộc trao đổi không đoán trước, trao đổi chéo, như những cuộc trao đổi phòng thí nghiệm Bell Labs có thể giúp cho việc phát minh, sáng tạo của công ty luôn đạt hiệu quả cao.

“Anh có thể nghĩ rằng để dịch thứ gì đó, ta chỉ cần lấy dữ liệu, cho chạy những thử nghiệm và rồi ta sẽ có được kết quả, nhưng thực tế không phải như vậy.”

Vào giờ ăn trưa, Corrado và Dean cùng tìm Macduff Hughes, giám đốc của Google Translate. Hughes đang ăn trưa một mình, và hai thành viên Brain ngồi xuống kế hai bên ông. Như Carrado nói, “Chúng tôi phục kích anh ấy.”

“O.K.,” Corrado giữ giọng để tạo ấn tượng với Hughes (lúc ấy đang cảnh giác). “Chúng tôi có vài điều muốn nói với anh.”

Họ bảo với Hughes rằng năm 2016 sẽ là thời điểm thích hợp để tiến hành tu bổ Google Translate – một chương trình được hàng trăm kỹ sư viết nên trong suốt 10 năm qua – bằng mạng lưới nơ ron. Hệ thống cũ đã hoạt động theo cách thức mà tất cả các công cụ dịch máy đã thực hiện trong gần 30 năm: Cô lập từng mẩu câu liên tiếp, tra các từ trong bảng từ vựng được thống kê, rồi áp vào một bộ các quy tắc xử lý trạm để xác định những kết quả phù hợp và sắp xếp lại toàn bộ sao cho có nghĩa. Cách tiếp cận này được gọi là “dịch máy dựa vào cụm từ theo thống kê,” vì tại thời điểm hệ thống nhận cụm từ kế tiếp, nó không biết cụm từ vừa dịch là gì. Đó là lý do tại sao Translate thỉnh thoảng lại cho ra kết quả như một túi nam châm tủ lạnh bị cầm lắc lên vậy. Sự thay thế của Brain sẽ đọc và trả lại toàn bộ các câu trong một bản thảo. Nó sẽ nắm bắt được ngữ cảnh – và thứ gì đó khá giống với ý nghĩa.

Khoản cược có vẻ thấp: Translate đang tạo ra khoản lợi nhuận rất nhỏ, và chắc chắn rằng cũng sẽ luôn như vậy trong tương lai. Đối với hầu hết những người dùng sử dụng tiếng Anh như tiếng mẹ đẻ thì thậm chí một nâng cấp triệt để trong hiệu suất dịch vụ cũng hiếm khi được hoan nghênh hơn một cú hích mạnh mẽ về lợi nhuận như kỳ vọng. Nhưng trong trường hợp này, dịch máy với chất lượng tương đương với con người không chỉ là một nhu cầu ngắn hạn mà còn là một sự phát triển có vẻ rất thích hợp, trong thời gian dài, để đạt được bước chuyển hóa. Trong một tương lai gần, nó sẽ trở thành một vấn đề sống còn đối với chiến lược kinh doanh của công ty. Google ước tính có đến 50% mạng lưới Internet sử dụng tiếng Anh, thứ ngôn ngữ của khoảng 20% dân số thế giới. Nếu Google định cạnh tranh tại Trung Quốc – nơi một phần lớn thị phần máy tìm kiếm thuộc về đối thủ Baidu – hoặc tại Ấn Độ, thì chương trình dịch máy sẽ trở thành một phần không thể thiếu trong cơ sở hạ tầng. Bản thân Baidu cũng đã xuất bản một bài báo công bố triển vọng về chương trình dịch máy nền tảng nơ ron vào tháng Bảy năm 2015.

Và xa hơn nữa trong tương lai, dịch máy có thể là bước đầu tiên để tiến đến một cơ sở điện toán tổng hợp bằng ngôn ngữ con người. Đây sẽ là một bước ngoặt quan trọng – hoặc có lẽ là một bước ngoặt quan trọng đã được biết đến – trong sự phát triển của thứ gì đó tạo cảm giác như một trí tuệ nhân tạo thực sự.

Hầu hết mọi người tại Thung lũng Silicon đều đã nhận thức được học máy là một tương lai đang đến gần, nên Hughes đã biết những cuộc phục kích như thế này sẽ xuất hiện. Nhưng ông vẫn giữ sự ngờ vực của mình. Hughes là một người đàn ông trung niên giản dị, có tầm vóc với mái tóc rối màu nâu vàng pha xám tro hai bên thái dương. Ông là một kỹ sư cổ điển, kiểu như một nghệ nhân không rời khỏi bàn cho đến khi hoàn tất bản phác thảo chiếc Boeing những năm 1970. Túi quần jean của ông luôn chùng xuống bởi những dụng cụ kỳ quặc có kích thước lớn, như khi ông đeo quanh những chiếc thước cuộn và cặp nhiệt điện, và không giống với nhiều thành viên trẻ tuổi làm cùng, ông có một tủ quần áo với các vật dụng chẳng mấy liên quan đến nơi ông làm. Ông biết rằng những người khác tại những vị trí khác trong Google và nhiều nơi khác nữa cũng đang cố gắng khiến việc dịch thuật nền tảng nơ ron hoạt động – không chỉ ở cấp độ thí nghiệm mà cả ở cấp độ sản xuất – trong nhiều năm, nhưng không đem lại kết quả.

Hughes lắng nghe trường hợp của họ, rồi cuối cùng trả lời một cách thận trọng rằng nó khiến ông cảm thấy có thể phải mất đến ba năm nữa mới thực hiện được.

Dean lại nghĩ khác. “Nếu đặt hết tâm trí vào, chúng tôi có thể hoàn thiện được nó vào cuối năm nay.” Một lý do khiến mọi người rất yêu mến và khâm phục Dean là vì ông có một danh sách thành công dài với những gì ông đặt tâm trí vào. Một lý do khác nữa là ông không bao giờ cảm thấy ngượng ngùng khi nói ra những điều chân thật như “nếu chúng tôi đặt hết tâm trí vào.”

Hughes chắc rằng việc chuyển đổi không thể diễn ra sớm như vậy được, nhưng ông không lấy ý kiến cá nhân của mình làm nguyên nhân. “Hãy chuẩn bị cho năm 2016,” ông quay lại và nói với đội ngũ của mình. “Tôi sẽ không phải là người nói rằng Jeff Dean không thể đạt được tiến độ.”

Một tháng sau, họ cuối cùng đã có thể chạy một thí nghiệm song song để so sánh hệ thống mới của Schuster với hệ thống cũ của Hughes. Schuster muốn thực hiện phiên dịch giữa tiếng Anh sang tiếng Pháp, nhưng Hughes đã khuyên ông nên thử một thứ gì đó khác hơn. Ông nói rằng, “việc phiên dịch giữa tiếng Anh sang tiếng Pháp đang rất tốt rồi nên sự cải tiến sẽ không thể hiện rõ ràng được.”

Đó là một thách thức mà Schuster không thể từ chối. Chỉ số điểm chuẩn để đánh giá khả năng dịch máy có tên là BLEU, chỉ số này so sánh một bản dịch máy với một bản dịch được tổng hợp từ rất nhiều bản dịch đáng tin cậy của người dịch. Vào thời điểm đó, điểm BLEU cao nhất cho việc phiên dịch giữa tiếng Anh và tiếng Pháp đạt trong khoảng 20. Việc cải thiện thêm một điểm được xem là rất tốt; còn việc cải thiện thêm hai điểm được xem là nổi bật.

Hệ thống nơ ron, thực hiện phiên dịch trên cặp ngôn ngữ Anh – Pháp, đã cho thấy một cải tiến vượt xa hệ thống cũ đến bảy điểm.

Hughes nói với độ ngũ của Schuster rằng họ đã không thể đạt được thậm chí một nửa mức độ cải tiến như vậy đối với hệ thống của họ trong bốn năm trở lại đây.

Để đảm bảo rằng không có may mắn trong quá trình tính điểm, họ cũng đã chuyển cho nhóm người phiên dịch đánh giá để thực hiện so sánh song song. Những điểm nhận thức người dùng, trong đó những câu mẫu được đánh điểm từ không đến sáu, thể hiện một sự cải tiến trung bình đạt 0,4 – kết quả tương đương với toàn bộ những thành tựu gộp lại trong suốt toàn bộ quá trình phát triển của hệ thống cũ.

Giữa tháng Ba, Hughes gửi đến đội ngũ của ông một email, yêu cầu hoãn tất cả các dự án thực hiện trên hệ thống cũ lại ngay lập tức.

Hình ảnh một căn bếp nhỏ tại văn phòng Google ở Chelsea Market, New York. Nguồn: Flickr

 

7. Lý thuyết trở thành sản phẩm

Cho đến thời điểm đó, đội ngũ dịch thuật nơ ron chỉ có vỏn vẹn ba người – Schuster, Wu và Chen – nhưng với sự hỗ trợ của Hughes, những nhóm lớn hơn đã bắt đầu sáp nhập. Họ gặp nhau dưới sự lãnh đạo của Schuster vào lúc 2 giờ chiều mỗi thứ tư hàng tuần tại một phòng góc trong tòa nhà Brain mang tên Quartz Lake. Buổi họp thường có sự tham gia xoay vòng của khoảng hơn chục thành viên. Khi Hughes hay Corrado có mặt thì họ thường là những người nói tiếng Anh bản ngữ duy nhất. Trong buổi họp, các kỹ sư giao tiếp với nhau bằng tiếng Trung Quốc, tiếng Việt, tiếng Ba Lan, tiếng Nga, tiếng Ả-rập, tiếng Đức, và tiếng Nhật, mặc dù hầu như họ đều nói theo cách bồi của riêng mình, và họ dùng toán học. Việc giao tiếp không phải lúc nào cũng hoàn toàn rõ ràng tại Google, thế nhưng điều đó lại hoàn toàn ngược lại trong trường hợp của Schuster.

Những bước tiếp theo cần phải đi, thậm chí vào thời điểm đó, cũng không mấy rõ ràng. “Đây là câu chuyện chứa toàn những điều mơ hồ, và sự mơ hồ này hiện hữu trong suốt cả toàn bộ quá trình,” Schuster nói với tôi. “Phần mềm, dữ liệu, phần cứng, nhân lực. Nó giống như đang” – ông mở rộng hai cánh tay dài mảnh khảnh, gập nhẹ khuỷu tay, từ đôi vai hẹp của mình – “bơi trong một biển bùn lớn, và ta chỉ có thể trông thấy chúng trong khoảng tầm này.” Ông giữ cánh tay cách ngực khoảng tám inch. “Có một cái đích đâu đó ngoài kia, nhưng ngay cả điều đó cũng chỉ là có thể mà thôi.”

Hầu hết các phòng hội nghị tại Google đều có màn hình chat video, lúc không dùng đến những màn hình này sẽ chiếu các bức ảnh phổ biến từ Google+ với độ phân giải cực cao về những cảnh rừng huyền ảo, Bắc cực quang hay tòa nhà Quốc hội . Schuster làm bộ hướng về một trong những màn hình, trên đó là một bức tranh tĩnh long lanh về Đài tưởng niệm Washington vào buổi đêm.

“Khung cảnh bên ngoài là thứ mà mọi người có ống nhòm đều có thể thấy trước đang nằm ở rất xa.”

Những bước tiếp theo cần phải đi, thậm chí vào thời điểm đó, cũng không mấy rõ ràng.

Để đưa việc nghiên cứu lý thuyết đạt được những thành tựu như thế đã rất khó khăn và tốn nhiều thời gian, nhưng nỗ lực để chuyển nghiên cứu ấy thành một sản phẩm có thể trụ vững – phần mà những nhà khoa học hàn lâm cho rằng chỉ là kỹ thuật “đơn thuần” và có thể bỏ qua – cũng không phải đơn giản. Nguyên nhân là bởi họ phải đảm bảo rằng chúng được đào tạo dựa trên những dữ liệu phù hợp. Hàng tỷ từ vựng của Google được sử dụng để huấn luyện “việc đọc” chủ yếu là các câu hoàn chỉnh với độ phức tạp ở mức vừa phải, giống như những gì bạn có thể tìm được trong các tác phẩm văn học của Hemingway. Một số thì thuộc lĩnh vực phổ biến: Phiến Rosetta Stone2 nguyên bản của chương trình dịch máy thống kê là hàng triệu trang toàn bộ hồ sơ song ngữ của Quốc hội Canada. Tuy nhiên, phần lớn được chắt lọc từ những dữ liệu thu thập được trong suốt 10 năm, gồm các bản dịch nổi bật từ những người dịch phản hồi nhiệt tình. Đội ngũ có khoảng 97 triệu “từ” tiếng Anh độc nhất trong kho của họ. Nhưng khi họ loại bỏ đi những ký tự cảm xúc (emoticon), những từ sai chính tả, và những từ dư thừa, thì họ đã có được một bộ từ vựng dùng được chỉ tầm 160.000 từ.

Tiếp theo ta phải tập trung vào những gì người dùng thực sự muốn dịch. Đó là những thứ đòi hỏi khối lượng từ vựng ít hơn nhiều so với những gì ta cung cấp cho mạng lưới. Google nhận ra rằng, rất nhiều người không sử dụng dịch vụ để dịch những câu hoàn chỉnh và phức tạp; thay vào đó họ lại dịch những mẩu ngôn ngữ nhỏ không tự nhiên. Nếu ta muốn mạng lưới có thể xử lý được luồng truy vấn của người dùng, bạn phải chắc rằng có thể định hướng được mạng lưới theo hướng đó. Mạng lưới rất nhạy với dữ liệu sử dụng cho việc huấn luyện. Như Hughes có nói với tôi: “Hệ thống dịch thuật nơ ron đang học tất cả mọi thứ có thể. Như một đứa trẻ mới biết đi vậy. ‘Ồ, Bố hay nói từ đó khi ông cáu lên!’”. Ông cười. “Ta phải thật sự cẩn thận.”

Tuy vậy, trên hết là họ cần đảm bảo toàn bộ quá trình dịch thuật phải được thực hiện nhanh chóng và đáng tin cậy đủ để người dùng không nhận ra được. Vào tháng Hai, việc dịch một câu 10 từ đã phải tốn hết 10 giây. Họ sẽ không bao giờ được giới thiệu bất cứ thứ gì chậm chạp như vậy. Đội ngũ Translate bắt đầu thực hiện những thí nghiệm ẩn với một phần nhỏ người dùng, dưới hình thức chậm trễ giả, để xác định mức độ chấp nhận của người dùng. Họ nhận ra rằng một bản dịch mất thời gian gấp hai lần, hoặc thậm chí là năm lần, sẽ không hơn được là bao. Nhưng một bản dịch lâu gấp tám lần thì lại được. Họ không cần phải đảm bảo điều đó trên tất cả các ngôn ngữ. Đối với một ngôn ngữ được sử dụng nhiều, như tiếng Pháp hay tiếng Trung Quốc, họ có thể đồng ý việc không để chậm trễ. Còn với những ngôn ngữ ít phổ biến hơn, họ biết rằng người dùng sẽ không mấy quan tâm nếu một chút chậm trễ có thể mang đến cho họ bản dịch chất lượng hơn. Đội ngũ Translate chỉ muốn tránh trường hợp người dùng bỏ cuộc và chuyển sang dịch vụ của các đối thủ cạnh tranh.

Về phần mình, Schuster thừa nhận rằng ông không biết liệu họ có thể làm cho nó đủ nhanh hay không. Ông nhớ lại một cuộc trao đổi trong căn bếp nhỏ lúc quay sang Chen và nói, “Phải có thứ gì đó chúng tôi không biết có thể khiến cho nó nhanh lên, nhưng tôi lại không biết đó là gì.”

Dù vậy, ông biết rằng họ cần nhiều máy tính hơn – “G.P.U.s,” bộ xử lý đồ họa được cấu hình lại cho các mạng lưới nơ ron – để thực hiện việc huấn luyện.

Hughes đến chỗ Schuster để hỏi về những gì Schuster nghĩ. “Chúng ta có nên đặt một ngàn con G.P.U không?”

Schuster trả lời, “Tại sao không phải là 2.000?”

Mười ngày sau, họ được cấp thêm 2.000 bộ xử lý.

Đến tháng Tư, đội ngũ ba người ban đầu đã phát triển lên hơn 30 người – một số trong đó (như Lê) đến từ Brain, còn lại từ Translate. Vào tháng Năm, Hughes chỉ định một dạng chủ sở hữu tạm thời cho mỗi cặp ngôn ngữ, và tất cả mọi người phải kiểm tra kết quả cặp ngôn ngữ họ quản lý thành một bảng đánh giá hiệu suất được chia sẻ rộng rãi với nhau. Vào bất cứ thời điểm nào, ít nhất cũng có 20 người đang chạy những thí nghiệm độc lập kéo dài cả tuần của mình và phải giải quyết bất cứ vấn đề không mong muốn xuất hiện. Một ngày nọ, có một mô hình, không rõ nguyên nhân, bắt đầu lấy tất cả những con số nó quét qua trong câu và loại bỏ chúng. Đã nhiều tháng từ lúc nó còn chưa chắc chắn. Schuster nói, “Mọi người gần như hét cả lên.”

Vào cuối mùa xuân, các mảnh ghép khác cũng đã hội tụ về với nhau. Đội ngũ giới thiệu một số thứ tên “mô hình mảnh-từ”(word-piece model,) “hình phạt bao phủ” (coverage penalty,) “chuẩn hóa độ dài” (length normalization.) Mỗi phần lại giúp cải thiện kết quả, Schuster nói, có thể chỉ vài phần trăm, nhưng tổng hợp lại thì lại tạo ra những ảnh hưởng đáng kể. Một khi mô hình được chuẩn hóa, nó sẽ chỉ là một mô hình đa ngôn ngữ duy nhất với khả năng cải thiện theo thời gian, chứ không phải 150 mô hình khác nhau như Translate đã sử dụng. Tuy nhiên, sự nghịch lý – một công cụ được xây dựng để tổng quát hóa hơn nữa, thông qua những cỗ máy học tập, quá trình tự động hóa lại đòi hỏi một mức độ nỗ lực và khéo léo phi thường từ con người – vẫn giữ nguyên trên chúng. Rất nhiều thứ họ đã làm mới chỉ là phần cốt lỗi. Có bao nhiêu nơ ron mỗi lớp ta đã sử dụng? 1.024 hay 512? Rồi có bao nhiêu lớp? Rồi ta đã từng dịch bao nhiêu câu một lần? Ta phải đào tạo nó trong vòng bao lâu?

“Chúng tôi đã thực hiện hàng trăm thử nghiệm,” Schuster nói với tôi, “cho đến khi chúng tôi biết rằng có thể dừng việc huấn luyện lại sau một tuần. Chúng tôi luôn tự hỏi mình: Khi nào thì ta dừng lại được? Làm sao ta biết việc huấn luyện đã hoàn tất rồi? Bạn không bao giờ biết được bạn đã xong chưa. Cơ cấu học máy không bao giờ hoàn hảo được. Bạn cần phải huấn luyện, và tại một số thời điểm, bạn phải dừng lại. Đó là bản chất rất khó chịu của toàn bộ hệ thống này. Đây là điều khó khăn với một số người. Nó có phần như bộ môn hội họa – nơi bạn đặt cọ xuống để làm bức tranh đẹp lên. Nó xuất phát từ việc “hãy cứ làm”. Một vài người có thể làm tốt, một số lại không.

Đến tháng Năm, đội ngũ Brain đã hiểu ra rằng cách duy nhất họ có thể làm giúp hệ thống đủ nhanh để vận hành như một sản phẩm là phải chạy nó trên T.P.U.s, những con chip với mục đích đặc biệt mà Dean đã yêu cầu. Như Chen nói: “Chúng tôi thậm chí còn không biết liệu mã có hoạt động được trên những con T.P.U. không. Nhưng chúng tôi biết rằng không có chúng thì hệ thống chắc chắn sẽ không thể hoạt động được.” Ông nhớ lại lúc gặp riêng Dean để cầu xin, “Xin hãy còn giữ lại thứ gì đó cho chúng tôi.” Dean vẫn còn giữ lại chúng. Tuy nhiên, T.P.U. đã không thể sử dụng ngay được. Wu đã phải dành ra hai tháng ngồi cùng một vài người từ đội ngũ phần cứng để tìm ra nguyên nhân. Họ không chỉ gỡ lỗi mô hình; họ còn gỡ lỗi cả con chip. Dự án dịch nơ ron sẽ là minh chứng cho khái niệm đầu tư toàn bộ cơ sở hạ tầng.

Một ngày thứ Tư của tháng Sáu, một cuộc họp được tổ chức tại Quartz Lake, bắt đầu bằng một số tiếng xì xào về một bài báo của Baidu vừa xuất hiện trên diễn đàn trực tuyến chính của ngành. Schuster lên tiếng. “Vâng, Baidu đã xuất bản một bài báo. Giống như có ai đó theo dõi sau lưng chúng ta vậy – cấu trúc tương tự, kết quả cũng tương tự.” Điểm BLEU của cũng tương tự với những gì Google đã đạt được vào những bài kiểm tra nội bộ vào tháng Hai và tháng Ba. Lê không có vẻ gì là mất bình tĩnh; kết luận của ông cho thấy dường như Google đã đi đúng hướng. “Nó rất giống với hệ thống của chúng ta,” ông nói với sự tán thành nhẹ.

Baidu – đối thủ cạnh tranh của Google trên chặng đua mang tên “dịch máy”, và cả trên những lĩnh vực khác.
Nguồn: Wikimedia

Đội ngũ Google biết rằng họ có thể công bố kết quả sớm hơn và có thể đánh bại đối thủ của họ, nhưng như Schuster nói: “Việc vận hành quan trọng hơn công bố. Mọi người phản đối, ‘Ồ, tôi đã làm ra thứ gì đó đầu tiên,’ nhưng cuối cùng thì có ai mà quan tấm chứ?”

Điều đó buộc họ phải phát hành sản phẩm của mình sớm hơn và tốt hơn của đối thủ. Hughes có một ý tưởng kỳ quặc là họ sẽ không thông báo cho người dùng về sự thay đổi này. Họ muốn chờ xem truyền thông xã hội sẽ say sưa với các nghi vấn về những thay đổi to lớn mà họ đạt được.

“Chúng tôi chưa muốn công bố hệ thống mới này,” ông nói với tôi lúc 5:36 chiều hai ngày sau Quốc tế Lao động, một phút trước khi họ cho gia tăng lên mức 10% lượng người dùng được tiếp cận dịch vụ phiên dịch tiếng Trung Quốc sang tiếng Anh mà không cho bất cứ ai biết. “Chúng tôi muốn đảm bảo nó phải hoạt động được. Lý tưởng là nó sẽ bùng nổ trên Twitter kiểu như: ‘Có ai thấy Google Translate đã thay đổi khủng khiếp như thế nào chưa?’”

 

8. Lễ kỷ niệm

Chỉ có hai cách đáng tin để xác định được thời gian tại Thung lũng Silicon không mùa là sự luân phiên của trái cây theo mùa trong những căn bếp nhỏ – từ những trái mận mơ vào giữa hè đến lê châu á và hồng vàng Fuyu vào đầu thu – và sự lên xuống của sự tiến bộ công nghệ. Một chiều thứ Hai oi bức cuối tháng Chín, bài báo của đội ngũ cuối cùng cũng được phát hành. Bài báo có số lượng tác giả nhiều đến hài hước, 31 người. Ngày hôm sau, các thành viên của Brain và Translate tập trung lại để tham dự buổi tiệc chúc mừng nhỏ trong căn bếp nhỏ của Translate. Những căn phòng tại tòa nhà Brain, có lẽ để thể hiện sự tôn kính những mùa đông kéo dài trong chuyến phiêu bạt của người Do Thái, được đặt tên theo những địa điểm của Alaska; chủ đề của tòa nhà Translate là Hawaii.

Trong căn bếp nhỏ  mang phong cách Hawaii có một bức ảnh bãi biển cát mịn trên tường, một quầy phục vụ như túp lều lợp lá được trang trí bằng vòng hoa cùng một con vẹt nhồi bông giữa phòng và các vật treo trần hợp gu với những chiếc đèn lồng bằng giấy. Hai biểu đồ thưa thớt làm từ những chiếc cọc tre cắm thẳng hai bên, trông như một pháo đài nhiệt đới với khả năng phòng thủ yếu ớt vậy. Phía bên kia của những chiếc cọc tre là những bức tường và cửa kính mở phía trên các dãy bàn xám giống hệt nhau ở hai bên. Sáng hôm đó căn phòng chứng kiến sự góp mặt của những chiếc áo ấm dài tay có mũ trùm để chúc mừng 10 năm của Translate, và rất nhiều thành viên trong đội ngũ đến bữa tiệc từ bàn làm việc của họ. Họ một phần kỷ niệm thực tế là công trình một thập kỷ làm việc cùng nhau của họ, kể từ ngày hôm đó, đang sắp kết thúc. Tại một trụ sở khác thì những chiếc áo choàng mới này có thể trở thành trang phục thể hiện sự mất mát, nhưng các kỹ sư và những nhà khoa học máy tính của cả hai đội dường như đều hài lòng với nó.

Chương trình dịch nơ ron của Google cuối cùng đã hoạt động. Trong thời gian diễn ra buổi tiệc, bài kiểm tra tiếng Trung Quốc – tiếng Anh của công ty đã hoàn tất việc xử lý 18 triệu truy vấn. Một kỹ sư trong đội ngũ Translate đang chạy vòng quanh với chiếc điện thoại trên tay, thử dịch toàn bộ các câu từ tiếng Trung Quốc sang tiếng Anh bằng chương trình của Baidu. Anh hồ hởi với bất kỳ ai đang lắng nghe. “Nếu ta nhập vào nhiều hơn hai ký tự một lần thì nó sẽ treo đấy!” (Baidu nói rằng vấn đề này chưa từng được người dùng phản hồi lại.)

Khi tin tức bắt đầu lan truyền đi trong suốt vài tuần sau đó, rằng Google đã giới thiệu chương trình dịch nơ ron từ tiếng Trung Quốc sang tiếng Anh, thì nhiều người cho rằng bởi đó là cặp ngôn ngữ duy nhất mà công ty có được kết quả tốt. Tất cả mọi người trong bữa tiệc đều biết rằng thực tế những thành quả của họ sẽ trở nên rõ ràng vào tháng Mười Một. Nhưng sau đó, rất nhiều người trong số họ sẽ phải tham gia vào những dự án khác.

Hughes hắng giọng và bước đến phía trước quầy bar tiki. Ông mặc một chiếc áo polo màu xanh bạc màu với cổ áo nhăn, phần giữa được điểm nhẹ bằng những dải tối của mồ hôi khô. Đã có những vấn đề vào phút chót, và những vấn đề vào phút chót của phút chót, gồm một lỗi rất lớn về phép đo và một lỗi liên quan đến chấm câu trong hệ thống. Nhưng mọi thứ đã được giải quyết – hay ít nhất cũng đã được giải quyết một cách thích đáng trong thời điểm này. Những vị khách im lặng. Hughes từng tổ chức các buổi họp hiệu quả và năng suất, ít khi bỏ qua cho việc nói năng lung tung hay trò chuyện bên lề, nhưng ông phải tạm dừng bởi sự hấp dẫn của dịp này. Ông thừa nhận rằng ông có lẽ đang kéo dài một phép ẩn dụ, nhưng điều quan trọng là ông muốn nhấn mạnh sự thật, ông bắt đầu, rằng dự án dịch nơ ron bản thân nó tự đại diện cho một “sự hợp tác giữa các nhóm nói những ngôn ngữ khác nhau.”

Dự án dịch nơ ron của họ, ông tiếp tục, đại diện cho một “bước tiến về phía trước” – không giống một sự tiến bộ liên tục, mà giống một bước nhảy vọt hơn. Đây không chỉ là thứ giữa hai đội mà còn đi từ lý thuyết đến thực tiễn. Ông nâng chiếc ly bằng nhựa chứa thứ Sâm panh trông có vẻ đắt tiền.

“Vì sự giao lưu” ông nói, “và hợp tác!”

Các kỹ sư nhìn nhau, hò reo và vỗ tay một cách thận trọng.

Jeff Dean đứng gần giữa căn bếp, tay trong túi quần, vai hơi khom vào phía trong, cùng Corrado và Schuster. Dean có một vài lời để đóng góp cho dịp này, và ông đã phát biểu theo một lối tự chủ đặc trưng, với phần thêm vào ngắn gọn, nhanh chóng và súc tích.

Những gì họ đã thể hiện, Dean nói, là họ có thể làm hai việc chính cùng một lúc: “Thực hiện nghiên cứu và đưa nó ra trước, tôi không biết nữa, nửa tỷ người.”

Tất cả mọi người đều cười lên, không phải bởi nó được cường điệu lên, mà là bởi chính xác nó là như thế.

 

Lời bạt: Những cỗ máy không có ma

Có lẽ cuộc phê bình nổi tiếng nhất trong lịch sử về trí tuệ nhân tạo, hay những lời tuyên bố đã thực hiện trên đại diện của nó, ám chỉ đến câu hỏi về khả năng dịch thuật. Cuộc tranh luận về Căn phòng Trung Quốc (The Chinese Room) được đặt ra vào năm 1980 bởi một nhà triết học tại Berkeley tên John Searle. Trong thí nghiệm tư duy của Searle, một người chỉ biết tiếng Anh ngồi một mình trong căn phòng giam. Một người quản ngục giấu mặt bước qua anh ta, thả một mảnh giấy nhỏ có ghi những ký tự Trung Quốc qua khe cửa. Người tù được trao cho một bộ các bảng và quy tắc bằng tiếng Anh cho phần trả lời. Anh ta trở nên tinh thông với những hướng dẫn này thành ra những câu trả lời nhanh chóng đến mức “hoàn toàn không thể phân biệt được với những câu của người Trung Quốc.” Vậy người tù không may mắn này có nên được gọi là “hiểu” tiếng Trung Quốc? Searle nghĩ rằng câu trả lời rõ ràng là không. Tương tự đối với một chiếc máy tính, như Searle sau này đã bác bỏ lời tuyên bố “một chiếc máy tính kỹ thuật số được lập trình phù hợp với đầu vào và đầu ra đúng đắn sẽ có một tâm trí giống như của con người.”

Dù là đối với đội ngũ Google Brain, hay đối với gần như tất cả mọi người đang làm việc trong lĩnh vực học máy tại Thung lũng Silicon, cách nhìn nhận đó cũng hoàn toàn nằm ngoài ý kiến của họ. Điều đó không có có nghĩa họ phớt lờ câu hỏi triết học này. Nó có nghĩa là họ có một quan điểm cơ bản khác về tâm trí. Không như Searle, họ không cho rằng “ý thức” là một thứ đặc biệt, soi sáng một cách bí ẩn thuộc tính tâm trí – thứ nhà triết học Gilbert Ryle gọi là “con ma trong máy móc.” Mà thay vào đó họ chỉ tin tưởng rằng việc phân loại phức tạp những kỹ năng mà ta gọi là “ý thức” xuất hiện một cách ngẫu nhiên từ hoạt động phối hợp của rất nhiều cơ chế đơn giản khác nhau. Có nghĩa là đặc tính của chúng ta với những gì chúng ta thiết lập cấp độ cao hơn không khác với những gì ta bị cám dỗ để nhận thấy như những những thiết lập thấp hơn. Lập luận logic, trong khoản này, được nhìn nhận như một sự đáp ứng may mắn; là khả năng ném và bắt quả bóng. Trí tuệ nhân tạo không phải hướng về việc xây dựng tâm trí; mà là hướng về sự phát triển những công cụ giải quyết vấn đề. Như Corrado nói với tôi trong ngày đầu tiên ở Google, “Nó không phải về việc một cỗ máy ‘biết’ hoặc ‘hiểu’ mà là những gì nó ‘thực hiện’, và – quan trọng hơn – là những gì nó vẫn chưa làm được.”

Việc chỉ trích “biết” chống lại việc “hiểu” chứa những hàm ý xã hội và văn hóa thật sự. Tại buổi tiệc, Schuster bước đến chỗ tôi và thể hiện sự thất vọng về sự đón nhận của báo chí. “Anh có thấy bài báo đầu tiên không?” ông hỏi tôi. Ông diễn giải một tiêu đề xuất hiện vào sáng đó, chặn từng từ bằng tay giống như ông đang đọc thuộc nó vậy: ‘GOOGLE NÓI RẰNG CHƯƠNG TRÌNH PHIÊN DỊCH BẰNG A.I. KHÔNG THỂ PHÂN BIỆT ĐƯỢC VỚI CON NGƯỜI.’ Trong suốt những tuần cuối cùng sáng tác bài báo, đội ngũ đã phải vật lộn với nó; Schuster thường nhắc đi nhắc lại rằng thông điệp của bài báo là “Nó tốt hơn trước đây, nhưng không thể bằng con người được.” Ông hy vọng rằng sẽ làm rõ được rằng nỗ lực của họ không phải là để thay thế mà là hỗ trợ cho con người.

Và sự phát triển của học máy sẽ khiến cho việc tìm ra điểm vượt trội của con người trở nên khó khăn hơn. Nếu bạn cũng như Searle, tin rằng con người vẫn có một điều đặc biệt nào đó “ở bên trong”, thì bạn có thể vẽ ra một ranh giới rõ ràng để phân biệt con người và những thứ được tự động hóa. Và ngược lại nếu bạn đồng ý với mang quan điểm đối lập của những người như Searle. Sẽ dễ hiểu tại sao lại có nhiều người nhanh chóng lựa chọn việc bám lấy quan điểm cũ như vậy. Vào năm 2015, trong một cuộc hội thảo tại trường M.I.T. về những nguồn gốc của trí tuệ nhân tạo, Noam Chomsky đã được hỏi suy nghĩ của anh về học máy. Ông đã xem toàn bộ sự nghiệp như dự đoán thống kê đơn thuần, một chiếc máy dự báo thời tiết có độ chính xác cao hơn. Thậm chí nếu khả năng dịch nơ ron có đạt được khả năng hoàn hảo thì nó cũng sẽ không tiết lộ bất cứ điều sâu sắc nào về bản chất ẩn sau của ngôn ngữ. Nó không bao giờ có thể nói cho bạn một đại từ thuộc trường hợp tặng cách hay đối cách. Kiểu dự đoán này tạo ra một công cụ tốt để hoàn thành mục đích của chúng ta, nhưng nó lại không thành công hơn hiểu biết của chúng ta về việc lý giải nguyên nhân mọi việc xảy ra và cách thức chúng xảy ra. Một cỗ máy có thể phát hiện ra những khối u trong kiểm tra y tế tốt hơn những bác sỹ X quang, nhưng một cỗ máy không thể nói cho bạn biết nguyên nhân gây ra ung thư được.

Rồi thì, liệu bác sỹ X quang có thể làm được thế không?

Những loại hình công việc bị máy móc tự động tước đi không còn chỉ là những công việc có tính lặp lại mà đã tiến đến những công việc ở mức độ trí tuệ (được cho là thấp hơn) của tầng lớp thiếu sự đào tạo.

Chẩn đoán y khoa, một lĩnh vực trực tiếp và dường như không thể dự đoán được, đang bị đe dọa bởi học máy. Những bác sỹ X quang được đào tạo ở khắp mọi nơi cũng như được trả lương vô cùng hậu hĩnh, và ta nghĩ đến kỹ năng của họ như một trong những khả năng nhận thức chuyên nghiệp – cấp độ cao nhất của suy nghĩ. Chỉ trong một năm qua, các nhà nghiên cứu đã chỉ ra rằng hệ thống nơ ron không chỉ có thể tìm ra các khối u trong ảnh chụp y khoa sớm hơn những bác sỹ mà những cỗ máy đó thậm chí còn tạo ra những chẩn đoán như thế từ những báo cáo bệnh lý. Những gì mà các bác sỹ X quang làm hóa ra lại là thứ gì đó rất gần với sự hợp hóa hình mẫu dự đoán hơn là khả năng phân tích logic. Hệ thống không trả lời được cho bạn nguyên nhân gây ra ung thư là gì; nhưng chúng có thể cho bạn biết trong cơ thể bạn có đang tồn tại một khối u nào hay không.

Một khi bạn đã xây dựng thành công một cơ cấu kết hợp hình mẫu thô cho một mục đích thì nó có thể sẽ được tinh chỉnh để sử dụng cho những dịch vụ của người khác. Một kỹ sư Translate dùng cùng một mạng lưới anh từng tham gia để tạo nên cho việc đánh giá nghệ thuật và sử dụng nó cho một chiếc xe điều khiển tự động. Một mạng lưới được xây dựng để nhận diện mèo có thể tái huấn luyện trên máy chụp CT – và trong vô vàn những ví dụ thì mạng lưới như thế cũng đã thể hiện khả năng vượt qua cả những bác sỹ tốt nhất. Một mạng lưới nơ ron được xây dựng để dịch có thể làm việc với hàng ngàn trang tài liệu luật chỉ trong khoảng thời gian nhỏ hơn nhiều lần so với một luật sư tài năng. Những loại hình công việc bị máy móc tự động tước đi không còn chỉ là những công việc có tính lặp lại mà đã – một cách không cân bằng, có lẽ phải được nhấn mạnh – tiến đến những công việc ở mức độ trí tuệ (được cho là thấp hơn) của tầng lớp thiếu sự đào tạo. Chúng ta không chỉ đang nói về ba triệu rưỡi tài xế xe tải có thể sẽ sớm thiếu việc làm. Chúng ta còn đang nói về cả những quản lý kho, những nhà kinh tế học, cố vấn tài chính, và nhân viên bất động sản. Những gì Brain đã thực hiện trong suốt chín tháng vừa qua chỉ là một ví dụ cho thấy khả năng tự động hóa thần tốc một nhiệm vụ trước đó chưa ai từng liên hệ với máy tính bởi một nhóm nhỏ trong một công ty lớn.

Điều quan trọng nhất diễn ra tại Thung lũng Silicon hiện giờ không phải là sự chia rẽ, mà là sự xây dựng thể chế – và củng cố quyền lực – trên một quy mô và với một tốc độ chưa từng thấy trong lịch sử loài người. Brain có thực tập sinh; có dân cư, có những lớp học “ninja” để đào tạo những thành viên tại các phòng ban khác. Khắp nơi có thùng đựng mũ bảo hiểm miễn phí, và ô miễn phí trong hai ngày mưa mỗi năm, xa-lát trái cây, kén nghỉ trưa, bàn làm việc kết hợp máy chạy bộ, ghế mát-xa, những thùng bánh ngọt cao cấp, nơi quyên góp quần áo trẻ em, tường leo núi hai tầng có huấn luyện viên theo lịch, nhóm đọc, những buổi trao đổi chính sách và những hệ thống hỗ trợ đa dạng. Những người nhận được những đầu tư phát triển này – bởi họ nằm ở tầm cao hơn so với những gì các công nhân trong những mỏ công nghệ có được – nắm trong tay quyền điều khiển những máy chủ phức hợp phân bổ trên 13 trung tâm dữ liệu thuộc bốn châu lục, và mỗi trung tâm dữ liệu này sử dụng một lượng điện năng đủ thắp sáng cả một thành phố lớn.

Nhưng ngay cả những tổ chức khổng lồ như Google cũng nhận được bài học từ làn sóng tự động hóa này; một khi các cỗ máy có thể học được từ lời nói của con người, thì thậm chí một công việc thoải mái như lập trình viên cũng sẽ bị đe dọa. Lúc bữa tiệc tại quầy bar tiki đang tàn cuộc, một kỹ sư Translate mang laptop của mình đến và chỉ cho Hughes thấy điều gì đó. Màn hình xoáy cuộn và rung lên một hoạt ảnh những quả cầu sống động nhiều màu sắc sặc sỡ trong những quỹ đạo thắt vòng dài đang sụp đổ thành các tinh vân trước khi phân tán một lần nữa.

Hughes ngay lập tức nhận ra được nó là gì, còn tôi phải nhìn gần lại mới có thể thấy được tất cả tên – của những thành viên và các tập tin – trong đó. Đó là một hoạt ảnh lịch sử 10 năm thay đổi cơ sở mã hóa của Translate, cùng những đóng góp mang tính đột phá từ tất cả các thành viên của đội ngũ. Hughes lướt nhẹ về phía trước, từ năm 2006 đến 2008 rồi 2015, mỗi lần dừng lại một chút để nhớ về những chiến dịch đã qua, vài thành tựu và thảm họa ngày xưa giờ vội vã chìm xuống hoặc nổi lên trên màn hình. Hughes chỉ vào tên của Dean đang xuất hiện ở chỗ này chỗ kia trong những quả cầu sặc sỡ để cho thấy nó xuất hiện thường xuyên như thế nào.

Hughes gọi Corrado lại, rồi cả hai cùng yên lặng đứng nhìn. Để phá vỡ nỗi luyến tiếc đó, Corrado trông có chút tổn thương, nhìn lên và hỏi, “Vậy khi nào chúng ta sẽ xóa nó đây?”

“Đừng lo lắng về điều đó,” Hughes nói.  “Nền tảng mã hóa mới đang phát triển. Mọi thứ đều phát triển.”


  1. T.P.U. (Tensor processing unit) là một loại vi mạch tích hợp chuyên dụng được Google phát triển riêng cho học máy (machine learning). Vì được thiết kế chuyên cho các ứng dụng học máy, TPU không thiên nhiều về sự chính xác trong tính toán mà thay vào đó là khả năng thực hiện đa tác vụ. Sự thay đổi đặc biệt này khiến TPU được sử dụng cho nhiều ứng dụng khác nhau như AlphaGo (chương trình cờ vây đã kiện tướng cờ vây Lee Sedol vào năm 2016), Google Street View, Google Photos, RankBrain,… Bạn đọc có thể xem thêm về T.P.U. tại đây:
    https://en.wikipedia.org/wiki/Tensor_processing_unit

  2. Phiến đá Rosetta (Rosetta Stone) là một tấm bia Ai Cập cổ đại có khắc sắc lệnh ban hành ở Memphis năm 196 TCN nhân danh nhà vua Ptolemy V. Sắc lệnh này được viết bằng ba loại chữ: trên cùng là chữ tượng hình Ai Cập cổ đại, ở giữa là ký tự Demotic và dưới cùng là tiếng Hy Lạp cổ đại. Nhờ được trình bày bằng cả ba hệ chữ viết, phiến đá trở thành chiếc chìa khóa vô giá giúp khoa học hiện đại hiểu được chữ tượng hình Ai Cập. Trong bài viết này, tác giả dùng Phiến đá Rosetta để ám chỉ cơ sở phiên dịch đã được dùng cho chương trình dịch máy thống kê là những hồ sơ song ngữ của Quốc hội Canada. Bạn đọc có thể xem thêm về Phiến đá Rosetta tại đây: https://en.wikipedia.org/wiki/Rosetta_Stone

Leave a Reply

Your email address will not be published. Required fields are marked *

đọc thêm
Mới nhất
Cách ra đi tuyệt vời nhất
Nếu được toàn quyền lựa chọn cách để kết thúc cuộc đời từ một chiếc máy kỳ dị, bán vô hạn cách để ra đi, bạn sẽ chọn cách nào? Bạn có nên có quyền lựa chọn không?