Nô lệ dữ liệu – Jennifer Lyn Morone, một nghệ sĩ người Mỹ, cho rằng đây là trạng thái mà hầu hết mọi người đều đang mắc phải. Cô than phiền rằng, mọi người trao thông tin cá nhân cho các công ty công nghệ để có thể sử dụng các dịch vụ trực tuyến miễn phí một cách quá dễ dàng. “Dữ liệu cá nhân có giá trị hơn nhiều lần bạn nghĩ”, cô nói. Để chứng minh, Morone đã sử dụng những gì cô gọi là “chủ nghĩa tư bản cực đoan”: cô đăng ký thành lập một công ty ở Delaware và tìm cách bán thông tin cá nhân của mình. Năm 2016, cô tạo ra các bộ hồ sơ thông tin cá nhân chứa các tập con dữ liệu khác nhau, và chào bán chúng tại một phòng trưng bày ở London. Mức giá khởi điểm là £100 (khoảng 3 triệu đồng). Toàn bộ bộ sưu tập, bao gồm dữ liệu sức khỏe và số an sinh xã hội của cô, có giá £7000 (hơn 200 triệu đồng).
Chỉ một vài người hứng thú với lời đề nghị này, nhưng Morone cho rằng “điều này quá vô lý.” Dẫu vậy, nó lại là minh chứng cho “tâm thế thời đại mới”: năm 2017, thế giới phát hiện ra sự thối nát của nền kinh tế dữ liệu. Vào tháng 3, công ty tư vấn chính trị Cambridge Analytica đã lén lút thu thập dữ liệu của 87 triệu người dùng Facebook, dấy lên ngày càng nhiều những kêu gọi cải cách về cách quản lý và sử dụng thông tin cá nhân. Ngay cả thủ tướng Đức Angela Merkel gần đây đã yêu cầu các nhà nghiên cứu đưa ra các giải pháp để đặt giá cho dữ liệu cá nhân.
“Dữ liệu con người cung cấp có thể được xem như là một hình thức lao động giúp tăng cường trí thông minh nhân tạo.”
Với nền kỹ thuật số hiện tại, khi mà việc thu thập và khai thác dữ liệu cá nhân do các công ty công nghệ lớn kiểm soát, việc các cá nhân đơn lẻ cung cấp dữ liệu để bán giống như Morone, khó có khả năng cạnh tranh. Nhưng điều gì sẽ xảy ra nếu mọi người thực sự kiểm soát dữ liệu của họ – và những người khổng lồ công nghệ cần phải trả tiền để truy cập? Khi đó, nền kinh tế dữ liệu sẽ định hình như thế nào?
Đây không phải lần đầu tiên một nguồn lực kinh tế quan trọng chuyển từ “sử dụng tự do” sang “sở hữu và giao dịch”; điều tương tự đã xảy ra với đất và nước. Tuy nhiên, thông tin số dường như khó có thể chịu sự kiểm soát của thị trường. Không giống như các nguồn lực vật lý, dữ liệu cá nhân là một dạng hàng hóa “không đối thủ,” nghĩa là chúng có thể được sử dụng nhiều lần. Trong thực tế, chúng càng được sử dụng, càng tốt cho xã hội. Và sự rò rỉ dữ liệu thường xuyên cho thấy việc kiểm soát chúng khó khăn đến nhường nào. Tuy nhiên, Jaron Lanier, nhà tiên phong thực tế ảo, và Glen Weyl, nhà kinh tế học tại Đại học Yale (cả hai đều làm việc cho Microsoft Research) cho rằng, một tiền lệ lịch sử khác có thể cung cấp một mô hình cho nền kinh tế dữ liệu và cả những quan ngại về “chủ nghĩa kỹ thuật.”
Lao động, giống như dữ liệu, là một nguồn tài nguyên khó có thể đo đếm. Trong phần lớn lịch sử nhân loại, người lao động không được bồi thường đúng mức cho sức lao động của họ. Ngay cả khi mọi người được tự do bán lao động của mình, phải mất hàng thập kỷ để mức lương trung bình đạt mức đủ sống. Lịch sử sẽ không lặp lại chính nó, nhưng rất có thể là nó sẽ trải qua các chu kỳ giống nhau, như Weyl dự đoán trong cuốn Radical Markets (Tạm dịch: Thị trường Cấp tiến), một cuốn sách đầy tính khiêu khích mà Weyl và Eric Posner tại Đại học Chicago cùng chắp bút. Weyl lập luận rằng, trong thời đại của trí thông minh nhân tạo, dữ liệu phải được xem là một hình thức lao động.
Để hiểu lý do tại sao, phải biết rằng “trí thông minh nhân tạo” (Artificial Intelligence – viết tắt là AI) là một thuật ngữ bị dùng sai. Messrs Weyl và Posner gọi nó là “trí thông minh tập thể” (collective intelligence): hầu hết các thuật toán AI cần phải được huấn luyện bằng cách sử dụng hàng tập các ví dụ do con người tạo ra. Quá trình đó được gọi là “học máy” (machine learning). Trừ khi chúng biết những dạng câu trả lời “đúng” (do con người cung cấp), trí thông minh nhân tạo không thể dịch các ngôn ngữ, hiểu lời nói hoặc nhận ra các đối tượng trong hình ảnh. Dữ liệu được cung cấp bởi con người, do đó, có thể được xem như một hình thức lao động dùng để vận hành AI. Khi nền kinh tế dữ liệu phát triển, các công việc dữ liệu như vậy sẽ biến đổi dưới nhiều hình thức. Phần lớn các công việc đó là bị động, vì việc mọi người tham gia vào tất cả các loại hoạt động – nhấn nút “like” các bài đăng trên phương tiện truyền thông xã hội, nghe nhạc, giới thiệu nhà hàng – đều tạo ra dữ liệu cần thiết để cung cấp các dịch vụ mới. Nhưng một số công việc dữ liệu khác sẽ mang tính chủ động hơn, khi họ phải đưa ra các quyết định (chẳng hạn như ghi nhãn hình ảnh hoặc lái xe qua thành phố bận rộn) có thể được sử dụng làm nền tảng cho việc huấn luyện các hệ thống AI.
Tuy nhiên, cho dù dữ liệu đó được tạo ra theo hướng chủ động hay bị động, rất ít người sẽ có thời gian hoặc động lực để theo dõi tất cả thông tin mà họ tạo ra hoặc ước tính giá trị của chúng. Ngay cả những người sẵn sàng làm việc này sẽ thiếu khả năng thương lượng để có được một mức giá tốt từ các công ty AI. Nhưng lịch sử lao động đã đưa ra một gợi ý để giải quyết vấn để này: tiền lương tăng lên ở mức chập nhận được hầu hết là nhờ vào công đoàn. Tương tự như vậy, Weyl hy vọng các “công đoàn dữ liệu lao động” (data-labour unions), những tổ chức đóng vai trò như người gác cổng dữ liệu cá nhân, sẽ ngày càng đóng một vai trò to lớn. Giống như những người tiền nhiệm, họ sẽ thương lượng tỷ giá, giám sát dữ liệu của thành viên và đảm bảo chất lượng đầu ra kỹ thuật số của dữ liệu, ví dụ bằng cách giữ điểm danh tiếng. Các công đoàn này có thể thuê các chuyên gia dữ liệu, và thậm chí tổ chức các cuộc đình công, chẳng hạn bằng cách chặn truy cập ảnh hưởng đến công ty sử dụng dữ liệu của các thành viên. Tương tự như vậy, các công đoàn dữ liệu có thể là các trung gian thông tin, theo dõi dữ liệu đóng góp từ các thành viên, đồng thời yêu cầu công ty AI hưởng lợi từ chúng phải thanh toán.
Điều này nghe có vẻ giống như khoa học viễn tưởng. Tại sao Google và Facebook phải từ bỏ mô hình kinh doanh chính của họ: sử dụng dữ liệu miễn phí để bán quảng cáo trực tuyến được nhắm mục tiêu? Trong năm 2017, Facebook và Google thu về tổng cộng 135 tỷ đô la tiền quảng cáo. Nếu họ phải trả tiền dữ liệu cho tất cả người dùng, mức lợi nhuận của họ sẽ thấp hơn rất nhiều. Trong khi đó, các công ty khởi nghiệp như CitizenMe và Datacoup – các công ty có thể coi là hình thức đầu tiên của các công đoàn dữ liệu – cho đến nay không đạt được nhiều tiến bộ. Tuy nhiên, có một số lĩnh vực mà các ông lớn công nghệ đã phải trả tiền cho dữ liệu, mặc dù họ cẩn thận không nói quá nhiều về nó. Chủ yếu thông qua các công ty thuê ngoài, họ thuê người kiểm duyệt để kiểm tra chất lượng các thuật toán của họ và gỡ bỏ nội dung bất hợp pháp hoặc xúc phạm. Vài công ty khác, chẳng hạn như Amazon’s Mechanical Turk, sử dụng các nền tảng làm việc đám đông để tạo ra các công việc dữ liệu như gắn thẻ hình ảnh. Mighty AI, một công ty khởi nghiệp có trụ sở tại Seattle, thuê hàng ngàn công nhân trực tuyến để gắn nhãn hình ảnh đường phố, và sử dụng chúng để huấn luyện các thuật toán dành cho xe tự lái.
Thêm vào đó, nếu AI phát triển đến một mức độ nào đó, nó sẽ dẫn đến nhu cầu về tập dữ liệu ngày càng tốt hơn. Khi các dịch vụ AI trở nên tinh vi hơn, các thuật toán sẽ cần phải được cung cấp thông tin kỹ thuật số đầu vào có chất lượng cao hơn – những dữ liệu này đương nhiên sẽ mất phí. Khi một ông lớn công nghệ bắt đầu trả tiền cho dữ liệu, những người khác có thể phải tuân theo.
Nếu ta cho rằng dữ liệu là một dạng lao động, thì lợi nhuận biên của các công ty công nghệ cao có khả năng phải thu hẹp lại, nhưng tổng thể ngành sẽ tăng lên. Và một số người lao động sẽ chuyển sang làm việc trên ghế lái. Buổi sáng của họ có thể bắt đầu bằng cách kiểm tra bảng điều khiển do liên minh lao động dữ liệu cung cấp, hiển thị danh sách cá nhân các công việc có sẵn: xem quảng cáo (trong khi camera của máy tính thu thập phản ứng trên khuôn mặt), dịch văn bản sang ngôn ngữ hiếm, xem điều hướng mô hình một tòa nhà ảo. Trang tổng quan cũng có thể liệt kê các khoản thu nhập trong quá khứ, hiển thị xếp hạng và gợi ý các kỹ năng mới.
Có nhiều việc cần làm để công nhận dữ liệu cá nhân là một dạng lao động, và phải được trả tiền. Trước tiên, một khung pháp lý phù hợp sẽ khuyến khích sự xuất hiện của một nền kinh tế dữ liệu mới. Quy định bảo vệ dữ liệu chung mới của Liên minh châu Âu, có hiệu lực vào tháng 5, đã mang đến cho mọi người một quyền bao quát để kiểm tra, tải xuống và thậm chí xóa dữ liệu cá nhân do các công ty nắm giữ. Thứ hai, công nghệ để theo dõi các luồng dữ liệu cần phải tốt hơn nữa. Trong khi đó, các nghiên cứu để tính toán giá trị của dữ liệu cụ thể cho một dịch vụ AI cũng mới chỉ được hình thành.
Thứ ba, và quan trọng nhất, người dùng sẽ phải phát triển một “ý thức hệ” về lao động dữ liệu. Hầu hết mọi người nói rằng họ muốn thông tin cá nhân của họ được bảo vệ, nhưng sau đó lại đem rao bán nó miễn phí. Đây chính là “nghịch lý riêng tư.” Tuy nhiên, mọi thứ hiện đang thay đổi: hơn 90% người Mỹ nghĩ rằng việc kiểm soát ai có thể lấy dữ liệu về họ là quan trọng, theo Trung tâm nghiên cứu Pew.
Ngay cả khi mọi người được trả tiền cho dữ liệu của họ, họ sẽ không nhận được nhiều tiền. Ví dụ, nếu Facebook chia sẻ lợi nhuận của mình cho tất cả người dùng, mỗi người sẽ chỉ nhận được $9 một năm. Tuy nhiên, thời đại dữ liệu chỉ mới bắt đầu. AI thường được so sánh với điện, và khi điện khí hóa bắt đầu vào cuối thế kỷ 19, toàn bộ các thành phố chỉ sử dụng nhiều năng lượng như một hộ gia đình duy nhất hiện nay.
Nền kinh tế dữ liệu này có vô cùng bất bình đẳng không? Dữ liệu của một số người chắc chắn sẽ đáng giá hơn những người khác. Nhưng Weyl lập luận rằng các kỹ năng cần thiết để tạo ra dữ liệu có giá trị có thể sẽ ngày càng trở nên phổ biến, vì vậy công việc dữ liệu có thể phá vỡ hệ thống phân cấp chuẩn của vốn nhân lực. Bằng cách này hay cách khác, xã hội sẽ phải tìm một cơ chế để phân phối nguồn lợi mà AI tạo ra. Như hiện nay, hầu hết nguồn lợi này đang chảy về các công ty lớn. Trừ khi điều này thay đổi, bất bình đẳng xã hội có thể sẽ trở nên giống như thời trung cổ. Nếu điều đó xảy ra, có thể tin rằng, những người lao động dữ liệu của thế giới sẽ đoàn kết lại.