Thuật toán của YouTube “nhào nặn” sự thật như thế nào?

Thứ Năm, 15/02/2018, 15:13
"Mọi thuật toán hiển thị các video gợi ý trên Youtube chỉ nhằm một ưu tiên: Làm sao giữ chân người dùng lâu nhất, tất cả những yếu tố khác đều bị xem là gây phân tán người dùng". Những hệ lụy từ thuật toán đó đã ở mức các chuyên gia cho rằng những thứ bịa đặt, giả trá trên YouTube đang hoàn toàn lấn át sự thật lành mạnh với người xem.


Giữ chân bằng mọi giá

Logan Paul chứng kiến cảnh một người đàn ông chết trong tư thế treo cổ trong khu rừng "tự tử" nổi tiếng ở Nhật. Chàng thanh niên 22 tuổi rõ ràng đã rất kinh ngạc, song lại cũng tỏ ra… thích thú với phát hiện.

Tài khoản trên YouTube của Paul có 16 triệu người đăng ký theo dõi, trong đó phần lớn là trẻ vị thành niên. Mặc dù chỉ 24 giờ sau khi nhận đủ loại "gạch đá" từ cộng đồng mạng vì đoạn video này, tài khoản YouTube của Paul đã bị gỡ bỏ, song khoảng thời gian tồn tại ngắn ngủi của nó cũng đã đủ để nhận về 6 triệu lượt xem và lập tức xuất hiện trong danh sách các video đang hot (trending) trên mạng này.

Hiện có 1,5 tỉ người dùng YouTube trên toàn thế giới, nhiều hơn số hộ gia đình có TV hiện nay. Những gì họ đã và đang xem trên YouTube đều được sắp bày bởi một thuật toán đặc biệt và bí mật của nhà phát triển. Thuật toán đó có khả năng xem lướt và xếp hạng hàng tỉ video để tìm ra 20 video của danh sách gợi ý xem tiếp với người dùng. Đó là những video vừa có liên quan tới nội dung video họ xem trước đó, nhưng quan trọng hơn nữa, vừa phải có nội dung như thế nào để người dùng tiếp tục chúi mặt chúi mũi vào màn hình thiết bị.

Các luật sư đại diện của Twitter, Facebook và Google chuẩn bị điều trần trước ủy ban tình báo Hạ viện Mỹ liên quan cáo buộc Nga lợi dụng các nền tảng mạng xã hội gây ảnh hưởng tới cuộc bầu cử Ttổng thống Mỹ 2016 - Ảnh: EPA

Các nhà phát triển cho biết thuật toán này hoạt động trên nền tảng các mạng thần kinh nhân tạo sâu có khả năng xử lý và trích xuất thông tin từ kho dữ liệu khổng lồ về video và những người xem chúng. Các kỹ sư YouTube mô tả đó là "một trong những hệ thống gợi ý lớn nhất và tinh vi nhất từng có trước nay".

Gần đây, thuật toán này trở thành một trong vấn đề gây tranh cãi nhiều nhất. Người ta đã phát hiện nó góp phần cổ súy cho những thuyết âm mưu liên quan tới vụ xả súng hàng loạt ở Las Vegas. Rất nhiều video bạo lực và khiêu dâm đã bị thuật toán này tự động hiển thị trước mắt những đứa trẻ còn chập chững trong ứng dụng YouTube Kids chỉ dành riêng cho trẻ em.

Google đang ứng phó với các dư luận chỉ trích theo cách được ví với trò chơi Whac-a-Mole (đập chuột chũi). Họ mở rộng đội quân điều phối viên, gỡ bỏ các video vi phạm do các nhà báo phát hiện, không thanh toán lợi nhuận cho những trang tạo ra video sai phạm. Tuy nhiên tất cả những giải pháp đó đều không giải quyết được gốc rễ vấn đề. Thuật toán trí tuệ nhân tạo đang thống trị trên nền tảng của họ.

"Giống như thật, nhưng đã bị bóp méo"

Như tất cả các hãng công nghệ, YouTube không cho phép người khác biết được các thuật toán của họ. Chúng là những công thức bí mật, là phần mềm độc quyền, chỉ những kỹ sư qua tuyển lựa đặc biệt mới được tin cậy giao trọng trách làm việc trên thuật toán.

Guillaume Chaslot, lập trình viên người Pháp 36 tuổi có bằng tiến sĩ về trí tuệ nhân tạo (AI), đã từng là một trong số những kỹ sư ấy. Trong 3 năm làm việc tại Google, anh được xếp làm việc chung trong 7 tháng với một nhóm các kỹ sư YouTube để phát triển hệ thống gợi ý video của họ. Kinh nghiệm làm việc tại đây đưa anh tới kết luận, những ưu tiên của YouTube trong thuật toán của họ gây sai lệch một cách đáng lo ngại.

Anh nói: "YouTube là một cái gì đó trông như sự thật, nhưng nó đã được bóp nặn để khiến bạn dành nhiều thời gian lên mạng hơn. Thuật toán gợi ý không hề ưu tiên những điều là sự thật, công bằng, lành mạnh hay dân chủ".

Theo  Chaslot, thuật toán đó không cố định. Nó thường thay đổi căn cứ vào các mức độ tín hiệu khác nhau, từ cách thức xem của người dùng, độ dài của video mà họ xem. Nhóm của anh Chaslot có nhiệm vụ phải liên tục thử nghiệm những công thức mới giúp tăng thu nhập từ quảng cáo bằng cách làm mọi chiêu trò để kéo dài thời gian xem video của người dùng trên YouTube.

Năm 2013 , Chaslot bị Google sa thải. Anh khẳng định anh bị đuổi khỏi công ty sau khi đã nỗ lực kêu gọi sự thay đổi về cách thức phát triển thuật toán. Anh đã dùng thời gian riêng của mình, tập hợp cùng một nhóm các kỹ sư đồng quan điểm đề xuất những thay đổi về thuật toán nhằm giúp đa dạng hóa nội dung thông tin đến với người dùng.

Tuy nhiên, không đề xuất chỉnh sửa thuật toán nào của anh được các nhà quản lý của YouTube lưu tâm. "Tôi đã cố gắng thay đổi YouTube từ bên trong nhưng điều đó đã không thể thực hiện".

Phía YouTube cho rằng hệ thống gợi ý video của họ đã thay đổi nhiều kể từ ngày Chaslot còn làm việc. Nay họ đã "qua cái thời đặt ưu tiên về thời gian xem của người dùng". Công ty cho biết, năm 2016 họ đã bắt đầu tính tới "độ thỏa mãn" của người dùng thông qua việc tiến hành các cuộc thăm dò, tìm hiểu số lượt "Like" của một video. YouTube cũng nói đã có thêm nhiều thay đổi khác được triển khai trong năm 2017 để nâng cao nội dung tin tức hiển thị trong các kết quả tìm kiếm và nội dung gợi ý của hệ thống, ngăn chặn việc xuất hiện các nội dung "chứa những thông tin kích động tôn giáo hoặc phân biệt chủng tộc".

Tuy nhiên YouTube lại không thể lý giải vì sao từ năm 2006 Google đã thâu tóm YouTube mà phải tới hơn một thập kỷ sau đó, họ mới có những thay đổi này. Chaslot tin rằng những thay đổi vừa nêu chỉ mang tính ngụy tạo. Đây là lý do để năm 2016 anh viết một chương trình máy tính kiểm tra "độ trung thực" của YouTube và cũng để chứng minh cho những luận điểm còn ngờ vực của mình.

Ngôi sao YouTube Logan Paul đã xin lỗi người dùng vì đoạn video gây tranh cãi ở khu rừng "tự tử" tại Nhật Bản - Ảnh: FOXNEWS

Cánh cửa đầu tiên về Youtube

Phần mềm do kỹ sư Chaslot viết được thiết kế với mục tiêu cung cấp cho thế giới cánh cửa đầu tiên nhìn vào công cụ gợi ý video bí ẩn của YouTube. Phần mềm này mô phỏng hành vi của một người dùng bắt đầu xem một video, sau đó đi theo chuỗi các video do nền tảng YouTube gợi ý cho nó và theo dõi, thu thập dữ liệu trong suốt quá trình đó.

Phần mềm tìm kiếm các video thông qua một từ khóa, chọn một video "nguồn" để bắt đầu xem và ghi lại rất nhiều lớp video khác nhau mà YouTube gợi ý cho nó ở cột "Up next". Vì phần mềm không có lịch sử theo dõi như người dùng nên nó đảm bảo rằng các video xuất hiện trong cột "Up next" hoàn toàn là gợi ý nguyên bản từ YouTube, không phải là sự "cá nhân hóa" như YouTube thường tuyên bố. Phần mềm này lặp lại quá trình đó hàng ngàn lượt và tích lũy lại các lớp dữ liệu gồm những đề xuất video của Youtube để tạo dựng nên bức tranh tổng quát về những gì "ưa thích hơn cả" của thuật toán gợi ý trên nền tảng này.

Theo đó, trong 18 tháng qua, với dữ liệu từ phần mềm, kỹ sư Chaslot đã khám phá được những nội dung thiên lệch trong các video gợi ý của YouTube đăng tải trong các cuộc bầu cử tại Pháp, Anh và Đức về tình trạng nóng lên toàn cầu, về các vụ xả súng hàng loạt. Những kết quả này đã được anh công bố trên trang web Algotransparency.com. Nghiên cứu đi đến kết luận, mạng xã hội chia sẻ video trực tuyến YouTube đã khuyếch đại một cách có hệ thống những nội dung gây chia rẽ, giật gân và thuyết âm mưu.

Gây sốc nhất với Chaslot là những thông tin liên quan tới cuộc bầu cử Tổng thống Mỹ 2016. Theo ông thuật toán gợi ý của YouTube rõ ràng đã có ảnh hưởng không hề trung lập trong cuộc chạy đua vào Nhà Trắng năm 2016. Nền tảng này đã ưu ái hơn với các video có lợi cho ông Trump và gây tổn thất lớn cho bà Hillary Clinton. Ông giải thích: "Thật quái đản. Dù bạn bắt đầu từ đâu, dù từ một tìm kiếm về ông Trump hay tìm kiếm về bà Clinton, thuật toán gợi ý vẫn sẽ đẩy bạn theo hướng ủng hộ ông Trump".

Có tới một nửa những video mà phần mềm của kỹ sư Chaslot phát hiện từng được gợi ý trong thời gian bầu cử giờ đã biến mất khỏi YouTube!

Trần Đắc Luân
.
.