Reddit kiện Anthropic vì sử dụng dữ liệu huấn luyện AI mà không trả phí

12/06/2025, 18:00

Reddit vừa khởi kiện công ty AI Anthropic vì cho rằng họ đã sử dụng dữ liệu từ nền tảng này để huấn luyện mô hình AI mà không xin phép. Đây là động thái pháp lý đầu tiên từ một ông lớn công nghệ nhằm bảo vệ dữ liệu trước làn sóng phát triển AI.

Ảnh minh hoạ.

Đầu tháng 6 vừa qua, Reddit đã đệ đơn kiện công ty khởi nghiệp Trí tuệ nhân tạo (AI) Anthropic tại tòa án Bắc California với cáo buộc sử dụng dữ liệu từ nền tảng của họ để huấn luyện mô hình AI mà không có thỏa thuận cấp phép chính thức. Trong đơn kiện, Reddit cho rằng việc Anthropic khai thác dữ liệu của họ cho mục đích thương mại mà không được phép là hành vi trái pháp luật, đồng thời vi phạm thỏa thuận người dùng của Reddit.

Đây là lần đầu tiên một công ty công nghệ lớn khởi kiện một nhà cung cấp mô hình AI về cách họ thu thập dữ liệu huấn luyện. Điều này cho thấy Reddit đang tham gia vào làn sóng nhiều nhà xuất bản đưa đơn kiện các công ty công nghệ vì lý do tương tự.

Trước đó, trang báo nổi tiếng The New York Times đã kiện OpenAI và Microsoft vì sử dụng các bài báo của họ để huấn luyện AI mà không xin phép hay chi trả. Nhà văn, biên kịch, diễn viên Sarah Silverman cùng một số tác giả sách khác cũng đã đệ đơn kiện Meta vì cho rằng công ty này dùng sách của họ để huấn luyện mô hình AI mà không có sự đồng ý. Các nghệ sĩ và nhà xuất bản âm nhạc cũng đang kiện các startup AI chuyên tạo nội dung âm thanh, hình ảnh và video vì hành vi tương tự.

“Chúng tôi không chấp nhận việc các công ty như Anthropic tìm cách thu lợi từ nội dung của Reddit để kiếm hàng tỷ USD mà không mang lại bất kỳ giá trị nào cho người dùng Reddit, cũng như không tôn trọng quyền riêng tư của họ,” ông Ben Lee, Giám đốc pháp lý của Reddit, trả lời trong một cuộc phỏng vấn.

Đáng chú ý, Reddit đã ký thỏa thuận hợp tác với một số công ty AI khác là OpenAI và Google, cho phép họ sử dụng dữ liệu của Reddit để huấn luyện mô hình và đưa các bài đăng của Reddit vào câu trả lời của các chatbot AI tương ứng. Tuy nhiên trong hồ sơ nộp lên, Reddit nhấn mạnh rằng các thỏa thuận với OpenAI và Google đều đi kèm điều khoản bảo vệ quyền lợi và quyền riêng tư của người dùng.

Sam Altman, CEO của OpenAI, hiện đang nắm giữ 8,7% cổ phần tại Reddit, là cổ đông lớn thứ ba và từng là thành viên hội đồng quản trị của công ty này.

Trong đơn kiện, Reddit cho biết họ đã chủ động liên hệ với Anthropic để thông báo rõ ràng rằng công ty này không được phép thu thập hay sử dụng nội dung từ Reddit. Tuy nhiên, Reddit cáo buộc rằng Anthropic “đã từ chối hợp tác.”

Ngoài ra, Reddit cho rằng các bot thu thập dữ liệu của Anthropic đã phớt lờ tệp robots.txt - một công cụ tiêu chuẩn dùng để ngăn các hệ thống tự động thu thập dữ liệu trên website. Nền tảng cộng đồng online này cũng cáo buộc rằng, dù Anthropic từng cam kết sẽ chặn bot của mình khỏi việc thu thập dữ liệu từ Reddit vào năm 2024, thực tế các bot này vẫn tiếp tục truy cập nền tảng hơn 100.000 lần.

Reddit đang yêu cầu tòa án buộc Anthropic bồi thường thiệt hại, trả lại toàn bộ lợi ích mà Anthropic có được từ việc thu thập trái phép dữ liệu Reddit, và ban hành lệnh cấm Anthropic tiếp tục sử dụng nội dung từ nền tảng này.