VietBF - Reddit tố Perplexity ăn cắp dữ liệu để dạy AI thông minh hơn

Cuộc chiến pháp lý giữa các nền tảng nội dung và doanh nghiệp AI tiếp tục leo thang. Mới đây, Reddit đã chính thức đưa Perplexity ra tòa, cáo buộc startup này ăn cắp dữ liệu để huấn luyện công cụ trí tuệ nhân tạo của mình...

Perplexity đã bị Reddit kiện vì thu thập trái phép dữ liệu để huấn luyện AI

Nền tảng mạng xã hội Reddit đã đệ đơn kiện công ty khởi nghiệp trí tuệ nhân tạo Perplexity tại tòa án liên bang New York với cáo buộc công ty này cùng ba doanh nghiệp khác thu thập trái phép dữ liệu của Reddit để huấn luyện công cụ tìm kiếm dựa trên AI của Perplexity.

Trong đơn kiện, Reddit cho biết các công ty thu thập dữ liệu đã vượt qua các biện pháp bảo vệ nhằm chiếm đoạt thông tin mà Perplexity được cho là rất cần để vận hành hệ thống answer engine (công cụ trả lời) của mình.

Vụ việc này được xem là một trong nhiều vụ kiện mà các chủ sở hữu nội dung đang tiến hành nhằm chống lại những công ty công nghệ bị cáo buộc sử dụng trái phép tài liệu có bản quyền để huấn luyện trí tuệ nhân tạo. Trước đó, vào tháng 6, Reddit cũng đã khởi kiện công ty AI Anthropic và vụ kiện đó vẫn đang được tiếp tục.

Trong một tuyên bố, Perplexity cho rằng họ luôn duy trì cách tiếp cận có nguyên tắc và có trách nhiệm khi cung cấp các câu trả lời dựa trên dữ kiện thông qua AI chính xác, đồng thời không chấp nhận bất kỳ mối đe dọa nào đối với sự cởi mở và lợi ích công cộng.

Ben Lee, Giám đốc pháp lý của Reddit, nhận định các công ty AI đang lao vào một cuộc chạy đua để giành lấy nội dung do con người tạo ra, chính áp lực đó đã thúc đẩy sự hình thành của một nền kinh tế “rửa dữ liệu” ở quy mô công nghiệp.

Reddit, nền tảng quy tụ hàng nghìn cộng đồng “subreddit” theo từng sở thích, khẳng định mình là một trong những nguồn được trích dẫn nhiều nhất trong các câu trả lời do AI tạo ra. Công ty cũng cho biết đã cấp phép nội dung cho Google, OpenAI và một số tổ chức khác để phục vụ quá trình huấn luyện mô hình AI.

Theo đơn kiện, Oxylabs (Lithuania), AWMProxy (Nga) và SerpApi (Texas, Mỹ) bị cáo buộc thu thập dữ liệu từ hàng tỷ kết quả tìm kiếm trên Reddit mà không được phép. Trong khi Perplexity, công ty không có giấy phép sử dụng nội dung Reddit, đã hợp tác với ít nhất một trong số các bên này để lấy dữ liệu.

Phát ngôn viên của SerpApi cho biết, công ty không đồng tình với các cáo buộc của Reddit và sẽ kiên quyết tự bảo vệ mình trước tòa. Trong khi đó, Oxylabs cho rằng họ bị sốc và thất vọng vì Reddit chưa từng liên hệ trực tiếp trước khi khởi kiện, cùng với đó là khẳng định sẽ bảo vệ quyền lợi của mình trước các cáo buộc. AWMProxy hiện chưa đưa ra bình luận.

Được biết, Reddit đã gửi thư yêu cầu Perplexity ngừng hành vi vi phạm từ năm ngoái, nhưng sau đó công ty này lại tăng số lượng trích dẫn nội dung từ Reddit lên gấp 40 lần.

Trong đơn kiện, Reddit yêu cầu tòa án buộc Perplexity bồi thường thiệt hại (mức cụ thể chưa được xác định) và ra lệnh cấm công ty tiếp tục sử dụng dữ liệu từ nền tảng của mình.

Vietbf @ Sưu tầm