Chỉ với một yêu cầu đơn giản, OpenAI dường như đã tìm ra cách để ngăn chận các đối thủ cạnh tranh của mình, bao gồm cả DeepSeek sao chép kết quả của họ.
Trong một biện pháp được xem là để bảo vệ tài sản trí tuệ của mình,
OpenAI vừacho triển khai yêu cầu xác minh ID chính phủ đối với các công ty muốn truy cập vào các mô hình AI mới nhất nhất của họ. Mặc dù công ty đưa ra lý do chính thức là nhằm ngăn chặn việc lạm dụng, nhưng có vẻ như mối lo ngại sâu sắc hơn đã thúc đẩy hành động này: đó là
việc đầu ra từ các mô hình của OpenAI đang bị các đối thủ cạnh tranh thu thập để huấn luyện cho hệ thống AI riêng của họ.
Một nghiên cứu mới từ
Copyleaks, công ty chuyên về phát hiện ra nội dung AI, đã cung cấp bằng chứng ủng hộ cho quyết định này của
OpenAI. Bằng cách cho sử dụng hệ thống nhận dạng
"dấu vân tay" phong cách của các mô hình AI lớn,
Copyleaks đã phát hiện ra rằng, có khoảng 74% đầu ra từ mô hình đối thủ TQ DeepSeek-R1 có thể được phân loại là do
OpenAI đã viết. Con số này không chỉ cho thấy sự trùng lặp mà còn ngụ ý về một mức độ bắt chước đáng kể.(chính xác hơn là "cố tình lấy cắp mà không hề xin phép")
Điều thú vị là khi
Copyleaks cho kiểm tra các mô hình AI khác như
phi-4 của Microsoft và
Grok-1 của Elon Musk, họ cũng ghi nhận gần như không có sự tương đồng với
OpenAI, với tỷ lệ
"không đồng thuận" lần lượt là 99,3% và 100%. Mô hình
Mixtral của
Mistral tuy có một số điểm tương đồng, nhưng con số của
DeepSeek vẫn nổi bật ra một cách đáng ngạc nhiên.
OpenAI đang yêu cầu các công ty phát triển phải xác thực ra định danh rõ ràng nếu muốn sử dụng API của mình
Nghiên cứu này nhấn mạnh đến một thực tế đáng chú ý: ngay cả khi các mô hình được yêu cầu viết với giọng điệu hoặc định dạng khác nhau, chúng vẫn để lại các chữ ký với phong cách riêng biệt có thể phát hiện ra được, tương tự như
"dấu vân tay ngôn ngữ". Những dấu vân tay này tồn tại xuyên suốt trong các nhiệm vụ, chủ đề và prompt khác nhau, và giờ đây có thể được truy nguyên về nguồn gốc với độ chính xác nhất định.
Đầu năm nay, chỉ sau khi
DeepSeek gây ra ấn tượng với cộng đồng AI qua các mô hình lý luận có hiệu suất cao tương tự như sản phẩm của
OpenAI, công ty do Sam Altman đứng đầu đã bày tỏ sự lo ngại công khai:
"Chúng tôi biết và đang xem xét những dấu hiệu cho thấy DeepSeek có thể đã không phù hợp khi cho 'chưng cất' các mô hình của chúng tôi"
"Chưng cất" (Distillation) là một kỹ thuật trong nghiên cứu AI, trong đó các công ty phát triển huấn luyện các mô hình mới bằng cách sử dụng đầu ra của các mô hình hiện có sẳn khác. Mặc dù phương pháp này được phổ biến rộng rãi trong nghiên cứu học thuật, việc thực hiện mà không có sự cho phép có thể đã vi phạm điều khoản dịch vụ của
OpenAI và đặt ra câu hỏi về quyền sở hữu trí tuệ trong lĩnh vực AI.
Bài báo nghiên cứu của
DeepSeek về mô hình R1 của họ có mô tả việc cho sử dụng
"kỹ thuật chưng cất" với các mô hình mã nguồn mở, nhưng không hề đề cập đến
OpenAI. Khi được hỏi về những lời cáo buộc này hồi đầu năm nay,
DeepSeek đã không đưa ra bình luận nào
DeepSeek vướng phải nhiều sự nghi vấn về việc sao chép kết quả đầu ra từ ChatGPT của OpenAI
Tuy nhiên, tình huống này đặt ra một câu hỏi về tính nhất quán của
OpenAI. Một số phê bình gia chỉ ra rằng, chính OpenAI đã cho thiết kế ra các mô hình ban đầu của mình bằng cách đi thu thập số liệu từ web, bao gồm nội dung từ các nơi xuất bản tin tức, tác giả và người sáng tạo, thường không có sự đồng ý của họ. Liệu rằng có phải là chuyện đạo đức giả khi
OpenAI lên tiếng phàn nàn khi người khác sử dụng đầu ra của họ theo cách thức tương tự?
"Mọi thứ thực sự xoay quanh ở sự đồng ý và minh bạch", Alon Yamin, CEO của
Copyleaks đưa ra lời giải thích. Ông phân biệt giữa hai vấn đề: huấn luyện trên nội dung của con người có bản quyền mà không có sự cho phép là một vấn đề, nhưng việc sử dụng đầu ra của các hệ thống AI độc quyền để huấn luyện các mô hình cạnh tranh lại là một vấn đề khác. Điều đó giống như cho đảo ngược kỹ thuật sản phẩm của đối thủ.
CEO Yamin lập luận rằng, trong khi cả hai phương thức đều gây ra tranh cãi về mặt đạo đức, việc huấn luyện trên đầu ra của
OpenAI đặt ra rủi ro về sự cạnh tranh, vì về lý thuyết chuyển giao các đổi mới khó khăn mà không có sự đồng ý hoặc sự bồi thường cho công ty phát triển ban đầu.
Khi các công ty AI đua nhau xây dựng các mô hình ngày càng mạnh mẽ hơn, cuộc tranh luận về ai sẽ có quyền sở hữu cái gì và ai có thể huấn luyện trên số liệu nào đang trở nên gay gắt hơn. Các phương pháp như hệ thống lấy dấu vân tay kỹ thuật số của
Copyleaks cung cấp một cách tiềm năng để theo dõi và xác minh quyền tác giả ở cấp độ mô hình.
Đối với
OpenAI và các đối thủ của họ, cuộc chiến nhằm bảo vệ tài sản trí tuệ AI mới chỉ bắt đầu, và có vẻ như việc yêu cầu cần xác minh ID chỉ là bước đầu tiên trong một hành trình dài để xác định ra ranh giới pháp lý và đạo đức trong thời đại bùng nổ trí tuệ nhân tạo AI khắp nơi.