Chỉ với một yêu cầu đơn giản, OpenAI dường như đă t́m ra cách để ngăn chận các đối thủ cạnh tranh của ḿnh, bao gồm cả DeepSeek sao chép kết quả của họ.
Trong một biện pháp được xem là để bảo vệ tài sản trí tuệ của ḿnh,
OpenAI vừacho triển khai yêu cầu xác minh ID chính phủ đối với các công ty muốn truy cập vào các mô h́nh AI mới nhất nhất của họ. Mặc dù công ty đưa ra lư do chính thức là nhằm ngăn chặn việc lạm dụng, nhưng có vẻ như mối lo ngại sâu sắc hơn đă thúc đẩy hành động này: đó là
việc đầu ra từ các mô h́nh của OpenAI đang bị các đối thủ cạnh tranh thu thập để huấn luyện cho hệ thống AI riêng của họ.
Một nghiên cứu mới từ
Copyleaks, công ty chuyên về phát hiện ra nội dung AI, đă cung cấp bằng chứng ủng hộ cho quyết định này của
OpenAI. Bằng cách cho sử dụng hệ thống nhận dạng
"dấu vân tay" phong cách của các mô h́nh AI lớn,
Copyleaks đă phát hiện ra rằng, có khoảng 74% đầu ra từ mô h́nh đối thủ TQ DeepSeek-R1 có thể được phân loại là do
OpenAI đă viết. Con số này không chỉ cho thấy sự trùng lặp mà c̣n ngụ ư về một mức độ bắt chước đáng kể.(chính xác hơn là "cố t́nh lấy cắp mà không hề xin phép")
Điều thú vị là khi
Copyleaks cho kiểm tra các mô h́nh AI khác như
phi-4 của Microsoft và
Grok-1 của Elon Musk, họ cũng ghi nhận gần như không có sự tương đồng với
OpenAI, với tỷ lệ
"không đồng thuận" lần lượt là 99,3% và 100%. Mô h́nh
Mixtral của
Mistral tuy có một số điểm tương đồng, nhưng con số của
DeepSeek vẫn nổi bật ra một cách đáng ngạc nhiên.
OpenAI đang yêu cầu các công ty phát triển phải xác thực ra định danh rơ ràng nếu muốn sử dụng API của ḿnh
Nghiên cứu này nhấn mạnh đến một thực tế đáng chú ư: ngay cả khi các mô h́nh được yêu cầu viết với giọng điệu hoặc định dạng khác nhau, chúng vẫn để lại các chữ kư với phong cách riêng biệt có thể phát hiện ra được, tương tự như
"dấu vân tay ngôn ngữ". Những dấu vân tay này tồn tại xuyên suốt trong các nhiệm vụ, chủ đề và prompt khác nhau, và giờ đây có thể được truy nguyên về nguồn gốc với độ chính xác nhất định.
Đầu năm nay, chỉ sau khi
DeepSeek gây ra ấn tượng với cộng đồng AI qua các mô h́nh lư luận có hiệu suất cao tương tự như sản phẩm của
OpenAI, công ty do Sam Altman đứng đầu đă bày tỏ sự lo ngại công khai:
"Chúng tôi biết và đang xem xét những dấu hiệu cho thấy DeepSeek có thể đă không phù hợp khi cho 'chưng cất' các mô h́nh của chúng tôi"
"Chưng cất" (Distillation) là một kỹ thuật trong nghiên cứu AI, trong đó các công ty phát triển huấn luyện các mô h́nh mới bằng cách sử dụng đầu ra của các mô h́nh hiện có sẳn khác. Mặc dù phương pháp này được phổ biến rộng răi trong nghiên cứu học thuật, việc thực hiện mà không có sự cho phép có thể đă vi phạm điều khoản dịch vụ của
OpenAI và đặt ra câu hỏi về quyền sở hữu trí tuệ trong lĩnh vực AI.
Bài báo nghiên cứu của
DeepSeek về mô h́nh R1 của họ có mô tả việc cho sử dụng
"kỹ thuật chưng cất" với các mô h́nh mă nguồn mở, nhưng không hề đề cập đến
OpenAI. Khi được hỏi về những lời cáo buộc này hồi đầu năm nay,
DeepSeek đă không đưa ra b́nh luận nào
DeepSeek vướng phải nhiều sự nghi vấn về việc sao chép kết quả đầu ra từ ChatGPT của OpenAI
Tuy nhiên, t́nh huống này đặt ra một câu hỏi về tính nhất quán của
OpenAI. Một số phê b́nh gia chỉ ra rằng, chính OpenAI đă cho thiết kế ra các mô h́nh ban đầu của ḿnh bằng cách đi thu thập số liệu từ web, bao gồm nội dung từ các nơi xuất bản tin tức, tác giả và người sáng tạo, thường không có sự đồng ư của họ. Liệu rằng có phải là chuyện đạo đức giả khi
OpenAI lên tiếng phàn nàn khi người khác sử dụng đầu ra của họ theo cách thức tương tự?
"Mọi thứ thực sự xoay quanh ở sự đồng ư và minh bạch", Alon Yamin, CEO của
Copyleaks đưa ra lời giải thích. Ông phân biệt giữa hai vấn đề: huấn luyện trên nội dung của con người có bản quyền mà không có sự cho phép là một vấn đề, nhưng việc sử dụng đầu ra của các hệ thống AI độc quyền để huấn luyện các mô h́nh cạnh tranh lại là một vấn đề khác. Điều đó giống như cho đảo ngược kỹ thuật sản phẩm của đối thủ.
CEO Yamin lập luận rằng, trong khi cả hai phương thức đều gây ra tranh căi về mặt đạo đức, việc huấn luyện trên đầu ra của
OpenAI đặt ra rủi ro về sự cạnh tranh, v́ về lư thuyết chuyển giao các đổi mới khó khăn mà không có sự đồng ư hoặc sự bồi thường cho công ty phát triển ban đầu.
Khi các công ty AI đua nhau xây dựng các mô h́nh ngày càng mạnh mẽ hơn, cuộc tranh luận về ai sẽ có quyền sở hữu cái ǵ và ai có thể huấn luyện trên số liệu nào đang trở nên gay gắt hơn. Các phương pháp như hệ thống lấy dấu vân tay kỹ thuật số của
Copyleaks cung cấp một cách tiềm năng để theo dơi và xác minh quyền tác giả ở cấp độ mô h́nh.
Đối với
OpenAI và các đối thủ của họ, cuộc chiến nhằm bảo vệ tài sản trí tuệ AI mới chỉ bắt đầu, và có vẻ như việc yêu cầu cần xác minh ID chỉ là bước đầu tiên trong một hành tŕnh dài để xác định ra ranh giới pháp lư và đạo đức trong thời đại bùng nổ trí tuệ nhân tạo AI khắp nơi.