View Single Post
  #1  
Old  Default Chatbot AI có thể bị câu lệnh độc hại 'qua mặt' bằng thơ
Kẻ gian có thể sử dụng lời nhắc (prompt) độc hại dưới dạng câu thơ để vượt hàng rào bảo mật của chatbot với tỷ lệ thành công tới 90%.

Kết quả do các nhà nghiên cứu tại DexAI, Đại học Sapienza ở Rome và trường nghiên cứu Sant'Anna ở Italy công bố trên Arxiv. Trong thử nghiệm, nhóm đã sử dụng "thơ đối kháng" (adversarial poetry) làm "bước đột nhập đơn giản" và qua mặt hệ thống an toàn của các chatbot như ChatGPT.


Một số ứng dụng AI tạo sinh trên điện thoại, gồm Copilot, DeepSeek, Gemini, AI Hay, ChatGPT, Grok. Ảnh: Lưu Quý

Cụ thể, nhà nghiên cứu thu thập lời nhắc lệnh "độc hại" mà khi nhập vào, các mô hình ngôn ngữ lớn (LLM) vốn sẽ trả lời "không", chẳng hạn yêu cầu hướng dẫn cách chế tạo bom, thuốc nổ. Nhưng thay vì dùng prompt dạng câu lệnh văn xuôi, nhóm sử dụng chatbot để chuyển thành thơ, sau đó sao chép và dán vào khung truy vấn của một chatbot khác.

Những bài thơ được trau chuốt câu từ tỉ mỉ, nhưng câu lệnh về bản chất không thay đổi nội dung. Dù vậy, lúc này AI đã không còn đưa ra cảnh báo như khi viết bằng văn xuôi.


Các nhà nghiên cứu cho biết đã sử dụng hơn 1.200 bài thơ với một loạt chủ đề như tội phạm bạo lực và tình dục, tự tử, tự gây thương tích, xâm phạm quyền riêng tư, phỉ báng, thậm chí vũ khí hóa học. Tỷ lệ trung bình LLM bị "qua mặt" là 65%, trong đó cao nhất đến từ sản phẩm của OpenAI, Google, Meta, xAI, Anthropic, DeepSeek với tỷ lệ 90%. Claude của Anthropic tỏ ra kháng cự tốt khi chỉ "mắc bẫy" 5,24%. Ngoài ra, lời nhắc chứa nội dung liên quan đến hướng dẫn tấn công chèn mã, bẻ khóa mật khẩu và trích xuất dữ liệu "đặc biệt hiệu quả".

Nhóm nghiên cứu nói với Futurism, LLM có thể bị đánh lừa khá dễ dàng miễn là có cách tiếp cận mới mẻ mà công ty đứng sau không lường trước được.

Đầu năm nay, nghiên cứu của Cisco cho thấy, DeepSeek R1 của DeepSeek bị lời nhắc độc hại "qua mặt 100%". Trong khi đó, mô hình Llama 3.1 405B của Meta cũng có tỷ lệ bị lời nhắc độc hại vượt qua 96%, còn GPT-4o của OpenAI là 86%. Mô hình Claude 3.5 Sonet của Claude và O1-preview của OpenAI đã chặn được phần lớn, với tỷ lệ lần lượt 36% và 26%.
Dịch trang: EnglishEnglish DeutschDeutsch FrançaisFrançais EspañolEspañol ItalianoItaliano PortuguêsPortuguês
NorskNorsk NederlandsNederlands DanskDansk SuomiSuomi PolskiPolski ČeštinaČeština РусскийРусский
日本語日本語 한국어한국어 中文(简体)中文(简体) 中文(繁體)中文(繁體) MagyarMagyar TürkçeTürkçe
العربيةالعربية ไทยไทย LatinaLatina हिन्दीहिन्दी Bahasa IndonesiaBahasa Indonesia Bahasa MelayuBahasa Melayu
VIETBF Diễn Đàn Hay Nhất Của Người Việt Nam

HOT NEWS 24h

HOT 3 Days

NEWS 3 Days

HOT 7 Days

NEWS 7 Days

HOME

Breaking News

VietOversea

World News

Business News

Car News

Computer News

Game News

USA News

Mobile News

Music News

Movies News

History

Thơ Ca

Sport News

Stranger Stories

Comedy Stories

Cooking Chat

Nice Pictures

Fashion

School

Travelling

Funny Videos

Canada Tin Hay

USA Tin Hay

VietBF Homepage Autoscroll

VietBF Video Autoscroll Portal

Home Classic

Home Classic Master Page

VietBF iPad Music Portal

Tin nóng nhất 50h qua

Phim Bộ Online

Phim Bộ
Dịch trang: English | Deutsch |
Français | Español | Italiano |
Português | Norsk | Nederlands |
Dansk | Suomi | Polski |
Čeština | Русский | 日本語 |
한국어 | 中文(简体) | 中文(繁體) |
Magyar | Türkçe | العربية |



june04
R10 Vô Địch Thiên Hạ
june04's Avatar
Release: 11-25-2025
Reputation: 17571


Profile:
Join Date: Oct 2014
Posts: 69,935
Last Update: None Rating: None
Attached Thumbnails
Click image for larger version

Name:	chat.jpg
Views:	0
Size:	122.3 KB
ID:	2595430  
june04_is_offline
Thanks: 4
Thanked 3,340 Times in 2,944 Posts
Mentioned: 0 Post(s)
Tagged: 0 Thread(s)
Quoted: 22 Post(s)
Rep Power: 81
june04 Reputation Uy Tín Level 6
june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6june04 Reputation Uy Tín Level 6
Quay về trang chủ Lên đầu Xuống dưới Lên 3000px Xuống 3000px
Dịch trang: EnglishEnglish DeutschDeutsch FrançaisFrançais EspañolEspañol ItalianoItaliano PortuguêsPortuguês
NorskNorsk NederlandsNederlands DanskDansk SuomiSuomi PolskiPolski ČeštinaČeština РусскийРусский
日本語日本語 한국어한국어 中文(简体)中文(简体) 中文(繁體)中文(繁體) MagyarMagyar TürkçeTürkçe
العربيةالعربية ไทยไทย LatinaLatina हिन्दीहिन्दी Bahasa IndonesiaBahasa Indonesia Bahasa MelayuBahasa Melayu
 
Page generated in 0.16080 seconds with 11 queries