Anthropic заплатит до $15 000 хакерам, которые смогут заставить ее чат-боты Claude генерировать вредоносный контент

Alcest · 10.08.2024

Американский стартап Anthropic заплатит до $15 000 хакерам, которые могут обойти защиту искусственного интеллекта и заставить их чат-боты Claude генерировать вредоносный контент. Об этом пишет The Information.

Речь идет о том, что компания хочет протестировать свою последнюю систему безопасности искусственного интеллекта, которая еще не была обнародована. Вознаграждение получат те, кто сможет заставить Claude отвечать на вопросы о различных чувствительных темах, таких как химическое и биологическое оружие. Anthropic также хочет привлечь в свою новую программу хакеров, публикующих джейлбрейки в Х.

Практика показывает, что создать полностью безопасный AI-чат-бот затруднительно. В прошлом месяце компания по безопасности ИИ выпустила Cygnet. Утверждалось, что эта модель является вершиной безопасной разработки AI. Но уже через сутки анонимный аккаунт в Х показал, что она генерирует инструкции по изготовлению коктейля Молотова.

по материалам
уникальность

Anthropic заплатит до $15 000 хакерам, которые смогут заставить ее чат-боты Claude генерировать вредоносный контент

Похожие темы