Американский стартап Anthropic заплатит до $15 000 хакерам, которые могут обойти защиту искусственного интеллекта и заставить их чат-боты Claude генерировать вредоносный контент. Об этом пишет The Information.
Речь идет о том, что компания хочет протестировать свою последнюю систему безопасности искусственного интеллекта, которая еще не была обнародована. Вознаграждение получат те, кто сможет заставить Claude отвечать на вопросы о различных чувствительных темах, таких как химическое и биологическое оружие. Anthropic также хочет привлечь в свою новую программу хакеров, публикующих джейлбрейки в Х.
Практика показывает, что создать полностью безопасный AI-чат-бот затруднительно. В прошлом месяце компания по безопасности ИИ выпустила Cygnet. Утверждалось, что эта модель является вершиной безопасной разработки AI. Но уже через сутки анонимный аккаунт в Х показал, что она генерирует инструкции по изготовлению коктейля Молотова.
по материалам
уникальность