Anthropic dice que estos temas son demasiado peligrosos para que su modelo Fable 5 hable de ellos
Anthropic lanzó públicamente el martes Claude Fable 5, su primer modelo de clase "Mythos" que según dice supera a sus anteriores modelos Opus de frontera en capacidades generales. Sin embargo, el lanzamiento del modelo hoy viene con medidas de seguridad diseñadas para evitar que responda consultas sobre temas como ciberseguridad, biología y química, donde la empresa ha expresado públicamente su preocupación por su posible impacto para "fortalecer" a actores maliciosos.
Anthropric dice que Fable 5 opera en el "mismo modelo subyacente" que Mythos 5, que está saliendo de su período de "Vista Previa de Mythos" de varios meses hoy, pero solo para "un pequeño grupo de defensores cibernéticos" juzgados confiables a través del Proyecto Glasswing existente. A diferencia de Mythos 5, el Fable 5 de acceso público está diseñado para canalizar consultas sobre ciertos temas sensibles al modelo anterior Claude Opus 4.8 y para advertir al usuario cuando esto esté sucediendo.
Entre las muchas mejoras de referencia reclamadas para Fable 5, la relacionada con ciberseguridad fue un salto particularmente grande.
Anthropric dijo que ha ajustado estas medidas de seguridad para que sean "más estrictas de lo ideal", lo que significa que el sistema ocasionalmente puede rechazar "solicitudes inofensivas" de una manera que reconoce puede ser frustrante para los usuarios habituales. Pero Anthropric dice que estos falsos positivos ocurren en menos del cinco por ciento de todas las sesiones en pruebas, y valió la pena evitar situaciones donde Mythos podría dar a actores maliciosos asistencia en "causar daño grave que no hubieran podido recibir de otras fuentes".
Fable 5 tiene medidas de seguridad basadas en temas construidas alrededor de un sistema de clasificadores diseñados para detectar ampliamente temas de solicitud prohibidos así como cualquier intento potencial de evasión. En más de 1,000 horas de pruebas de equipo rojo con un programa de recompensa por errores, Anthropric dice que equipos externos no pudieron encontrar ningún jailbreak universal para Fable 5. El nuevo modelo también resistió intentos automatizados de jailbreak en un grado mucho mayor que los anteriores modelos Claude Opus, dijo Anthropric.
La empresa dijo que está particularmente preocupada por la capacidad de Mythos 5 para realizar "hacking agente", ejecutar ciberataques de múltiples partes con mucha más facilidad que modelos anteriores. Pero pruebas del Instituto de Seguridad de IA del Reino Unido en los últimos meses encontraron que Mythos Preview tuvo un desempeño similar al GPT-5.5 de OpenAI en una serie de desafíos de Captura la Bandera, sugiriendo que el desempeño de Mythos no es "un avance específico de un modelo".
