Anthropic da marcha atrás en política que 'saboteó' el trabajo de investigadores
Anthropic está dando marcha atrás en una política que discretamente obstaculizaba a los investigadores que usaban su nuevo Claude Fable 5 LLM para crear modelos de IA competidores, según informó la compañía a Wired. "Estamos cambiando los sistemas de seguridad de Fable 5 para el desarrollo de LLM fronterizos para hacerlos visibles", dijo la compañía en un comunicado. "Hicimos la compensación equivocada y nos disculpamos por no lograr el equilibrio correcto."
Cuando Anthropic lanzó Claude Fable 5, un nuevo modelo basado en su poderoso sistema Mythos, los investigadores notaron algo extraño. Descubrieron que Fable 5 redirigía silenciosamente las solicitudes a un modelo inferior cuando se le pedía que realizara ciertas acciones. Además, esa restricción no estaba divulgada en la documentación del modelo.
El nuevo modelo se estaba negando o degradando respuestas para tareas como entrenar LLMs competidores, depurar código de IA y optimizar arquitectura neuronal. Los investigadores estaban molestos no solo por esa degradación sino por la falta de transparencia de Anthropic al respecto. También estaban preocupados, por supuesto, de que hubieran gastado tokens y dinero en un modelo que no hacía lo que esperaban.
Anthropicse ha presentado a sí misma como una alternativa más ética y amigable con los investigadores que OpenAI, así que sus acciones con Fable 5 generaron un rápido rechazo. "Degradar el desempeño en investigación de ML sin decirle al usuario es sorprendentemente hostil y se ve terrible", dijo el investigador y autor de Substack Dean W. Ball en X.
Anthropicno está revirtiendo su política de sistemas de seguridad en Fable 5, sino haciendo visibles las restricciones para los usuarios. "Si la compañía sospecha que un usuario está intentando usar Claude para construir una IA altamente capaz, le alertará que está rechazando la solicitud o redirigiendo al usuario a un modelo menos capaz", escribió Wired.
