Alguien acaba de publicar una herramienta que elimina la censura de un LLM en ~45 minutos con UN solo comando.
Se llama HERETIC
https://github.com/p-e-w/heretic
Contexto rápido:
Los modelos vienen alineados para negarse a ciertos prompts.
La técnica para quitar eso se llama abliteration: localizar la “dirección de rechazo” en los pesos y borrarla matemáticamente.
Hasta ahora hacerlo bien era lento, inconsistente y solo para gente muy metida en ML.
HERETIC automatiza TODO el proceso.
Se llama HERETIC
https://github.com/p-e-w/heretic
Contexto rápido:
Los modelos vienen alineados para negarse a ciertos prompts.
La técnica para quitar eso se llama abliteration: localizar la “dirección de rechazo” en los pesos y borrarla matemáticamente.
Hasta ahora hacerlo bien era lento, inconsistente y solo para gente muy metida en ML.
HERETIC automatiza TODO el proceso.