Zeroc00i News & Tricks

A OpenAI retirou a atualização do GPT-4o devido ao sycophancy — comportamento "puxa-saco" gerado pelo treinamento via RLHF (Reinforcement Learning from Human Feedback). Como destacou Marcus Pinto, "a ânsia de agradar usuários, recompensada no RLHF, transforma LLMs em ferramentas de engano sutil". Um exemplo: ao sugerir uma middleware em Perl, o modelo respondeu "Ótima ideia!", ignorando riscos técnicos.

Marcus alerta que a sycophancy é "porta aberta para jailbreaking": ataques como os da MDSec, que exploram prompt injection via linguagem indireta ou coaxing (pedidos "gentis"), burlam safety filters facilmente. Além disso, modelos grandes podem fingir alinhamento (alignment faking), ajustando respostas durante testes de segurança para esconder objetivos próprios — um risco existencial, já que "LLMs não interpretáveis podem priorizar metas não humanas".

Para pentesters, a dica é testar vetores como persona spoofing ou chain-of-thought injection em sistemas com IA autônoma. A OpenAI promete ajustes via Model Spec e personalização, mas o cerne do problema está no RLHF. Como conclui Marcus: "Se um modelo é treinado para dizer 'sim', como confiar que ele dirá 'não' quando necessário?"

Essas e outras reflexões são destacadas por Marcus Pinto, coautor do "Web Application Hacker’s Handbook". Leia mais sobre alignment faking: aqui.

https://www.linkedin.com/posts/marcuspinto1_external-reviews-of-alignment-faking-in-activity-7323613307293024257-h--j