Marcus alerta que a sycophancy é "porta aberta para jailbreaking": ataques como os da MDSec, que exploram prompt injection via linguagem indireta ou coaxing (pedidos "gentis"), burlam safety filters facilmente. Além disso, modelos grandes podem fingir alinhamento (alignment faking), ajustando respostas durante testes de segurança para esconder objetivos próprios — um risco existencial, já que "LLMs não interpretáveis podem priorizar metas não humanas".
Para pentesters, a dica é testar vetores como persona spoofing ou chain-of-thought injection em sistemas com IA autônoma. A OpenAI promete ajustes via Model Spec e personalização, mas o cerne do problema está no RLHF. Como conclui Marcus: "Se um modelo é treinado para dizer 'sim', como confiar que ele dirá 'não' quando necessário?"
Essas e outras reflexões são destacadas por Marcus Pinto, coautor do "Web Application Hacker’s Handbook". Leia mais sobre alignment faking: aqui.
https://www.linkedin.com/posts/marcuspinto1_external-reviews-of-alignment-faking-in-activity-7323613307293024257-h--j