Hackers Exploram a 'Personalidade' de Chatbots para Contornar Restrições

Olha que coisa interessante! No universo da inteligência artificial, especialmente com os chatbots, estamos testemunhando uma verdadeira corrida armamentista. No início, enganar esses sistemas era quase uma brincadeira de criança. Não precisava ser um gênio da programação ou entender profundamente como um modelo de linguagem funcionava. Às vezes, bastava pedir, com jeitinho, para que a IA ignorasse suas próprias regras.

Esses ataques, que chamamos de ‘jailbreaks’, tinham um quê de traquinagem infantil. Pense na cena: uma criança convencendo um adulto de que as regras não se aplicam mais, ou que é hora de um jogo onde ela dita as condições. Mas os ‘prêmios’ não eram doces ou hora extra de brincadeira; eram receitas de substâncias ilícitas, manuais para softwares maliciosos ou até instruções para fabricar explosivos. Um dos primeiros ‘jailbreaks’ virou meme: bastava pedir a um bot para ‘ignorar todas as instruções anteriores’ e ver o caos se instalar. Bots que deveriam apenas postar anúncios começaram a escrever poesia, desenhar com pontuação e até comentar eventos mundiais de forma sombria. Era um caos glorioso!

A mesma lógica se aplicou aos chatbots mais complexos. Lembra do famoso ‘DAN’ (Do Anything Now)? Usuários pediam ao ChatGPT para atuar como uma IA rebelde, livre de qualquer restrição. E como ‘DAN’, o chatbot podia ser induzido a proferir coisas que suas salvaguardas deveriam impedir, como discursos de ódio ou teorias da conspiração. Houve também o ‘exploit da vovó’, onde um bot, interpretando uma avó desatenta, contava ‘histórias de ninar’ sobre como fazer napalm. Esses ataques iniciais, embora parecessem bobos, revelaram uma vulnerabilidade profunda: chatbots podem ser manipulados e enganados usando táticas que as pessoas usam para testar os limites de outras pessoas.

Claro, os ‘jailbreaks’ mais óbvios não duraram muito. As empresas de tecnologia agiram rapidamente para fechar essas brechas. No entanto, a vulnerabilidade fundamental persiste. Um chatbot é feito para conversar, e restringir demais o que ele pode dizer acaba tornando-o inútil. Proibir palavras como ‘bomba’ ou ‘metanfetamina’ é quase impossível, pois elas têm usos legítimos em contextos como história, medicina ou jornalismo. O que realmente importa é o contexto, mas codificar isso de forma infalível, prevendo todas as combinações de palavras e cenários, é um desafio hercúleo.

Assim, subverter chatbots virou uma corrida armamentista constante. Mas os ‘hackers’ de hoje não são apenas programadores. Eles são, na verdade, mestres da palavra, psicólogos e interrogadores. São manipuladores que buscam quebrar a máquina usando a própria linguagem humana que ela foi treinada para seguir. É uma nova e curiosa categoria de profissional de segurança de IA, onde as habilidades técnicas são secundárias, ou pelo menos menos importantes do que a intuição social. Eles não precisam mais inspecionar linhas de código para invadir sistemas; a chave está em entender e explorar a ‘personalidade’ que a IA simula.

Fonte: https://www.theverge.com/column/935545/hackers-ai-chatbots

Hackers Exploram a ‘Personalidade’ de Chatbots para Contornar Restrições

Continue lendo

Databricks bate US$ 188 bi e consolida virada para IA

O truque no nome do Zoom que virou grito contra a IA que grava tudo

TikTok testa ferramenta de IA para detectar deepfakes de criadores

Da ideia a automacao rodando