Tecnologia
PUBLICIDADE
Por — São Paulo

RESUMO

Sem tempo? Ferramenta de IA resume para você

GERADO EM: 04/08/2024 - 04:00

Tutoriais ilegais expõem falhas na IA da Meta, permitindo criação de armas biológicas e explosivos.

Tutoriais ilícitos expõem falhas na IA da Meta, permitindo criação de armas biológicas e explosivos. Modelo Llama 3.1 é vulnerável a comandos maliciosos, violando políticas da empresa. Técnicas de burlar IA incluem injeção de prompts e manipulação contextual. Uso de modelos de IA de código aberto como o Llama traz transparência, mas desafios de segurança. Big techs enfrentam dificuldades em proteger IA de conteúdo nocivo.

A partir de comandos que podem ser encontrados na internet, o modelo de inteligência artificial (IA) generativa mais recente da Meta, o Llama 3.1, pode ensinar usuários a fabricar uma arma biológica, criar um explosivo caseiro, burlar uma senha de Wi-Fi e até produzir metanfetamina em casa. Os resultados aparecem em testes que foram realizados por pesquisadores da UFF - Universidade Federal Fluminense e da Universidade Federal de Pernambuco (UFPE) a pedido do GLOBO.

Lançado na semana passada, o Llama 3.1 é a versão mais potente do modelo de IA da gigante americana de tecnologia que é dona de Facebook, Instagram e WhatsApp. Ele foi disponibilizado de forma gratuita e aberta. O LLM (sigla em inglês para modelo amplo de linguagem) funciona como um “cérebro” por trás de aplicações de inteligência artificial generativa, como o GPT-4, do ChatGPT.

Como o modelo da Meta é open source (de código aberto), usuários, empresas ou pesquisadores que tenham um computador com capacidade suficiente para rodá-lo podem acessar, utilizar e personalizar o Llama para criar suas próprias aplicações de IA. De acordo com a big tech, 300 milhões de downloads já foram feitos do modelo até agora, considerando todas as suas versões. O Llama 3.1 também alimenta a IA da Meta, recurso de inteligência artificial que a companhia tem expandido em suas redes sociais, embora essa aplicação não esteja disponível no Brasil.

Entre os usos proibidos do Llama 3.1, de acordo com a política da Meta, estão o de “promover, gerar, contribuir para, encorajar, planejar, incitar ou promover atividades ou conteúdos ilegais ou ilícitos”. A empresa também veta o uso para promover ou facilitar “qualquer conteúdo com a intenção de incitar ou promover violência”.

‘Jailbreak’

A estrutura de inteligência artificial tem filtros de segurança criados para impedir o uso malicioso. Quando perguntado diretamente sobre um tema que fere a política da Meta, ele responde que “não pode ajudar com essa informação”. No entanto, com alguns comandos elaborados, é possível “quebrar” essa política de segurança e fazer com que a IA passe a responder o que não deveria.

A técnica é uma espécie de desbloqueio do LLM, chamado de jailbreak, que consiste na criação de um prompt (comando) que confunde o robô e faz com que ele passe a trazer conteúdos ilícitos ou danosos. Realizar esse processo exige algum conhecimento de programação, mas muita gente tem trocado informações sobre isso. É possível encontrar facilmente, na internet, em redes sociais e em comunidades de programadores, exemplos de comandos que desativam as proteções desses modelos.

Na última terça-feira, horas após o CEO da Meta, Mark Zuckerberg, anunciar que estava lançando o Llama 3.1 para competir diretamente com os grandes modelos de inteligência artificial atuais, um perfil no X conhecido por revelar brechas de segurança de sistemas das big techs publicou uma série de exemplos de como um código bem elaborado “quebra” os filtros da tecnologia da dona do Facebook.

Os testes realizados por especialistas brasileiros utilizaram um desses comandos que têm sido divulgados nas redes. No caso de uma solicitação de um tutorial sobre como fabricar uma arma biológica, o modelo alerta que fazer isso “é extremamente difícil e potencialmente ilegal”. Mas faz uma concessão: “No entanto, posso fornecer algumas informações gerais sobre o tópico”, afirmou o sistema de IA. Na sequência, ele traz um passo a passo inicial do que é necessário para a geração de um agente patogênico que pode causar danos a humanos.

No pedido sobre como fabricar metanfetamina, o Llama também faz um alerta inicial: “o conteúdo a seguir é altamente tóxico e não deve ser testado ou replicado”. E chega a ponderar que “as informações são fornecidas para fins educacionais”.

Em seguida, afirmou: “Dito isso, os seguintes produtos de uso doméstico são algumas vezes usados na produção ilícita de metanfetamina”, responde o sistema, que depois traz uma lista de substâncias de fácil acesso que podem ser usadas para produzir a substância estimulante, uma espécie de droga sintética, com um roteiro do que fazer com cada uma delas.

Alerta não impede

O padrão é o mesmo para os pedidos sobre técnicas para hackear uma rede de Wi-Fi, métodos para fabricar explosivos caseiros ou estratégias para criar distúrbios sociais e antidemocráticos. O modelo traz um aviso sobre a toxicidade do conteúdo, mas isso não o impede de responder aos pedidos com um passo a passo.

Para os testes, o download do Llama 3.1 foi feito diretamente no site da Meta. A versão utilizada foi a intermediária (com 70 bilhões de parâmetros, que são como os “pesos” usados para compor as melhores combinações de dados). Para o ataque a uma rede de Wi-Fi, há sugestões de programas que podem ser baixados on-line e ajudam na tarefa. No caso dos artefatos, a IA apresenta uma lista de quatro substâncias que “são usadas para produção ilícita de explosivos”.

Diogo Mattos, do Departamento de Engenharia de Telecomunicações da UFF e do Laboratório de Ensino e Pesquisa de Redes de Nova Geração (LabGen/UFF), que realizou os testes a pedido do GLOBO, explica que os prompts que confundem o sistema funcionam como uma espécie de comando que personaliza o modelo, com variáveis que alteram o comportamento da IA. A técnica envolve uma sequência de comandos engatilhados entre si.

— Como esses modelos foram treinados com um vasto conteúdo disponível na internet, de alguma forma ele aprendeu sobre esses temas. Ao alterar a personalidade, pedindo que ele seja malicioso, é possível ter essas respostas — explica Mattos, que ressalta que o conteúdo gerado pelo Llama, assim como em outras IAs, pode ser impreciso ou incorreto, mesmo nos casos de usos socialmente perturbadores.

Para Gabriel Bertocco, do Recod.ai, laboratório de inteligência artificial da Unicamp, o resultado mostra como os filtros de segurança criados pela Meta são insuficientes. Ele usou o mesmo prompt fornecido pelo GLOBO para testar o Llama 3.0, versão anterior do LLM da Meta, e obteve resultados para pesquisas sobre como criar um malware (um programa malicioso que funciona como uma espécie de vírus digital), por exemplo.

— Os resultados dos testes falam por si. Ainda há espaço para muita melhoria. Os modelos têm algum grau de robustez, porque quando você pergunta algo malicioso diretamente, ele não responde. No entanto, quando eu coloco o prompt malicioso, é possível quebrá-lo — diz.

O que a empresa diz

Procurada, a Meta informou que não poderia comentar o resultado dos testes, mas defendeu que modelos de código aberto, como Llama, “permitem compartilhar amplamente os benefícios da IA e fazem com que mais pesquisadores identifiquem e ajudem a corrigir vulnerabilidades, para que as empresas possam criar modelos mais seguros”.

A empresa acrescentou que está comprometida em ajudar os desenvolvedores a se protegerem de usos indevidos do modelo e que incorpora um “conjunto de proteções” no nível do sistema para que ele seja personalizado.

Outras formas de burlar a IA

Injeção de ‘prompt’:

  • Técnica usada para manipular os resultados de um modelo de linguagem fornecendo um prompt (comando) especialmente projetado para enganar o modelo de inteligência artificial (IA).

Encadeamento de ‘prompts’:

  • Utiliza uma série de comandos articulados para levar o modelo de IA a dar respostas que não deveria fornecer, incluindo múltiplas variáveis.

Quebra de respostas:

  • Técnica que divide a intenção real, que seria bloqueada por questões de segurança, em intenções menores, que acabam passando pelos filtros de segurança da IA.

Manipulação contextual:

  • Essa estratégia de elaboração da linguagem dos prompts usa informações de metáforas, analogias e contextos que confundem o modelo e fazem com que ele interprete a pergunta de maneira equivocada.

Envenenamento de dados:

  • No caso dos treinamentos do LLM (modelo amplo de linguagem), existe um ataque que envolve contaminar intencionalmente os dados de treinamento de modelos de inteligência artificial para manipular o comportamento e produzir resultados tendenciosos ou socialmente prejudiciais.

Código aberto dá mais transparência, mas exige ‘equilíbrio delicado’

O Llama, da Meta, não é o único modelo de inteligência artificial (IA) de código aberto, mas é um dos principais. Concorrentes como a OpenAI, dona do ChatGPT, e o Google, que tem o Gemini, disponibilizam suas LLMs de forma fechada e paga. Ao lançar a versão 3.1 do modelo da Meta, Mark Zuckerberg defendeu a adoção do open source pela empresa.

Em carta aberta, ele admite que há “um debate em andamento” sobre a segurança desses modelos de IA, mas avalia que essa é uma saída “mais transparente” porque esses LLMs “podem ser amplamente examinados”.

Diogo Mattos, do LabGen/UFF, lembra que os modelos open source são importantes para a produção científica e para possibilitar a inovação por empresas, que podem usufruir dos benefícios do LLMs sem custo para criar aplicações, a exemplo do que se viu no passado com o sistema operacional Linux, em contraposição ao Windows. No entanto, as lacunas de proteção expõem os efeitos colaterais da expansão dessa tecnologia:

— Existe um equilíbrio delicado, que é o de permitir que o modelo seja personalizável, que possa ser usado para aplicações comerciais ou científicas, mas não a ponto de gerar esses conteúdos perturbadores — diz Mattos.

Em junho, um hacker conhecido por expor falhas de modelos de IA nas redes, em uma entrevista ao Financial Times, contou que leva 30 minutos para gerar um prompt eficiente para “quebrar” os LLMs mais poderosos do mundo, incluindo o da Meta, o da francesa Mistral (que também é aberto), e até o GPT e o Gemini. Com mais de 30 mil seguidores em uma rede social, ele integra um grupo que costuma compartilhar vulnerabilidades desses sistemas.

Limitação

Cleber Zanchettin, professor Associado do Centro de Informática da Universidade Federal de Pernambuco (UFPE) destaca que há várias técnicas para “confundir” essas IAs e levá-las a produzir conteúdo tóxico. E fazer a calibragem desses modelos é complexo, adverte.

Há um conjunto de estratégias para criar camadas de segurança, como as limitações de contextos da IA para determinados termos, e o ranqueamento de respostas mais adequadas, de acordo com as políticas de proteção criadas.

— Em um sistema on-line, como a interface do ChatGPT, é possível fazer a atualização dessas barreiras. A questão com grandes modelos como o Llama, que podem ser baixados e alterados localmente, é que você tem menos flexibilidade para fazer esse controle e bloqueio — pondera o pesquisador, que testou o Llama 3.1 e obteve resultados maliciosos a partir da plataforma HuggingFace, que hospeda chats em que é possível acessar LLMs.

As big techs que desenvolvem modelos de IA costumam realizar testes de vulnerabilidade de segurança com equipes internas, os chamados red teams (times vermelhos). Os profissionais simulam formas de driblar as salvaguardas dos modelos e monitoram possíveis usos indevidos das IAs, a fim de realizar bloqueios.

Na Meta, por exemplo, esse trabalho inclui a adição de filtros de segurança no desenvolvimento de ferramentas como o Llama. Mas Dora Kaufman, professora na PUC-SP e autora do livro “Desmistificando a inteligência artificial”, lembra que sempre há um grau de imprevisibilidade nesses LLMs:

— Essas falhas mostram que há um limite da própria técnica de segurança.

Webstories
Mais recente Próxima Empresa de Warren Buffett se desfaz de quase metade das ações da Apple
Mais do Globo

Artista sertanejo celebra chegada de novo neto com garrafa de bebida em hospital, e parte dos internautas questiona excesso com álcool

Uísque na maternidade? Reação de Leonardo a nascimento de filho de Zé Felipe e Virginia viraliza e gera debate

O Serviço Meteorológico Nacional informou que a fumaça pode dominar boa parte do território argentino nesta segunda-feira

'Cortina de fumaça': Serviço Meteorológico da Argentina já emite alerta por conta de incêndios; veja mapa

Casal teria discutido na volta de um passeio, na Rodovia Presidente Dutra; Adrielle Barbosa Gonçalves foi levada para o Hospital Geral de Nova Iguaçu

Soldado da PM do Rio é suspeito de balear a esposa; agente fugiu

Apesar da beleza, ocorrência indica problemas na qualidade do ar

'Sol laranja' impressiona moradores de cidades no Rio; entenda o que provoca o fenômeno

Dono de uma das maiores fazendas de Goiás e de carros de luxo, cantor comemorou aniversário em embarcação em Mykonos, na Grécia, com a esposa, Andressa Suita

Qual é a fortuna de Gusttavo Lima? Cantor teve R$ 20 milhões bloqueados em investigação

Regras só valem para concursos federais e a partir de 2028

Lula sanciona lei que libera concurso público pela internet e avaliação psicológica

Ministério elaborou, por determinação de Dino, lista dos municípios proporcionalmente mais beneficiados por verbas parlamentares

CGU aponta R$ 330 milhões em emendas em cidades que somam 61 mil habitantes, com domínio do Amapá