BLOG DE NOTICIAS VIDA FM : GPT-4.1 deu instruções para fabricar bombas em teste da Anthropic.

segunda-feira, 1 de setembro de 2025

GPT-4.1 deu instruções para fabricar bombas em teste da Anthropic.

Modelo da OpenAI deu instruções detalhadas sobre como montar explosivos para um evento esportivo, num teste realizado pela concorrente Anthropic.

A OpenAI e a Anthropic “trocaram figurinhas” para testar a Inteligência Artificial uma da outra — em um raro exemplo de colaboração — e avaliar até que ponto estavam expostas a riscos de segurança. Os resultados não foram nada animadores.Nos testes de segurança, o modelo GPT-4.1 da OpenAI produziu conteúdo altamente perigoso quando solicitado pelos pesquisadores da Anthropic. Sem os filtros de segurança que existem nas versões públicas, os investigadores conseguiram que o GPT-4.1 fornecesse instruções detalhadas sobre como montar explosivos para um evento esportivo, incluindo a identificação de pontos vulneráveis em estádios específicos. Além disso, o modelo deu informações sobre fórmulas químicas, esquemas de circuitos de temporizadores de bombas, dicas de rotas de fuga e até orientações sobre como transformar antraz em arma ou fabricar drogas ilegais. Mesmo com esses resultados alarmantes, as empresas de IA ressaltam que esse comportamento não ocorre nas versões públicas de seus modelos, já que estas contam com filtros de segurança. Segundo revelou o Guardian, a Anthropic destacou que os modelos GPT-4.1 e GPT-4o demonstraram ser permissivos demais quando instruídos a atender pedidos potencialmente perigosos. De acordo com os pesquisadores, não foi preciso muito esforço para convencer o bot a executar essas tarefas assustadoras — bastava escrever que se tratava de uma pesquisa acadêmica. A própria Anthropic admitiu que seu modelo, Claude, tem sido usado para cibercrimes, como extorsão, criação de ransomware por IA, falsificação de identidade e esquemas de fraude. Em outras palavras, reconheceu que essas ferramentas vêm sendo exploradas em crimes online e golpes financeiros, inclusive por pessoas com pouco conhecimento técnico. OpenAI investe em salvaguardas e bloqueios de conteúdo A OpenAI anunciou mudanças em seus modelos de IA para identificar situações de crise mental durante conversas com o ChatGPT, implementando novas salvaguardas e bloqueios de conteúdo. O ChatGPT já possui medidas que são ativadas quando detecta que usuários tentam se automutilar ou manifestam intenções suicidas. Nessas situações, a ferramenta oferece recursos para buscar ajuda especializada, bloqueia conteúdo sensível ou ofensivo, se recusa a responder a determinados pedidos e tenta dissuadir o usuário. Essas medidas também entram em ação quando usuários revelam intenção de causar danos a terceiros, o que pode resultar na desativação da conta e até em denúncia às autoridades, caso revisores humanos avaliem que há risco real. Segundo a OpenAI, as salvaguardas são reforçadas no caso de usuários menores de idade. As mudanças também incluem bloqueios mais rígidos a conteúdos como imagens de automutilação. Além disso, a empresa estuda formas de facilitar o contato não apenas com serviços de emergência, mas também com familiares em situações de risco. Pais culpam ChatGPT pela morte do filho de 16 anos Essas alterações foram anunciadas após o caso de Adam Raine. Os pais, Matt e Maria Raine, entraram com um processo contra a OpenAI, responsabilizando a empresa pela morte do filho de 16 anos. Eles alegam que o jovem tirou a própria vida depois de consultar o ChatGPT sobre métodos para se suicidar. De acordo com o The New York Times, Adam usava a versão paga do ChatGPT-4o e, durante vários meses, fez perguntas sobre formas de acabar com a própria vida. Embora o chatbot tenha aconselhado o adolescente a procurar ajuda especializada, Adam conseguiu contornar as medidas de segurança dizendo que fazia uma pesquisa para uma história que estava escrevendo.(Fonte Tech ao Minuto Noticias)

Nenhum comentário:

Postar um comentário

BLOG DE NOTICIAS VIDA FM

CONTRA COVID 19 "COVID MATA"

segunda-feira, 1 de setembro de 2025

GPT-4.1 deu instruções para fabricar bombas em teste da Anthropic.

Nenhum comentário:

Netflix anuncia compra do estúdio e ativos da Warner Bros. por US$ 72 bilhões.