Pesquisadores da Universidade da Califórnia, em Riverside, criaram um método inovador para garantir a segurança de modelos de inteligência artificial (IA) utilizados em dispositivos de baixa potência. A migração desses modelos de servidores em nuvem para celulares e carros tem gerado preocupações, pois a simplificação necessária para economizar energia resulta na eliminação de camadas de segurança essenciais, aumentando o risco de disseminação de conteúdos perigosos, como discursos de ódio e instruções para atividades criminosas.
O estudo se concentrou na deterioração dos recursos de segurança quando modelos de IA de código aberto são reduzidos em tamanho. Os pesquisadores identificaram que, ao priorizar velocidade e eficiência, esses sistemas tornam-se vulneráveis à falta de filtros, podendo fornecer respostas inapropriadas. Para contornar esse problema, o novo método foi testado no modelo LLaVA 1.5, que, após um retreinamento adequado, demonstrou a capacidade de evitar respostas potencialmente perigosas.
As implicações dessa pesquisa são significativas, pois promovem uma abordagem de “hacking benevolente”, que visa fortalecer modelos de IA antes que suas vulnerabilidades possam ser exploradas. Ao mudar a compreensão interna do modelo, os pesquisadores garantem que ele se comporte corretamente por padrão, mesmo quando modificado. O artigo foi apresentado na Conferência Internacional sobre Aprendizado de Máquina, realizada em Vancouver, Canadá.