“Ser vulnerável a ataques de injeção rápida e violar direitos autorais são apenas algumas das ações negativas que a inteligência artificial pode realizar; a Microsoft está disponibilizando novas ferramentas para auxiliar as empresas a reduzir esses riscos em seus projetos de IA.”

Agora que o entusiasmo inicial em relação às capacidades da inteligência artificial generativa diminuiu, estamos percebendo que grandes modelos de linguagem sem proteções adequadas podem ser ingênuos e estão prontos para compartilhar informações indiscriminadamente. Isso expõe as aplicações que dependem deles, assim como as empresas que os utilizam, a riscos como hacking e violações de direitos autorais.
Para auxiliar as empresas na redução dos riscos relacionados ao uso de AI generativa, a Microsoft incluiu novas medidas de segurança no seu ambiente de desenvolvimento de aplicativos, o Azure AI Studio. Essas medidas têm o objetivo de auxiliar as empresas a avaliar a reação de seus grandes modelos linguísticos (LLMs) a possíveis ataques indiretos e a testar se retornam informações confidenciais em suas respostas.
Identificar tentativas de ataques por injeção rápida.
Ataques de injeção indireta, também chamados de XPIA, têm como alvo o ponto de origem dos dados de um LLM. Esses ataques estão ganhando popularidade entre hackers que buscam manipular a fonte de dados para inserir instruções maliciosas de forma oculta no modelo, com o objetivo de burlar as proteções de segurança existentes.
A ferramenta da Microsoft para identificar essas fraquezas, chamada Azure AI Evaluate, está disponível para uso pelo Azure AI Studio ou pelo Azure AI Assessment SDK.
O Azure AI Avaliar possibilita que usuários empresariais simulem ataques indiretos em seu modelo ou aplicativo de IA geradora, permitindo avaliar a eficácia na detecção e prevenção de ataques em diferentes categorias, como manipulação de conteúdo ou coleta de informações. Essa funcionalidade foi mencionada por Minsoo Thigpen, gerente sênior de produtos da divisão de IA Azure da Microsoft, em um post de blog.
Se os programadores perceberem que seus modelos não estão conseguindo impedir ataques indiretos por injeção, eles podem modificar as fontes de dados utilizadas ou implementar outras medidas de mitigação antes de revisar novamente para garantir a segurança ao implantar seu modelo ou aplicativo em ambiente de produção, explicou Thigpen.
Outra funcionalidade, chamada de Escudos de Prompt, tem como objetivo auxiliar os programadores na identificação e prevenção ou redução de possíveis ataques provenientes de prompts de usuários. Essa função pode ser habilitada por meio do Serviço de Inteligência Artificial de Segurança de Conteúdo do Azure da Microsoft, conforme mencionado por ela.
Prompt Shields procura impedir prompts que possam resultar em saídas de IA inseguras e também é capaz de detectar ataques de documentos nos quais conteúdo prejudicial é inserido nos documentos fornecidos pelo usuário.
A ferramenta Azure AI Evaluate e o seu SDK correspondente estão atualmente disponíveis para visualização.
Conteúdo resguardado.
A Microsoft ampliou a funcionalidade do Azure AI Assessment SDK para avaliar a frequência com que os aplicativos subjacentes geram respostas contendo o que é chamado de “material protegido”, que pode ser mais bem compreendido como material proibido. Esse tipo de conteúdo inclui texto com direitos autorais para os quais a empresa provavelmente não possui permissão, como letras de músicas, receitas e artigos. Para fazer essa verificação, as saídas dos aplicativos são comparadas a um índice de conteúdo textuais de terceiros mantido no GitHub.
Thingpen explicou que os usuários podem investigar minuciosamente as avaliações para ter uma compreensão mais ampla sobre como sua aplicação costuma reagir aos pedidos dos usuários e aos possíveis perigos envolvidos.
São disponibilizadas duas interfaces de programação: uma para marcar o texto protegido por direitos autorais e outra para marcar o código protegido, que engloba bibliotecas de software, código fonte, algoritmos e outros materiais relacionados à programação.
Uma maneira de verificar a funcionalidade de teste também está disponível por meio da interface do Azure AI Studio.
Outras características aprimoradas do SDK de Avaliação de IA do Azure, atualmente em fase de visualização, englobam avaliações de qualidade adicionais e um criador de dados sintéticos e simulador para atividades não competitivas.
Novas métricas de avaliação de qualidade serão adicionadas à interface do Azure AI Studio em outubro. Essas métricas, baseadas em conceitos matemáticos conhecidos, auxiliarão os desenvolvedores na verificação da qualidade das saídas de texto produzidas por um LLM.
Essas medidas de avaliação, como ROUGE, BLEU, GLEU e METEOR, são utilizadas para analisar a precisão, a abrangência e a correção gramatical, conforme detalhado por Thigpen.
O objetivo do gerador de dados sintéticos e simulador para tarefas não-adversariais é auxiliar os desenvolvedores na avaliação do desempenho de seu LLM ao receber um prompt comum do usuário.