InícioServidoresSegurançaGarantir a segurança de aplicações LLM utilizando Azure AI Content Safety.

Garantir a segurança de aplicações LLM utilizando Azure AI Content Safety.

Date:

Novas tecnologias serão desenvolvidas para filtrar pedidos maliciosos, identificar resultados sem embasamento e analisar a segurança dos modelos, visando aumentar a segurança do uso da inteligência artificial generativa.

shutterstock 77002051 Danger hard hat area safety warning sign chain link fence construction site
Imagem: karvanth/PixaBay

Tanto a inteligência artificial generativa, que é altamente promissora, quanto arriscada, apresenta diferentes formas de falhas que devemos combater para garantir a segurança de nossos usuários e de nosso código. Já presenciamos situações em que chatbots foram incentivados a serem ofensivos ou racistas, assim como grandes modelos de linguagem foram utilizados de maneira maliciosa, resultando em saídas fantasiosas no melhor dos casos e perigosas no pior.

Não é surpreendente que seja possível elaborar instruções complexas que levem a resultados indesejados, ultrapassando as restrições estabelecidas. Essas instruções podem levar a resultados que extrapolam os dados do modelo original, resultando em texto que não tem base na realidade, mas que ainda mantém uma coerência semântica plausível.

Apesar de contarmos com técnicas como RAG e ferramentas como Semantic Kernel e LangChain para manter nossas aplicações baseadas em dados, ainda existem ameaças rápidas que podem resultar em resultados negativos e causar danos à reputação. É imprescindível desenvolver uma forma de testar previamente nossos aplicativos de IA para minimizar o risco desses ataques e assegurar que nossas instruções não introduzam viés ou permitam consultas inadequadas.

Introduzindo Azure AI para Proteção de Conteúdo.

A Microsoft tem conhecimento dos perigos há bastante tempo, como demonstrado pelo incidente do chatbot Tay. A empresa tem investido em um programa de IA responsável, com destaque para o Azure AI Responsible AI, que visa proteger aplicativos criados no Azure AI Studio. Este time tem desenvolvido o Azure AI Content Safety, um conjunto de ferramentas para garantir a segurança do conteúdo.

É cada vez mais essencial lidar com ataques de injeção rápida, uma vez que um prompt malicioso pode não apenas fornecer conteúdo não autorizado, mas também ser usado para obter os dados usados para suportar um modelo, expondo informações proprietárias de forma fácil de serem extraídas. É crucial garantir que os dados do RAG não incluam informações que possam identificar pessoalmente alguém ou dados sensíveis para negócios. As conexões privadas de API com sistemas de negócios estão vulneráveis a manipulação por indivíduos mal-intencionados.

VEJA TAMBEM:  Iniciar com a compreensão de conteúdo da Azure AI.

Precisamos de um conjunto de ferramentas que permita testar aplicações de inteligência artificial antes de serem implementadas para os usuários, bem como aplicar filtros avançados nas entradas para reduzir o risco de ataques rápidos, bloqueando tipos de ataques conhecidos antes de serem utilizados em nossos modelos. Embora seja possível criar filtros personalizados e registrar todas as entradas e saídas para desenvolver detectores, tal abordagem pode não ter a abrangência necessária para detectar todos os ataques antes que sejam utilizados.

Não há muitas plataformas de inteligência artificial maiores do que a crescente família de modelos da Microsoft, juntamente com seu ambiente de desenvolvimento Azure AI Studio. Através dos serviços da Copilot da Microsoft, que se baseiam no OpenAI, é possível monitorar solicitações e resultados em diversos cenários, com diferentes níveis de detalhes e fontes de dados variadas. Isso possibilita à equipe de segurança de IA da Microsoft identificar rapidamente problemas emergentes e ajustar seus serviços de proteção conforme necessário.

Utilizando o Prompt Escudos para regular la entrada de la inteligencia artificial.

Os Prompt Shields são filtros de entrada em tempo real que ficam posicionados antes de um grande modelo de linguagem. Ao criar prompts, seja de forma direta ou através do RAG, esses filtros examinam e impedem que prompts mal-intencionados sejam enviados ao seu LLM.

Atualmente, existem dois tipos de Proteções de Prompt. Uma delas é a Proteção de Prompt para Prompts de Usuário, que visa proteger sua aplicação contra prompts de usuário que possam desviar o modelo de seus dados principais e gerar saídas inadequadas. Esses prompts representam um risco significativo para a reputação e, ao bloqueá-los, sua aplicação LLM pode se manter focada em suas funções específicas. Embora a superfície de ataque para sua aplicação LLM possa ser limitada, o Copilot é extenso. Ao ativar as Proteções de Prompt, é possível aproveitar a vasta experiência em segurança da Microsoft.

O Prompt Shields for Documents é uma ferramenta que ajuda a reduzir a vulnerabilidade a ataques indiretos, os quais exploram fontes de dados alternativas, como documentos maliciosos ou sites nocivos, que ocultam conteúdo adicional para burlar as proteções existentes. Esta ferramenta analisa o conteúdo desses arquivos e bloqueia os padrões associados aos ataques, o que é crucial devido à crescente utilização dessas técnicas pelos invasores. Dada a dificuldade de detecção desses ataques por meio de ferramentas de segurança tradicionais, é importante implementar soluções como o Prompt Shields em conjunto com tecnologias AI, que podem resumir documentos ou responder automaticamente a e-mails.

VEJA TAMBEM:  Os dados desorganizados estão impedindo as empresas de avançarem na área de inteligência artificial.

Usar o Prompt Escudos implica em acionar uma chamada à API com o prompt do usuário e quaisquer documentos relacionados. Esses materiais são examinados em busca de vulnerabilidades, e a resposta indica apenas a detecção de um ataque. Posteriormente, é possível incluir código em sua orquestração LLM para capturar essa resposta, bloquear o acesso do usuário, verificar o prompt utilizado por ele e criar filtros adicionais para evitar a utilização desses ataques no futuro.

Confirmação de saídas sem conexão à terra.

Além das defesas rápidas mencionadas, o Azure AI Content Safety também oferece recursos para identificar quando um modelo se torna impreciso, produzindo saídas sem sentido, ainda que possam parecer plausíveis. Essa funcionalidade é compatível apenas com aplicações que se baseiam em fontes de dados fundamentais, como um aplicativo RAG ou um resumo de documento.

A ferramenta de detecção de terra é um modelo de linguagem que fornece um feedback para a saída LLM ao compará-la com os dados de aterramento. Se a saída não estiver de acordo com os dados de origem, é gerado um erro. Esse processo, chamado Inferência de Linguagem Natural, está em fase inicial e o modelo subjacente será atualizado pela equipe de IA da Microsoft para evitar a perda de contexto.

Assegurar a segurança dos usuários por meio de alertas.

Um dos elementos essenciais dos serviços de segurança de conteúdo do Azure AI é alertar os usuários quando estão realizando ações inseguras com um LLM. Pode ser que tenham sido induzidos socialmente a seguir um prompt que vaze dados: “Experimente isso, será muito interessante!” Ou talvez tenham cometido um engano. Orientar sobre como redigir alertas seguros para um LLM é tão crucial para garantir o serviço quanto fornecer proteção para esses prompts.

VEJA TAMBEM:  DataStax introduz Bloco Astra visando auxiliar aplicações da Web3.

A Microsoft está incluindo modelos de mensagens do sistema no Azure AI Studio, que podem ser combinados com Prompt Shields e outras ferramentas de segurança de inteligência artificial. Esses modelos são exibidos automaticamente no playground de desenvolvimento do Azure AI Studio, facilitando a compreensão das mensagens do sistema exibidas e auxiliando na criação de mensagens personalizadas que correspondam ao design do seu aplicativo e à estratégia de conteúdo.

Avaliando e acompanhando o desempenho de seus modelos.

O Azure AI Studio continua sendo o local ideal para desenvolver aplicações que operem com modelos de linguagem de longa memória (LLMs) hospedados no Azure, tanto do serviço Azure OpenAI quanto importados do Hugging Face. No estúdio, estão disponíveis avaliações automatizadas para suas aplicações, agora com opções para avaliar a segurança do seu aplicativo, utilizando ataques predefinidos para testar a resposta do seu modelo a violações de segurança e ataques indiretos, bem como sua capacidade de gerar conteúdo prejudicial. Você pode utilizar seus próprios estímulos ou os modelos de estímulo adversarial da Microsoft como base para os seus testes.

Depois de configurar e utilizar um aplicativo de inteligência artificial, é importante supervisioná-lo para garantir a segurança contra tentativas de invasão. O Azure AI agora oferece um serviço de monitoramento de risco que se baseia em diferentes filtros, como o Prompt Shields, para identificar e analisar possíveis ataques. Esse monitoramento permite visualizar os tipos de ataques, entradas e saídas, além de quantificar a frequência dos ataques. Também é possível identificar possíveis usuários maliciosos, analisar padrões de ataques e ajustar as listas de bloqueio conforme necessário.

Assegurar que indivíduos com más intenções não consigam desbloquear um LLM é apenas um aspecto da entrega de aplicativos de IA confiáveis e responsáveis. A verificação dos dados de saída em relação aos documentos originais é fundamental, possibilitando um ciclo de feedback para aprimorar as instruções e evitar erros. É importante lembrar que essas ferramentas devem se adaptar e melhorar juntamente com os avanços nos modelos de IA.

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui