O serviço de análise de conteúdo multimodal, impulsionado pela inteligência artificial, da Microsoft representa uma evolução avançada da sua plataforma já existente de Serviços Cognitivos.

A inteligência artificial moderna vai além dos chatbots, conforme demonstrado pela Microsoft Ignite 2024, que passou a empregar uma variedade de modelos de linguagem para impulsionar agentes autônomos. A ênfase foi no uso de ferramentas de produtividade e eventos gerados por software para iniciar fluxos de trabalho com inteligência artificial. Além disso, a empresa ressaltou a importância das entradas multimodais para expandir o alcance da inteligência artificial para além do uso de teclado e voz.
Não foi uma ação inesperada. Os primeiros Serviços Cognitivos Azure da Microsoft foram desenvolvidos com base em uma variedade de modelos focados em visão computacional e processamento de áudio. Esses modelos serviram como a fundação para o hardware de sensor de AI industrial Azure Percept, bem como para disponibilizar hardware de câmera preparado para AI aos desenvolvedores.
Entender o mundo por meio da inteligência artificial.
Muitos Serviços Cognitivos têm como objetivo principal fornecer uma compreensão do mundo, utilizando a visão computacional para identificar objetos em imagens, vídeos e áudios, bem como para identificar eventos importantes. Além disso, essas ferramentas suportam o reconhecimento de fala e transcrição, juntamente com o reconhecimento de caracteres em imagens, o que permite que o conteúdo multimídia seja interpretado por computadores. APIs simples são disponibilizadas para permitir conexões assíncronas RESTful com os serviços, juntamente com ferramentas para personalizar e ajustar modelos conforme necessário.
Claro, é possível integrar os Serviços Cognitivos em diversas etapas de um processo físico, como uma integração com o Kernel Semantic ou uma conexão com o Copilot Studio. Agora, há um novo serviço inovador que oferece suporte para análise de documentos, imagens, vídeos e áudios, sem a necessidade de criar novos comandos, já que o Azure AI Content Understanding está pronto para ser utilizado.
Incorpore a capacidade de processamento de várias formas de entrada nos procedimentos realizados pelo agente.
O Azure AI Compreender permite processar vários inputs e fornece saídas padronizadas prontas para o fluxo de trabalho de um agente. Essas saídas ajudam a aplicação a compreender a intenção do usuário, com dados estruturados que facilitam a obtenção rápida de informações formatadas para o código.
Uma das principais vantagens dessa ferramenta é sua habilidade em transformar informações não organizadas em dados estruturados e bem definidos, fornecendo insights adicionais que facilitam a análise dos dados. Por exemplo, ao analisar uma conversa ou reunião, o conteúdo é dividido em seções lógicas e identificado pelo falante.
O Azure AI Content Understanding utiliza modelos de AI generativa e ferramentas para criar conteúdo estruturado a partir de uma entrada multimodal. O serviço pode empregar modelos pré-construídos da Microsoft ou permitir a criação de um modelo personalizado. A seleção do modelo adequado é feita automaticamente, resultando em conteúdo estruturado pronto para ser utilizado em um fluxo de trabalho do agente.
Uma inteligência artificial pode ser usada a qualquer momento em um processo operacional. Ela pode processar uma gravação de reunião, analisar seu conteúdo e, em seguida, realizar diversas ações em toda a plataforma Microsoft 365, como armazenar resumos e a transcrição no Microsoft SharePoint, identificar itens de ação e adicioná-los aos calendários individuais e de equipe, e até mesmo atualizar as entregas no Microsoft Project. Tarefas que exigiriam horas de trabalho da equipe podem ser automatizadas, permitindo que eles foquem em atividades de projeto ao invés de tarefas administrativas.
Conteúdo em formato JSON e solicitações REST
Assim como acontece com a maioria dos produtos no Azure, iniciar é bastante fácil; o Azure AI Content Understanding está integrado aos recursos do Azure AI Services, o que possibilita o uso de diversos serviços com um único conjunto de credenciais, facilitando o controle de faturamento e simplificando a gestão de chaves e tokens.
No centro do serviço Azure AI Content Understanding estão os modelos de analisador. Estes modelos são essencialmente documentos JSON que descrevem e organizam as informações desejadas a serem extraídas das entradas, como por exemplo, estabelecendo os campos esperados em documentos empresariais comuns e assegurando que eles estejam corretamente formatados. Ao criar um modelo para analisar um documento, é necessário especificar o conteúdo do documento que se deseja extrair. Por exemplo, para uma fatura, é preciso incluir informações como o nome do vendedor, número da fatura, uma lista de itens e seus preços, e o total a ser pago.
Não é preciso utilizar amostras de documentos para marcar os campos a serem extraídos, uma vez que o modelo utilizado foi treinado em diversos tipos de documentos. Ao carregar o seu modelo de analisador, basta fornecer o conteúdo e analisar a resposta JSON.
Você tem a capacidade de criar um analisador por conta própria utilizando ferramentas como curl para carregar o analisador e criar objetos de solicitação HTTP no Postman. No entanto, é mais conveniente utilizar as ferramentas disponíveis no Azure AI Foundry. Ainda falta uma funcionalidade importante: um SDK compatível com várias linguagens. Se estiver desenvolvendo código para interagir com um endpoint do Azure AI Content Understanding, será necessário ter conhecimento sobre como construir e gerenciar chamadas REST, encapsulando-as em seus próprios métodos.
Desenvolvendo um verificador de informações utilizando a plataforma Azure AI Foundry.
Neste processo, comece enviando uma amostra do conteúdo que deseja analisar para o Azure AI Foundry. O serviço irá recomendar modelos da sua biblioteca com base no documento enviado. Escolha o modelo mais adequado e personalize-o adicionando seus próprios campos e tipos. É aconselhável incluir descrições no esquema editado para facilitar a depuração e apoiar outros desenvolvedores. Após salvar o esquema personalizado, teste o analisador com uma variedade de documentos de amostra. Depois de salvar, a ferramenta Azure AI Foundry construirá o analisador, pronto para uso, e fornecerá URLs de endpoint para integrar ao seu código.
Os tipos de modelos de amostra são classificados em quatro categorias: texto, imagem, áudio e vídeo. Alguns modelos são específicos de determinados setores, como gerenciamento de inventário de varejo ou gerenciamento de ativos de mídia, e a Microsoft provavelmente incluirá mais conforme novos casos de uso surjam. Se você já utilizou Serviços Cognitivos do Azure anteriormente, perceberá que essa nova versão é mais fácil de usar, com suporte para documentos mais complexos e diversos tipos de conteúdo.
Cada analisador é um sistema independente que opera em etapas, processando entradas, extrai conteúdo e fornece insights e informações úteis para aplicativos. Além do reconhecimento básico, as ferramentas complementares do analisador de documentos oferecem recursos adicionais, como a capacidade de identificar e processar códigos de barras e fórmulas matemáticas em documentos. O serviço também é capaz de lidar com conteúdo escrito à mão, além de texto digitado.
A Microsoft disponibiliza informações completas sobre os formatos de documentos e tipos de arquivos que são aceitos, assim como especifica os limites de processamento de dados. Por exemplo, ao carregar vídeos ou áudios, é possível processar até quatro horas por vez, e há um limite de 1.000 páginas ou imagens para a análise de documentos e imagens.
Outras restrições são impostas de acordo com o tipo de arquivo em questão, seja você incluindo o arquivo em uma solicitação ou apenas fornecendo uma URL de onde o arquivo está localizado. A segunda opção geralmente é mais indicada na maioria dos casos, principalmente se os dados estiverem armazenados no Azure Blobs. Nesse caso, você pode fornecer o endereço do bloco e reduzir os custos de armazenamento e transferência de dados.
Aplicativos autônomos de Inteligência Artificial dependem de dados de entrada de excelente qualidade.
Por meio de ferramentas como Azure AI Content Understanding e Azure AI Search, a Microsoft oferece a base necessária para o desenvolvimento ágil de aplicações avançadas de inteligência artificial. Isso envolve a geração de dados de alta qualidade a partir de conteúdo não estruturado e não rotulado, combinando-os com dados bem definidos e pesquisáveis para minimizar possíveis erros de saída.
A Microsoft desenvolveu o Azure AI Content Understanding para ser utilizado em sistemas autônomos. Os resultados são classificados com níveis de confiança que regulam a forma como um agente de inteligência artificial executa o processo de trabalho, emitindo alertas quando a identificação do conteúdo se torna desafiadora. A utilização de modelos extras criados para detectar conteúdo prejudicial ou ilegal pode oferecer uma funcionalidade fundamental de edição de conteúdo como parte de um serviço destinado aos consumidores.
Ter a habilidade de processar e administrar o conteúdo é essencial para aprimorar a exatidão e diminuir o risco, aspectos cruciais em qualquer processo de trabalho conduzido por agentes. Ao apresentar dados bem estruturados no início de um processo de trabalho, provenientes de fontes não organizadas, é possível agilizar as operações e viabilizar a combinação de inteligência artificial e programação tradicional, além de fornecer informações para um assistente de baixo código Copilot Studio.
Por meio do Azure AI Content Understanding, a Microsoft está empregando uma nova categoria de modelos de inteligência artificial multimodal para aprimorar as funcionalidades dos Serviços Cognitivos já conhecidos. Atualmente em fase de pré-visualização, o serviço é oferecido gratuitamente, permitindo que você se familiarize com essas novas ferramentas em sua programação.