A empresa afirmou que o uso de prompts em cache pode resultar em uma economia de até 90% nos custos de acesso à API.

A Antropic revelou na Quarta-feira que está implementando o armazenamento em cache instantâneo na API de seus modelos de inteligência artificial generativa da família Claude, o que possibilitará aos programadores salvar os prompts comumente utilizados entre as chamadas da API.
O recurso de cache permite aos clientes fornecer a Claude com prompts extensos, que podem ser reutilizados em solicitações futuras sem a necessidade de enviá-los novamente. De acordo com a empresa, o uso do cache permite que os clientes forneçam mais informações de fundo e exemplos de saída para a Claude, ao mesmo tempo em que reduzem os custos em até 90% e a latência em até 85% em prompts longos.
A novidade está agora em fase beta pública para os modelos Claude 3.5 Sonnet e Claude 3 Haiku, com suporte para o modelo Claude 3 Opus, o qual será lançado em breve.
Um estudo realizado em 2023 por pesquisadores da Universidade Yale e do Google demonstrou que ao armazenar solicitações no servidor de inferência, os desenvolvedores podem reduzir significativamente o tempo de resposta inicial, especialmente para solicitações mais extensas, como respostas a perguntas baseadas em documentos e recomendações. As melhorias observadas variam de 8x para a inferência feita por GPU a 60x para a feita por CPU, mantendo a precisão dos resultados e sem a necessidade de alterações nos parâmetros do modelo.
Andy Thurai, VP e analista principal da Constellation Research, apontou que o uso de LLMs de código fechado está se tornando dispendioso para empresas e desenvolvedores, especialmente quando há repetição de prompts e respostas semelhantes, resultando em custos elevados para cada interação. Esse cenário se agrava quando vários usuários acessam o sistema buscando respostas semelhantes frequentemente ao longo do dia.
Situações em que o cache rápido pode ser aplicado.
A Anthropic mencionou diversas situações em que o cache de prompt pode ser benéfico, como em chatbots, ferramentas de programação, processamento de grandes documentos e para permitir que os usuários acessem conteúdo de formulários extensos em cache, como livros, artigos ou transcrições. Além disso, ele pode ser empregado para compartilhar orientações, procedimentos e exemplos para ajustar as respostas de Claude, ou como forma de melhorar o desempenho quando várias iterações de chamadas de ferramentas e alterações exigem múltiplas chamadas de API.
Segundo as informações disponíveis, ao ativar o cache de prompt, o sistema verifica se cada prompt recebido já foi armazenado anteriormente. Caso positivo, ele utiliza a versão em cache; caso contrário, ele salva o prompt para ser usado mais tarde.
Os programadores têm a opção de configurar até quatro pontos de interrupção de cache em um prompt, que são armazenados em 1024 limites de token no Claude 3.5 Sonnet (e no Opus, se o recurso estiver disponível) e em 2048 tokens no Claude 3 Haiku. No momento, prompts mais curtos não podem ser armazenados em cache. O tempo de vida do cache é de cinco minutos, mas é renovado sempre que o conteúdo em cache é acessado.
O recurso atualizado apresenta uma nova forma de precificação, em que os tokens para armazenamento em cache são 25% mais caros que os tokens de entrada padrão, enquanto os tokens para leitura de cache são 90% mais baratos.
A empresa afirmou que os clientes perceberam melhorias significativas em termos de velocidade e custos com o armazenamento temporário rápido em várias situações, como a criação de um repositório completo de informações sobre exemplos de 100 tiros, abrangendo todas as interações de uma conversa no seu prompt.
As preocupações com a segurança estão aumentando.
No entanto, existem preocupações em relação ao uso do caching na programação, de acordo com Thomas Randall, diretor de pesquisa de mercado de IA no Info-Tech Research Group. Ele ressaltou a importância de seguir as melhores práticas de segurança ao implementar o caching para otimizar o desempenho e a eficiência de uso. Randall alertou que, se os dados armazenados em cache forem compartilhados entre organizações sem serem devidamente revisados, informações confidenciais podem ser involuntariamente expostas.
Thurai mencionou que, embora Anthropic tenha introduzido caching rápido como uma novidade, outros fornecedores de LLM ainda estão explorando essa possibilidade. Ele explicou que certas soluções de software de código aberto, como GPTCache e Redis, armazenam os resultados como incorporações e os recuperam de forma prioritária se corresponderem ao prompt, sem necessidade de acessar o LLM.
“Qualquer que seja a alternativa escolhida, ela pode resultar em grandes economias se mensagens semelhantes forem enviadas com frequência para um sistema de gerenciamento de listas de mensagens (LLM)”, afirmou Randall. “Acredito que em breve outros provedores de LLM com código fechado também irão oferecer funcionalidades semelhantes.”