InícioBlogPor que o Llama 3.1 da Meta é uma vantagem para empresas,...

Por que o Llama 3.1 da Meta é uma vantagem para empresas, mas uma desvantagem para outros fornecedores LLM.

Date:

Os especialistas afirmam que a família de modelos Llama 3.1, com sua abertura e precisão, representa um desafio sério para os provedores de modelos de linguagem fechados patenteados.

Four Llamas on the range - LLMs
Imagem: xsix/Flickr

A nova família Llama 3.1 de grandes modelos linguísticos (LLMs), que abrange um modelo com 405 bilhões de parâmetros, juntamente com 70 bilhões de parâmetros e 8 bilhões de variantes de parâmetros, é considerada uma vantagem para as empresas, mas uma desvantagem para fornecedores, analistas e especialistas proprietários de LLM, de acordo com especialistas.

“Os novos modelos abertos de pesos e Llama 3.1 oferecem uma alternativa para as empresas evitarem e diminuírem a dependência de LLMs fechados, mas ao mesmo tempo podem causar problemas para as empresas ou fornecedores que fabricam e vendem LLMs”, explicou Tobias Zwingmann, que é sócio-gerente da plataforma de serviços de prototipagem AI Rapyd.

De que forma a Llama 3.1 poderá beneficiar empresas e programadores?

As empresas e desenvolvedores se beneficiam das vantagens da família de modelos Llama 3.1 devido à sua leveza e eficácia em testes de referência, em comparação com modelos proprietários fechados como o GPT-4 da OpenAI e o Gemma 2 do Google, de acordo com especialistas.

Segundo Paul Nashawaty, analista principal do Grupo Futurum, oferecer um modelo de linguagem com parâmetros acessíveis possibilita às empresas desenvolver soluções de inteligência artificial personalizadas sem depender de modelos proprietários que exigem altas taxas de licenciamento. Isso não só resulta em economia de custos e maior flexibilidade para as empresas, mas também permite aos desenvolvedores impulsionar a inovação ao terem uma base sólida à disposição.

De acordo com Arnal Dayaratna, vice-presidente de pesquisa da IDC, as empresas têm a oportunidade de melhorar um modelo aberto da família Llama 3.1 ao utilizar seus próprios dados exclusivos, sem se preocupar com o compartilhamento de suas informações e propriedade intelectual com outro fornecedor.

“Dayaratna também mencionou que isso possibilitará que empresas e desenvolvedores evitem ser impedidos por fornecedores.”

De acordo com o analista principal Bradley Shimmin, o lançamento do novo modelo com 405 bilhões de parâmetros é especialmente relevante para as empresas, pois agora têm a possibilidade de utilizar um LLM gratuito que oferece a mesma eficiência de desempenho ou inteligência de modelos como GPT-4, Gemini e Claude.

De acordo com um post do blog Meta, o modelo Llama 3.1 405B foi avaliado em testes de referência, como MMLU, MATH, GSM8K e ARC Challenge, e superou os modelos Nemotron-4 340B Instruct, GPT-4 e Claude 3.5 Sonnet. Sua pontuação nos testes foi praticamente igual à do GPT-4, com o Llama 3.1 405B alcançando 88,6 no benchmark MMLU, enquanto o GPT-4 obteve 88,7.

MMLU, MATH, GSM8K e ARC Challenge são testes de referência que avaliam LLMs em inteligência geral, matemática e raciocínio.

Os modelos Llama 3.1, que receberam ampliação das janelas de contexto e suporte para múltiplos idiomas, obtiveram desempenho superior ou similar aos LLMs exclusivos em testes de referência, de acordo com informações divulgadas pela Meta em seu blog.

VEJA TAMBEM:  Três principais diretrizes de arquitetura em nuvem para ambientes de nuvem específicos da indústria.

No começo de abril, a Meta apresentou as versões anteriores dos seus modelos Llama 3 8B e Llama 3 70B, que traziam melhorias na arquitetura em relação ao Llama 2 e técnicas aprimoradas, como um decodificador padrão com arquitetura de transformador único, atenção agrupada de consulta (GQA) e um conjunto de dados de treinamento de alta qualidade.

De acordo com Anton McGonnell, que é o líder de produto na empresa SambaNova Systems, a variante 405B ampliada do Llama 3.1 pode proporcionar maior precisão em tarefas diversas, o que possibilitará às empresas acelerar ainda mais melhorias em cenários de funcionários e clientes.

“McGonnell sugeriu que os desenvolvedores poderiam utilizar a decodificação especulativa como uma técnica para otimizar modelos de IA, permitindo que modelos menos complexos realizem a maior parte do processamento e, em seguida, chamem o modelo maior para revisão e correção de erros, se necessário. Ele destacou que essa abordagem pode ser eficaz para executar modelos de IA de forma mais eficiente, abrindo oportunidades para otimizar recursos computacionais e acelerar as respostas em aplicações em tempo real.”

Além disso, Dayaratna do IDC destacou que o modelo Llama 3.1 405B tem a capacidade de produzir dados sintéticos e realizar a destilação de modelo, que implica transferir conhecimento de um modelo maior para um menor.

Essas habilidades possibilitam que as empresas realizem processos de análise de dados extras, conforme mencionado por Dayaratna.

O custo de implementação do Llama 3.1 é elevado para as empresas?

Enquanto o Llama 3.1 é considerado mais inteligente que as versões anteriores, especialistas apontam que a implementação desse modelo pode representar um custo elevado para empresas de pequeno e médio porte.

A variante Llama 3.1 405B é muito dispendiosa para ser operada, pois exige dois servidores Nvidia H100 (16 GPUs) para executar o modelo original, de acordo com Dylan Patel, analista sênior da empresa de pesquisa de semicondutores SemiAnalysis. Patel destacou que esse custo é significativamente superior aos modelos anteriores, que podiam ser executados em uma única GPU de baixo custo (Llama 8B) ou em duas GPUs de alta performance (Llama 70B).

Segundo Patel, o custo anual para a instalação de dois servidores H100 por um ano ultrapassará os US $ 300.000. Portanto, a implementação do Llama 3.1 405B nas empresas de pequeno porte é muito dispendiosa.

A explicação para o aumento dos custos de infraestrutura está relacionada ao crescimento dos parâmetros do modelo, os quais resultam em uma maior precisão nos resultados, de acordo com McGonnell da SambaNova Systems.

Geralmente, os provedores de serviços de Machine Learning costumam disponibilizar diferentes tipos de modelos para que as empresas possam optar entre desempenho rápido ou alta precisão, dependendo das necessidades específicas. Um modelo com maior quantidade de parâmetros pode oferecer maior precisão, mas requer mais recursos computacionais, resultando em maior tempo de resposta e custos mais elevados de execução. Por outro lado, um modelo com menos parâmetros demanda menos recursos, é mais ágil e econômico para ser executado.

VEJA TAMBEM:  O objetivo do Netlify Composable Web Platform é atualizar a estrutura da web.

Entretanto, Patel e McGonnell salientaram que a maioria das grandes empresas provavelmente utilizará o modelo Llama 3.1 405B, seja para melhorar e aprimorar outros modelos ou para implementações em larga escala, como chatbots.

“Segundo Patel, as grandes empresas podem considerar o custo de implementar o modelo 405B como um investimento justificável devido ao alto valor e eficácia que o modelo oferece.”

Além disso, especialistas afirmaram que existe uma alternativa para diminuir os custos de operar o modelo ampliado. Diversas empresas de serviços em nuvem de grande porte, em conjunto com outros prestadores de serviços de modelos, estão trabalhando para disponibilizar o novo modelo aos seus clientes.

“A maioria das empresas utilizará APIs em nuvem para acessar Llama 3.1 405B, conforme afirmado por Patel. A utilização de APIs possibilita que as empresas acessem os recursos de computação de que precisam de forma flexível, reduzindo os custos iniciais, acrescentou Patel.”

Meta afirmou que possuía parcerias com empresas como Accenture, AWS, AMD, Anyscale, Cloudflare, Databricks, Dell, Deloitte, Fireworks.ai, Google Cloud, Groq, Hugging Face, IBM Watsonx, Infosys, Intel, Kaggle, Microsoft Azure, Nvidia DGX Cloud, OctoAI, Oracle Cloud, PwC, Replicate, Sarvam AI, Scale.AI, SNCF, Snowflake, Together AI e UC Berkeley vLLM Projeto, com o objetivo de disponibilizar e simplificar o uso da família Llama 3.1 de modelos.

Enquanto empresas como AWS e Oracle, provedoras de serviços em nuvem, disponibilizarão os modelos mais recentes, colaboradores como Groq, Dell e Nvidia possibilitarão aos desenvolvedores utilizarem a criação de dados sintéticos e técnicas avançadas de geração aumentada de recuperação (RAG), afirmou Meta. Groq otimizou a inferência de baixa latência para ser implementada em nuvem, enquanto a Dell alcançou otimizações semelhantes para sistemas locais.

Outras importantes versões, como Claude, Gemini e GPT-4o, também estão disponíveis por meio de APIs.

Além disso, McGonnell destacou que a chegada do Llama 3.1 vai gerar uma competição entre provedores de serviços em nuvem de inteligência artificial e fornecedores de modelos de serviço, que buscarão oferecer as soluções de interface de programação de aplicativos mais eficazes e acessíveis para implementar o Llama 3.1 405B.

Em conjunto, a IA e o Fireworks.ai, parceiros da Meta, estão implementando as otimizações mais inovadoras em inferência para reduzir os custos de forma significativa, conforme afirmado por Patel.

¿Se verá Llama 3.1 sentenciado por usar hechizos contra competidores de LLM?

De acordo com especialistas e analistas, a introdução de um LLM com código aberto que possa ter um desempenho igual ou superior aos LLMs proprietários fechados apresenta um desafio importante para os concorrentes no mercado de LLM, sejam eles grandes ou pequenos.

VEJA TAMBEM:  Dicas para selecionar um provedor de serviço de e-mail confiável

“Empresas como Cohere, Aleph Alpha e outras startups que estão criando LLMs personalizados provavelmente não estarão em atividade nos próximos um ou dois anos, ou então irão sobreviver em um mercado mais restrito e com custos mais elevados. É como investir em Solaris quando a tendência do mercado está voltada para Windows, Mac e Linux”, afirmou Zwingmann, da Rapyd. A inteligência artificial explicou.

Além disso, McGonnell destacou que, à medida que os LLMs se tornam mais padronizados devido à sua natureza aberta, empresas proprietárias como OpenAI terão que competir reduzindo seus custos ou aprimorando seu desempenho.

McGonnell, da SambaNova Systems, observou que o OpenAI está lançando versões mais acessíveis do GPT-4, o que sugere que a empresa está concentrada em diminuir os custos.

Além disso, dentro de um dia após a Meta lançar a atualização Llama 3.1, a OpenAI também usou o Twitter, que agora é chamado de X, para avisar aos seus clientes sobre o lançamento de um nível gratuito para personalizar o modelo mini GPT-4.

Segundo o sócio-gerente da empresa de tecnologia Rapyd, Zwingmann, a competição entre os LLMs de código aberto e os privados trará vantagens para as empresas. Ele prevê que os preços dos tokens de acesso aos LLMs continuarão a diminuir, eliminando a discrepância de valores que antes permitia que alguns fornecedores cobrassem muito mais do que a média do mercado.

Os tokens representam as unidades utilizadas para quantificar o texto processado por uma API LLM ao analisar uma solicitação de um usuário.

De acordo com o analista da indústria da Omdia, Bradley Shimmin, os modelos da família Llama já possuem um domínio significativo sobre seus concorrentes diretos e maiores, como Google, Antropic e OpenAI. A pesquisa da Omdia se baseou na análise e compilação de postagens de empregos que buscam habilidades para trabalhar com os modelos de LLMs da Meta.

Comparação entre pesos abertos e código aberto.

Apesar de Meta e seu CEO Mark Zuckerberg afirmarem que a nova linha de modelos Llama é de código aberto, diversos analistas discordam dessa afirmação. Shimmin, da Omdia, destacou que os modelos da Meta não atendem à definição de código aberto da Open Source Initiative.

“Os modelos Llama não seguem a abordagem típica de código aberto dos softwares licenciados sob acordos MIT ou Apache. Podemos considerá-los como tendo uma licença de comunidade aberta e permissiva que fornece aos profissionais de IA os recursos necessários para desenvolver soluções de IA para fins comerciais”, detalhou Shimmin.

Shimmin mencionou que, apesar de a Meta disponibilizar os pesos do modelo para todos os seus LLMs, a empresa não oferece uma divulgação completa dos dados utilizados no pré-treinamento dos LLMs.

De acordo com especialistas, o principal desafio atual reside na falta de uma definição clara do que constitui ou deve constituir uma LLM de código aberto.

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui