O Ártico estará acessível com a licença Apache 2.0 e poderá ser utilizado através do Snowflake Cortex para inferência sem a necessidade de servidor, ou em plataformas como AWS, Azure, Nvidia, Perplexidade e Together AI.

A empresa Snowflake, especializada em armazenamento de dados em nuvem, criou o Arctic, um modelo de linguagem grande de código aberto (LLM), para competir com outros modelos como a Llama 3 do Meta, a Mistral, a Grok-1 do xAI e o DBRX da Databricks.
O Ártico é voltado para atividades empresariais, como criação de consultas em SQL, geração de código e execução de instruções, afirmou a Snowflake na quarta-feira.
Ele está disponível por meio do serviço gerenciado de aprendizado de máquina e inteligência artificial da Snowflake, chamado Cortex, para realização de inferências sem a necessidade de servidor usando a oferta da Data Cloud, além de estar disponível em diversos provedores de modelos como Hugging Face, Lamini, AWS, Azure, Nvidia, Perplexidade e Together AI, entre outros, conforme mencionado pela empresa. Os usuários corporativos têm a opção de baixá-lo do Hugging Face e podem acessar receitas para inferência e ajuste fino no repositório Github da Snowflake, de acordo com informações fornecidas pela empresa.
Comparação entre o Ártico de floco de neve e outros LLMs.
Em essência, o Ártico do floco de neve apresenta semelhanças significativas com diversos outros LLMs de código aberto, os quais também empregam a arquitetura de especialistas mistos (MoE), como é o caso do DBRX, Grok-1 e Mixtral, entre outros.
A arquitetura MoE consiste em desenvolver um modelo de inteligência artificial a partir de modelos menores treinados em conjuntos de dados distintos. Em seguida, esses modelos menores são agrupados em um único modelo, resultando em uma solução eficaz para uma variedade de problemas. No caso do Ártico, a junção envolve 128 modelos menores.
Uma das poucas exceções entre os modelos de código aberto disponíveis é o Llama 3, da Meta, que adota uma arquitetura de modelo transformador. Essa abordagem representa uma evolução da arquitetura codificador-decodificador introduzida pela Google em 2017 para tradução.
Segundo Scott Rozen-Levy, diretor de prática de tecnologia na empresa de serviços digitais West Monroe, a distinção entre as duas arquiteturas reside no fato de que um modelo MoE possibilita um treinamento mais eficaz, sendo mais eficiente.
“Rozen-Levy afirmou que ainda não há consenso sobre a melhor abordagem para avaliar a complexidade e suas consequências na qualidade de LLMs, seja por meio de modelos MoE ou modelos densos.”
Snowflake diz que seu modelo Ártico é mais avançado do que a maioria dos modelos de código aberto e alguns modelos de código fechado, pois requer menos parâmetros e consome menos potência de computação durante o treinamento.
A empresa afirmou que o desempenho do Ártico é significativamente inferior ao do DBRX e do Llama 3 70B, ativando cerca de metade dos parâmetros do primeiro e um quarto dos parâmetros do segundo durante a fase de inferência ou treinamento. Além disso, o Ártico utiliza apenas dois de seus modelos especializados por vez, representando aproximadamente 17 bilhões dos seus 480 bilhões de parâmetros.
DBRX e Grok-1, com um total de 132 bilhões e 314 bilhões de parâmetros, respectivamente, também apresentam uma ativação reduzida de parâmetros em comparação com o número total em qualquer entrada. Enquanto o Grok-1 utiliza dois dos seus oito modelos MoE em cada entrada, o DBRX ativa somente 36 bilhões dos seus 132 bilhões de parâmetros.
No entanto, segundo Dylan Patel, analista líder da empresa de pesquisa de semicondutores Semianalysis, o Llama 3 é consideravelmente superior ao Ártico em pelo menos um aspecto.
“Segundo Patel, o modelo Ártico com 475 bilhões de parâmetros é superior em termos de capacidade de processamento, mas não em relação à demanda de memória.”
Além disso, Patel mencionou que o Ártico é mais apropriado para realizar inferências de forma offline ao invés de online.
O inferenciamento offline, ou em lote, é quando as previsões são feitas, armazenadas e depois disponibilizadas quando necessário, enquanto o inferenciamento online, ou dinâmico, gera previsões em tempo real.
Comparando os padrões de referência.
O Ártico se destaca em testes de codificação e geração SQL em comparação com modelos de código aberto como DBRX e Mixtral-8x7B, conforme indicado pela Snowflake. No entanto, não consegue superar diversos modelos em compreensão de linguagem geral (MMLU), MATH e outros benchmarks, incluindo o Llama 3-70B.
Os especialistas afirmam que este é o local onde os parâmetros adicionais em outros modelos, como o Llama 3, provavelmente trarão vantagens.
“Segundo Mike Finley, CTO da Answer Rocket, a superioridade da Llama 3-70B em relação ao Arctic nos benchmarks GSM8K e MMLU indica como a Llama 3 utilizou os neurônios adicionais e aponta possíveis falhas na versão do Arctic.”
“De acordo com Finley, é importante que uma empresa teste o desempenho do Arctic com suas próprias cargas de trabalho, em vez de depender de testes acadêmicos. Isso permite verificar se o Arctic funcionará adequadamente em cenários e dialetos SQL específicos para a empresa, mesmo que tenha um bom desempenho no benchmark Spider.”
De acordo com o analista-chefe da Omdia, Bradley Shimmin, é aconselhável que os usuários da empresa não se fixem excessivamente nos benchmarks ao comparar modelos.
“A única forma de avaliação mais objetiva disponível no momento é o LMSYS Arena Leaderboard, o qual coleta informações provenientes das interações reais dos usuários. A avaliação mais precisa continua sendo a análise prática de um modelo específico no ambiente em que será utilizado”, afirmou Shimmin.
Por qual motivo a Snowflake está disponibilizando o Arctic sob a licença Apache 2.0?
A Snowflake está disponibilizando o Arctic e outros modelos de incorporação de texto, além de modelos de código e pesos de modelo, sob a licença Apache 2.0, que possibilita o uso comercial sem a necessidade de pagamento de licenças.
Por outro lado, a família de modelos da Meta da Llama possui uma licença mais limitada para uso em atividades comerciais.
Os analistas afirmaram que adotar a estratégia de se tornar completamente open source pode trazer benefícios significativos para Snowflake em diversas áreas.
“Segundo Hyoun Park, analista principal da Amalgam Insights, ao adotar essa estratégia, Snowflake consegue preservar a lógica exclusiva do modelo, possibilitando que terceiros façam ajustes e melhorias nas suas saídas. Na área de Inteligência Artificial, o modelo é considerado um resultado final, não o código fonte.”
Park afirmou que os principais elementos exclusivos da inteligência artificial são os procedimentos de treinamento do modelo, os conjuntos de dados utilizados nesse treinamento e quaisquer técnicas proprietárias empregadas para melhorar o hardware e os recursos durante o processo de treinamento.
De acordo com Paul Nashawaty, líder de prática de modernização e desenvolvimento de aplicativos na The Futurum Research, há um crescente interesse dos desenvolvedores no outro aspecto que Snowflake pode oferecer.
Segundo o analista, a abertura do modelo de terceirização pode atrair colaborações de desenvolvedores externos, resultando em melhorias, correções de erros e novas funcionalidades que beneficiam tanto o Snowflake quanto seus usuários. Além disso, o fato de ser open source pode aumentar a participação de mercado por meio do “puro bom senso”.
Rozen-Levy de West Monroe concordou com Nashawaty, destacando que, embora Snowflake seja uma plataforma de código aberto, isso não implica necessariamente que tudo o que ele desenvolve será disponibilizado sob a mesma licença.
“Snowflake pode possuir modelos mais avançados que não pretendem disponibilizar como código aberto. Disponibilizar os LLMs de forma aberta pode ser considerado uma estratégia ética e/ou de relações públicas contra a monopolização da inteligência artificial por uma única entidade”, disse o analista.
Outras variantes de Snowflake
No começo deste mês, a companhia introduziu uma série de cinco modelos de incorporação de texto com diversos tamanhos de parâmetros, afirmando que esses tiveram um desempenho superior em comparação com outros modelos de incorporação.
Os fornecedores de LLM estão disponibilizando uma variedade crescente de modelos para que as empresas possam optar entre latência e precisão, dependendo de suas necessidades. Embora um modelo com mais parâmetros possa ser mais preciso, um com menos parâmetros demanda menos recursos computacionais, responde mais rapidamente e, consequentemente, é mais econômico.
“Segundo um post de blog da empresa, os modelos representam uma nova vantagem para as empresas, ao unir dados internos com LLMs em um serviço de busca semântica aprimorado, denominado geração aumentada de recuperação (RAG). A empresa destacou que esses modelos foram desenvolvidos a partir da experiência técnica e do conhecimento adquirido com a aquisição da Neeva em maio passado.”
Os cinco modelos de incorporação são de código aberto e podem ser utilizados no Hugging Face. Além disso, seu acesso através do Cortex está em fase de visualização.