InícioBlogPor que o Apache Iceberg está tão popular atualmente?

Por que o Apache Iceberg está tão popular atualmente?

Date:

O Apache Iceberg oferece um tipo de tabela aberta para facilitar a compatibilidade entre diferentes sistemas de armazenamento de dados, destacando a relevância de um padrão aberto genuíno.

Big icebergs in Atlantic ocean, Ilulissat icefjord, western Greenland. Blue sea and the blue sky at sunrise
Imagem: TomasHa73/KaboomPics

As empresas consideram seus dados como um recurso essencial e desejam ter controle sobre eles, a fim de obter o máximo valor. Isso implica em utilizar as diversas ferramentas e frameworks disponíveis para suportar a inteligência artificial e a análise, o que demanda a adoção de padrões abertos.

Muitas informações empresariais estão atualmente armazenadas em lagos de dados, que são perfeitos para guardar grandes volumes de dados organizados e não organizados. Esses lagos oferecem às empresas uma forma completa de explorar, aprimorar e analisar enormes quantidades de dados que podem estar sendo recebidos continuamente de diversas fontes.

Porém, a dependência de formatos proprietários em lagos de dados dificulta a partilha e acesso de dados em várias plataformas e ferramentas, o que pode ser custoso ou mesmo impossível. Grandes empresas costumam utilizar múltiplas plataformas de dados e motores de processamento, sendo essencial que as equipes de dados consigam acessar de forma segura essas informações em todos os ambientes, sem enfrentar os elevados custos, riscos e problemas técnicos decorrentes da replicação de dados.

Por isso que o Apache Iceberg se destacou como um dos projetos de código aberto mais populares, devido ao seu fornecimento de um formato de tabela aberta que possibilita a interoperabilidade em lagos de dados. O Apache Iceberg destaca a relevância de adotar um padrão aberto genuíno, sendo um modelo que a indústria deveria considerar para catálogos de dados e outros componentes essenciais da infraestrutura de dados.

O aumento da popularidade do Apache Iceberg.

O Apache Iceberg estabelece um modelo de metadados que descreve uma tabela, incluindo seu esquema, histórico e cada arquivo relacionado a ela. Além disso, assegura a conformidade ACID, possibilitando que múltiplas aplicações operem de forma segura com os mesmos dados ao mesmo tempo.

VEJA TAMBEM:  CloudBees lê a plataforma de devsecops que é nativa da nuvem.

Com a Iceberg, as empresas podem evitar a duplicação de dados ao utilizar diferentes motores e ferramentas de processamento, pois a plataforma cria uma separação clara entre os dados e a camada de gerenciamento, permitindo aproveitar o armazenamento em nuvem econômico e conectar diversos motores de processamento compatíveis.

A questão relevante é que Iceberg é totalmente transparente, uma vez que é administrado pela Apache Software Foundation. Suas funcionalidades não são controladas por indivíduos ou organizações, mas sim por um grupo de colaboradores que decidem em conjunto quais recursos serão implementados a seguir. Eles se comprometem a garantir a interoperabilidade e otimização de todos os produtos relacionados.

Qual é o significado de estar disponível

O Apache Iceberg ressalta a importância da distinção entre código aberto e governança aberta. Embora um fornecedor possa disponibilizar seu código no GitHub para ser utilizado como software de código aberto, a direção e os recursos continuam sendo controlados por uma única empresa. Esse modelo de “ditador benevolente” não assegura a interoperabilidade, o que impede os clientes de transferir dados entre plataformas e, consequentemente, de ter controle sobre seus próprios ativos de dados.

Atualmente, muitas grandes empresas estão desconectadas da realidade. Elas utilizam uma variedade de hiperscalers, plataformas de dados e motores de processamento adquiridos ao longo do tempo por meio de aquisições ou decisões arquitetônicas específicas. Sem padrões abertos que garantam a interoperabilidade, as empresas enfrentam o ônus e a dívida técnica de replicar dados em diversas plataformas. Essa prática é não só extremamente dispendiosa, mas também resulta em dados que raramente se mantêm sincronizados por períodos prolongados, levando os analistas a criar relatórios em múltiplas plataformas que fornecem insights discrepantes sobre o negócio.

VEJA TAMBEM:  Floco de neve está buscando adquirir o LeapYear para aprimorar suas habilidades de organização de dados no quarto.

Enquanto Iceberg resolve esse desafio, a necessidade de padrões abertos também é evidente em outras áreas. Atualmente, observamos um novo campo de disputa surgindo no segmento de bancos de dados, os quais desempenham um papel fundamental em uma arquitetura multi-engine. Os bancos de dados garantem a confiabilidade das operações em tabelas, suportando transações atômicas. Isso possibilita que engenheiros de dados e os pipelines que eles constroem possam modificar tabelas simultaneamente, garantindo resultados precisos nas consultas. Para atingir isso, todas as operações de leitura e escrita da plataforma Iceberg, mesmo provenientes de diferentes motores, passam por um banco de dados central.

Os provedores de software como serviço e as grandes empresas de tecnologia podem utilizar o catálogo como forma de estabelecer a presença do cliente, porém as organizações estão percebendo isso. Elas reconhecem que, da mesma forma que o Iceberg oferece um modelo padrão para tabelas, um catálogo aberto permitirá que selecionem a ferramenta mais adequada para a tarefa e otimizem o aproveitamento de seus dados.

Os padrões abertos contribuem positivamente para as empresas, os consumidores e o contexto geral. As organizações lidam com estruturas de dados complexas e os padrões abertos possibilitam a utilização de dados em diferentes plataformas sem gerar custos extras ou complicações de gerenciamento. Além disso, os padrões abertos estimulam a inovação ao impulsionar a competição entre as empresas na implementação e ao oferecer aos consumidores a liberdade de escolha.

Assegurar um ambiente de informações focado no cliente.

O crescimento veloz do Apache Iceberg destaca a importância dos padrões abertos diante das sofisticadas arquiteturas de dados atuais. À medida que as empresas buscam integrar sistemas de dados diversos e aproveitar ao máximo as melhores ferramentas disponíveis, a interoperabilidade torna-se essencial. O modelo de gerenciamento transparente e a colaboração diversificada da Iceberg auxiliam os clientes a retomar o controle de seus ativos de dados. Essa abordagem, que a indústria deve adotar em todas as camadas de dados, visa assegurar um ecossistema de dados mais aberto, interoperável e focado no cliente.

VEJA TAMBEM:  AWS Snowmobile viaja em direção ao pôr do sol.

James Malone ocupa o cargo de líder no setor de armazenamento de dados e engenharia de dados na empresa Snowflake.

Lo siento, pero necesito que proporciones un texto o una idea específica para parafrasear. ¡Estoy aquí para ayudarte en lo que necesites!

O New Tech Forum proporciona um espaço para líderes da área de tecnologia, como fornecedores e outros colaboradores externos, discutirem e explorarem de forma abrangente e detalhada a tecnologia empresarial emergente. A seleção é baseada na nossa escolha das tecnologias que consideramos relevantes e de maior interesse para os leitores do InfoWorld. A InfoWorld não oferece garantias de publicação com fins de marketing e se reserva o direito de editar todo o conteúdo contribuído. Qualquer dúvida pode ser enviada para doug_dineley@foundryco.com.

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui