A IA generativa está finalmente concretizando a promessa do big data
24 out, 2025
O comentarista da Bloomberg e da CNBC Bob O’Donnell fala sobre as implicações da democratização da análise e armazenamento de dados
Aqueles que acompanham as tendências do setor de big tech há algum tempo, sem dúvida, se lembram do conceito de "big data". A ideia era que as empresas reunissem todas as diversas fontes de dados às quais tinham acesso, entre documentos tradicionais de escritório e emails, dados de processos de negócios, resultados de vendas, bancos de dados de clientes, vídeos, registros de bate-papo e muito mais, e, então, explorassem todos esses dados para obter insights significativos para fortalecer suas organizações.
Em teoria, o conceito era sólido e as expectativas em torno dele eram altas. Certamente haveria partes ocultas de informações úteis e muitos insights inesperados que começariam a aparecer à medida que todas as diversas fontes de dados fossem combinadas no que os proponentes acreditavam que seria uma poderosa mistura de significados. Na prática, infelizmente, os resultados foram muito diferentes.
Primeiro, ficou muito mais difícil organizar os dados de uma empresa em uma estrutura que permitisse que várias fontes fossem combinadas ou comparadas de maneira significativa. Não só houve problemas com coisas como reunir dados estruturados e não estruturados, mas também houve dificuldades com reformatação, importação, vinculação e execução de outras formas de manipulação de dados.
O que se provou ser ainda mais desafiador, no entanto, foi tentar fazer análises nos armazenamentos de dados aos quais eles tinham acesso. Acontece que somente aqueles que tinham treinamento muito especializado em ferramentas avançadas de análise de dados — ou seja, SQL jockeys — conseguiam reunir os comandos complexos necessários para explorar esse vasto acervo de dados. Infelizmente, muitas dessas pessoas não sabiam que tipos de consultas poderiam gerar os insights inesperados que o big data prometia. Empresários comuns que tinham noção dessas questões não conseguiam gerar consultas facilmente e muitos esforços acabaram se perdendo na tradução entre os dois grupos.
Com o uso cada vez mais difundido da GenAI, que é extremamente boa em encontrar padrões e gerar ideias a partir de uma enorme base de dados, a situação começou a mudar. Ao alimentar um modelo de IA com dados de uma organização, seja treinando um modelo personalizado ou personalizando um modelo de linguagem grande (LLM) existente, as organizações finalmente conseguem criar o gigantesco armazenamento de dados que sempre foi pensado para estar no centro das consultas de big data. Além disso, as interfaces simples no estilo chatbot que exploram esses modelos agora estão disponíveis para pessoas de qualquer nível de uma organização usarem facilmente. O resultado é que a promessa original do big data está finalmente se tornando realidade. Desde vendedores juniores que buscam um palpite sobre uma tendência que acham que estão começando a ver em campo, até executivos de nível C que buscam painéis de visão geral que combinem certas métricas importantes, pessoas em todas as organizações agora podem aproveitar a GenAI para obter uma enorme variedade de insights sobre os negócios.
As implicações disso no armazenamento de dados dentro de uma organização são enormes. Embora no passado algumas organizações pudessem ter descartado ou retirado certas fontes de dados do ar devido ao seu valor percebido limitado, há um reconhecimento crescente de que qualquer fonte de dados pode acabar ajudando na descoberta de novos insights e tendências imprevistos. Como resultado, as empresas não estão apenas garantindo que estão mantendo todos os dados gerados, mas também disponibilizando-os.
Um dos principais facilitadores dessa tendência são os bons e velhos discos rígidos magnéticos tradicionais. Graças a avanços tecnológicos, como o Seagate MozaicTM, agora é possível colocar 3 TB de dados em um único prato dentro de um disco rígido. Ampliar isso para um sistema de armazenamento em estilo rack em um data center corporativo ou local de colocation converte até 32 PB de armazenamento em um único espaço de rack de 19 polegadas de largura e 73 polegadas de altura (42U). Ao possibilitar esses tipos de capacidades de armazenamento, as organizações podem armazenar grandes quantidades de dados de forma muito eficiente, permitindo que elas consolidem diversas unidades de menor capacidade em sistemas menores e mais eficientes em termos de energia, garantindo que tenham bastante espaço para crescimento futuro.
Olhando para o panorama geral, esses tipos de discos rígidos de alta capacidade se encaixam perfeitamente em uma arquitetura geral de armazenamento. As organizações continuarão a usar SSDs de alta velocidade para armazenar as versões mais recentes de seus modelos de GenAI e outros aplicativos em que a importância da velocidade de acesso à memória supera as demandas de capacidade. Da mesma forma, outros tipos de SSDs provavelmente serão aproveitados para coisas como chatbots de IA, armazenamento de consultas rápidas e outras aplicações moderadamente exigentes. No entanto, para armazenamento de dados de propósito geral de muitas das fontes que alimentam esses modelos de IA personalizados, os discos rígidos de alta capacidade fornecem um conjunto ideal de características que são muito adequadas à aplicação.
Outro fator crítico é a localização desses dispositivos de armazenamento de dados. Devido ao custo e à segurança, a maioria das organizações mantém muitos de seus dados atrás de seu próprio firewall, em vez de na nuvem. Isso é particularmente verdadeiro para algumas das fontes de dados menos acessadas que agora podem ser mais facilmente integradas aos modelos de IA com novas ferramentas de treinamento e personalização de modelos. À medida que as organizações começam a criar seus próprios modelos de IA, há um grande ressurgimento na criação de sua própria infraestrutura interna de IA para treinar, personalizar e hospedar alguns desses modelos. Empresas como Dell, HPE, Lenovo e Cisco estão observando grandes aumentos na demanda por servidores equipados com GPU projetados para empresas, e a Nvidia vem falando sobre o crescimento de fábricas de IA corporativas há algum tempo. O resultado é um interesse renovado na construção de data centers corporativos com todos os recursos de computação, rede e armazenamento que isso implica.
Com todos esses elementos de hardware se encaixando, combinados com as capacidades de rápida expansão e o uso crescente de modelos e ferramentas de GenAI, o potencial para o tipo de visão de big data de insights significativos que nos foi prometido originalmente finalmente chegou. Embora nem todos os esforços levem necessariamente a insights mágicos surpreendentes, já está claro que um dos resultados mais impressionantes e benéficos do uso da GenAI — a verdadeira democratização da análise de dados — está aqui e começando a fazer seu impacto ser conhecido.
Quer dar vida à sua visão de big data? Fale com um especialista para descobrir como.
President and chief analyst of TECHnalysis Research, Bob O’Donnell is a regular guest on Yahoo Finance, Bloomberg and CNBC.
Por que os dados são o ativo definidor da economia da IA