24 10月, 2025
彭博社与 CNBC 评论员 Bob O’Donnell 深度解读数据分析普及化趋势及其对数据存储的影响
一直关注大型科技行业趋势的人,肯定还记得“大数据”这个概念。当时的理念是:企业将整合所有可获取的各种数据源——从传统的办公文档和电子邮件,到业务流程数据、销售结果、客户数据库、视频、聊天记录等——并通过分析这些数据,提炼出有价值的洞察,从而增强组织的能力。
从理论上讲,这个概念是合理的,人们对它的期望很高。人们当时相信,当所有不同来源的数据被整合起来时,势必会挖掘出隐藏的信息宝藏,并揭示出许多出乎意料的洞察,从而形成一种充满意义的强大数据融合。然而,现实情况却大不相同。
首先,事实证明,要将企业的数据整理成能够让不同来源之间实现有效整合与比较的结构,比想象中困难得多。不仅要面对如何整合结构化数据与非结构化数据的问题,还需要处理格式转换、数据导入、关联以及其他复杂的数据整理工作。
但更具挑战性的是,即便企业能够访问到这些数据,要对其进行有效分析依然十分艰难。结果发现,只有那些受过高级数据分析工具专业训练的人——也就是所谓的 SQL 专家——才能编写出极其复杂的指令,从而挖掘这庞大的数据宝库。遗憾的是,这些技术人员往往并不了解哪些问题或查询,才能产生“大数据”所承诺的那些出乎意料的洞察。而真正了解业务、知道该问什么问题的业务人员,却又难以直接生成这些查询。于是,大量的大数据项目最终都在这两类人之间的“沟通鸿沟”中迷失了方向。
随着生成式 AI 的广泛应用——这种技术擅长从海量数据中发现模式并生成新思路——形势开始发生转变。通过将企业的数据输入 AI 模型(无论是训练自定义模型,还是对现有的大语言模型进行微调),组织终于能够构建起“大数据”设想中那种庞大的核心数据仓库。此外,那些基于模型的简易聊天式界面,如今也让企业中任何层级的员工都能轻松使用。结果就是,“大数据”的最初承诺终于正在成为现实。从一线销售人员根据直觉探索他们在市场上察觉到的趋势,到高管层希望查看整合关键指标的宏观仪表板,如今企业各个层级的人员都能够借助生成式 AI,从数据中获取更广泛、更深入的业务洞察。
这一转变对企业内部的数据存储带来了深远影响。过去,一些企业可能会因为认为某些数据价值有限,而选择丢弃或下线部分数据源。如今,人们越来越认识到——任何数据源都有可能为发现新的、意想不到的洞察和趋势提供线索。因此,企业不仅确保保留所有生成的数据,还在努力让这些数据能够被全面访问和利用。
支撑这一趋势的关键技术之一,正是传统的磁性硬盘。得益于 Seagate MozaicTM (魔彩盒) 等技术的进步,现在硬盘的单个磁盘上可以容纳 3TB 的数据。在企业数据中心或共址机房中,将这类硬盘扩展为机架式存储系统后,仅在一台 19 英寸宽、73 英寸高 (42U) 的机柜空间内,就能实现高达 32PB 的存储容量。凭借这样的存储能力,企业能够高效保存海量数据,将众多低容量硬盘整合为更紧凑、更节能的系统,同时为未来的增长预留充足空间。
从更宏观的角度来看,这类高容量硬盘能够很好地融入整体的数据存储架构中。企业仍会使用高速 SSD 来存储最新版本的生成式 AI 模型,以及其他对内存访问速度要求高于容量需求的应用。同时,其他类型的 SSD 也可能被用于诸如 AI 聊天机器人、提示词查询存储等对性能有中等要求的场景。然而,对于那些为定制化 AI 模型提供输入的各类通用数据源而言,高容量硬盘凭借其理想的性能组合,依然是最契合的存储解决方案。
另一个关键因素在于数据存储设备的位置。出于成本与安全的考虑,大多数企业倾向于将大量数据保存在自身防火墙后方,而非完全依赖云端。尤其是一些访问频率较低的数据源,如今借助新的模型训练与定制化工具,也能更轻松地被整合进 AI 模型之中。随着越来越多企业开始打造自有的 AI 模型,一股重建内部 AI 基础架构的浪潮正在兴起,用于训练、定制和部署这些模型。戴尔、慧与、联想和思科等公司都观察到,面向企业的 GPU 服务器需求大幅增长,而英伟达早已持续强调“企业级 AI 工厂”的崛起趋势。这股趋势的结果,是企业重新关注建设自有数据中心,配置完备的计算、网络与存储资源。
当这些硬件要素逐步完善,再叠加生成式 AI 模型与工具能力的迅速扩张与普及,我们终于迎来了那个“从海量数据中洞察真正价值”的时代。尽管并非所有尝试都能带来令人惊叹的“灵光乍现”,但可以肯定的是,生成式 AI 带来的最大惊喜与收益之一——数据分析的真正普惠化——已然到来,并正在发挥影响力。
President and chief analyst of TECHnalysis Research, Bob O’Donnell is a regular guest on Yahoo Finance, Bloomberg and CNBC.