Documento técnico

Arquitectura de almacenamiento avanzada para potenciar la IA en centros de datos.

seagate-supermicro-osnexus

Creada para el futuro de la IA, una solución conjunta de Supermicro, Seagate y OSNexus está diseñada para impulsar tanto la eficiencia como la escalabilidad de la IA.

minutos de lectura

seagate-supermicro-osnexus

Índice:

    Resumen ejecutivo.

    El auge de la inteligencia artificial (IA) ha impulsado una demanda sin precedentes de soluciones de almacenamiento para centros de datos escalables, de alto rendimiento y rentables. Este documento técnico presenta una solución integral que combina el hardware de Supermicro, las unidades de disco duro Seagate Exos con tecnología Mozaic 3+™ basada en HAMR de Seagate y el software QuantaStor de OSNexus. Esta solución conjunta aborda el crecimiento explosivo de las necesidades de almacenamiento de datos impulsadas por la IA, proporcionando una arquitectura robusta que admite configuraciones de escalamiento vertical y de escalamiento horizontal. Entre las principales ventajas se incluyen una mayor escalabilidad para dar cabida a las crecientes cargas de trabajo de IA, un rendimiento excepcional con un alto rendimiento y una baja latencia, una rentabilidad optimizada gracias a la reducción del tamaño de las unidades físicas y al ahorro de energía, una plataforma de gestión unificada que simplifica las operaciones, funciones de seguridad avanzadas para el cumplimiento de normativas y un menor impacto medioambiental gracias a soluciones de almacenamiento de bajo consumo energético.

    Introducción.

    La rápida evolución de las tecnologías de IA y aprendizaje automático (ML) ha transformado fundamentalmente el panorama del almacenamiento de datos. Los avances en la potencia computacional, el acceso democratizado para los desarrolladores y la mayor rapidez de las herramientas de desarrollo han provocado una explosión de la innovación impulsada por la IA. A medida que los modelos de IA se hacen más avanzados, la necesidad de soluciones de almacenamiento escalables y de alto rendimiento nunca ha sido mayor. Los datos son la columna vertebral de la IA, y la capacidad de almacenar, gestionar y acceder a grandes cantidades de datos de forma eficiente es crucial para entrenar modelos de IA y desplegar aplicaciones de IA. Las soluciones de almacenamiento tradicionales a menudo se quedan cortas para satisfacer estas demandas, lo que hace necesario el desarrollo de nuevas arquitecturas adaptadas a las necesidades de las cargas de trabajo de la IA.

    Las cargas de trabajo de IA en evolución exigen soluciones de almacenamiento en evolución.

    Las cargas de trabajo de IA presentan retos únicos que las soluciones de almacenamiento tradicionales tienen dificultades para superar. Los modelos de IA requieren grandes cantidades de datos para su entrenamiento, que a menudo alcanzan la escala de petabytes. Estos datos deben ser fácilmente accesibles, ya que la eficacia del proceso de formación depende en gran medida de una rápida recuperación de los datos. Además, las aplicaciones de IA a menudo implican tareas de procesamiento de datos a gran escala que exigen un alto rendimiento y una baja latencia para ofrecer información en tiempo real.

    La intensidad computacional de las cargas de trabajo de la IA también genera cantidades significativas de metadatos, que deben gestionarse de forma eficiente para evitar cuellos de botella. Las soluciones de almacenamiento tradicionales, con su limitada escalabilidad y rendimiento, no se adaptan a estas exigencias. A menudo carecen de la flexibilidad necesaria para gestionar cargas de trabajo dinámicas, lo que provoca ineficacias y un aumento de los costes operativos.

    La innovación impulsada por la IA necesita soluciones de almacenamiento que puedan escalarse rápidamente, manejar grandes volúmenes de datos no estructurados y proporcionar un acceso sin fisuras a estos datos. Por ejemplo, el entrenamiento de un modelo complejo de IA implica el procesamiento iterativo de vastos conjuntos de datos para perfeccionar los algoritmos y mejorar la precisión. El enorme volumen de datos necesario para estas iteraciones puede saturar los sistemas de almacenamiento tradicionales, provocando retrasos y reduciendo la eficacia general de las operaciones de IA.

    Además, las aplicaciones de IA se despliegan cada vez más en entornos en tiempo real en los que el procesamiento inmediato de los datos es fundamental. Esto incluye aplicaciones como los vehículos autónomos, el mantenimiento predictivo y la atención sanitaria personalizada. Estos casos de uso requieren soluciones de almacenamiento que no solo ofrezcan una gran capacidad, sino también un rendimiento excepcional para respaldar el análisis instantáneo de los datos y la toma de decisiones.

    Admite configuraciones de escalamiento vertical y escalamiento horizontal.

    La solución conjunta de Supermicro, Seagate y OSNexus combina hardware y software de vanguardia para ofrecer una infraestructura de almacenamiento robusta, escalable y rentable para cargas de trabajo de IA. Los componentes principales de esta solución incluyen servidores Supermicro y JBOD, unidades de disco duro Seagate Mozaic 3+, unidades SSD Seagate Nytro NVMe y el software QuantaStor de OSNexus.

    La arquitectura de la solución conjunta admite configuraciones de escalabilidad vertical y horizontal, lo que satisface las diversas necesidades de implementación.

    El escalamiento vertical consiste en aumentar la capacidad de un único sistema de almacenamiento o servidor añadiendo más recursos, como CPU, memoria o unidades de almacenamiento. Este enfoque maximiza el rendimiento de las unidades individuales, pero tiene limitaciones inherentes a la escalabilidad.

    El escalamiento horizontal, por otro lado, implica añadir más nodos de almacenamiento o servidores a un sistema, distribuyendo la carga de trabajo entre varias unidades. Este enfoque permite una escalabilidad prácticamente ilimitada, lo que permite a los sistemas gestionar cargas de trabajo de IA mayores y más complejas ampliando la arquitectura sin problemas a medida que crece la demanda.

    Las configuraciones de escalamiento vertical son ideales para aplicaciones más pequeñas y sensibles a los costes, ya que ofrecen un rendimiento de hasta 5-10 GB/s. Por el contrario, las configuraciones de escalamiento horizontal están diseñadas para despliegues más grandes, con un rendimiento que escala linealmente a medida que se incorporan nodos adicionales. Esta escalabilidad permite a la solución alcanzar cientos de gigabytes por segundo en rendimiento, satisfaciendo las demandas de las cargas de trabajo intensivas de IA.

    La perfecta integración de los servidores Supermicro, las unidades Seagate y el software QuantaStor forman una solución de almacenamiento cohesiva y eficiente. Esta arquitectura admite tanto el almacenamiento de archivos como el de objetos, lo que proporciona a las organizaciones la flexibilidad necesaria para elegir la configuración más adecuada a sus necesidades específicas. La gestión unificada que ofrece QuantaStor garantiza que todos los componentes funcionen de forma armoniosa, ofreciendo un rendimiento y una fiabilidad óptimos. La capacidad de gestionar configuraciones de escalabilidad vertical y horizontal dentro de una sola plataforma simplifica las operaciones y reduce la complejidad asociada con el mantenimiento de varios sistemas de almacenamiento.

    Descripción general de la arquitectura.

    La arquitectura se compone de servidores Supermicro, unidades de disco duro Seagate Exos Mozaic 3+ y unidades SSD Seagate Nytro NVMe, todo ello orquestado por el software QuantaStor de OSNexus. Esta combinación satisface las intensas demandas de las cargas de trabajo de IA/ML, que requieren un alto rendimiento, baja latencia y la capacidad de manejar conjuntos de datos masivos de forma eficiente.

    Consideraciones sobre la infraestructura de implementación.

    • Los detalles sobre las redes y la infraestructura mínima necesaria para el éxito están fuera del alcance de este documento, pero son fundamentales para la toma de decisiones arquitectónicas.
    • Criterios clave:
      • Velocidad de red (determina el tamaño óptimo de los soportes y los nodos)
      • Especificaciones del bastidor (profundidad del bastidor y espacio en U)
      • Presupuesto de energía y refrigeración

     

    Arquitecturas de escalamiento vertical y horizontal.

     

    • Arquitectura de escalabilidad vertical
      • Esta arquitectura es ideal para entornos que requieren un almacenamiento rentable y de alta densidad. Utiliza unidades NVMe de doble puerto en el chasis de 24 bahías de Supermicro, que proporciona alta disponibilidad y rendimiento al permitir el acceso compartido a las unidades subyacentes. La arquitectura admite la ampliación a través de JBOD, lo que permite conectar hasta cuatro JBOD a los controladores de escalamiento vertical, soportando así configuraciones con hasta siete petabytes de almacenamiento con discos duros Mozaic 3+ de clase empresarial.
      • En las configuraciones de escalamiento vertical, QuantaStor utiliza OpenZFS, el sistema de archivos de alto rendimiento y de nivel empresarial conocido por su avanzada protección de datos, escalabilidad y eficiencia, especialmente en entornos de almacenamiento a gran escala, lo que permite realizar comprobaciones eficientes de la integridad de los datos y optimizar el almacenamiento. La arquitectura es especialmente adecuada para cargas de trabajo de IA/ML a menor escala y entornos en los que la minimización de costes y la maximización de la densidad son prioritarias.
    Imagen del producto con llamadas de atención sobre las características.

    Ampliar

     

    • Arquitectura de escalabilidad horizontal
      • La arquitectura de escalamiento horizontal está diseñada para proporcionar una escalabilidad de rendimiento lineal mediante la adición de más nodos. Utiliza técnicas de codificación de borrado y réplica entre nodos para garantizar una alta disponibilidad y redundancia de los datos. La arquitectura es especialmente adecuada para cargas de trabajo de IA/ML a gran escala en las que las necesidades de rendimiento y capacidad crecen continuamente. Por ejemplo, el entrenamiento de grandes modelos lingüísticos (LLM), como el GPT (transformador generativo preentrenado) o el BERT (representaciones codificadoras bidireccionales a partir de transformadores), requiere una inmensa potencia de cálculo y almacenamiento de datos, por lo que la arquitectura de escalamiento horizontal resulta esencial para gestionar la creciente complejidad y volumen de datos. Además, la investigación genómica impulsada por la IA, en la que se requiere el procesamiento a gran escala de datos genómicos para tareas como el análisis de variantes y los estudios de expresión génica, también se beneficia significativamente de la escalabilidad y la alta disponibilidad que proporciona la arquitectura de escalamiento horizontal.
      • Esta arquitectura puede combinar nodos híbridos (que mezclan NVMe y discos duros) con nodos all-flash, lo que proporciona flexibilidad a la hora de configurar clústeres en función de requisitos específicos de rendimiento y capacidad. En configuraciones de escalamiento horizontal, QuantaStor utiliza su integración con la tecnología Ceph, que destaca por proporcionar almacenamiento distribuido en un gran número de nodos.

    Consideraciones clave y opciones de diseño.

    En función de los requisitos específicos de rendimiento y las necesidades de capacidad de datos de las cargas de trabajo de IA/ML, pueden ser necesarias distintas configuraciones para lograr resultados óptimos. Factores como el volumen de datos que se procesan y la velocidad a la que es necesario acceder a los datos dictarán si una configuración híbrida o all-flash es la más adecuada para el escenario. Además, las consideraciones de presupuesto y los requisitos de escalabilidad influirán en las decisiones de diseño de la arquitectura.

    • Configuraciones híbridas.
      • En las configuraciones híbridas, se utiliza una combinación de unidades SSD NVMe y de disco duro de alta capacidad para equilibrar el rendimiento y el coste. La arquitectura admite hasta 60 o 90 unidades en JBOD, lo que la hace adecuada para cargas de trabajo de IA/LM que requieren alto rendimiento y gran capacidad en el rango de PB, como la investigación médica y física.
      • Un grupo híbrido de escalamiento vertical típico podría utilizar tres unidades NVMe por grupo para la descarga de metadatos y archivos pequeños, combinadas con discos duros de gran capacidad para almacenar conjuntos de datos más grandes. Las configuraciones híbridas de escalamiento horizontal tendrían tres o más unidades NVMe por nodo.
    • Configuraciones completamente en flash
      • Las configuraciones completamente en flash se recomiendan para las cargas de trabajo de IA/LM que requieren un alto rendimiento, como el análisis en tiempo real o las tareas de procesamiento de datos intensivo.
      • Estas configuraciones de escalabilidad horizontal pueden ofrecer una producción de hasta 1 TB/s aprovechando cientos de unidades NVMe en clústeres de escalabilidad horizontal.
    • Consideraciones de capacidad y rendimiento
      • Es esencial equilibrar la capacidad de almacenamiento con los requisitos de rendimiento. Por ejemplo, en un cluster híbrido de escalamiento horizontal con una mezcla de unidades de disco duro y flash, alrededor del 3 % del almacenamiento total podría ser flash para optimizar el rendimiento, mientras que en un cluster híbrido de escalamiento vertical el almacenamiento flash podría rondar el 1 % del total. Con las unidades de disco duro que ofrecen una clara ventaja en cuanto a coste por terabyte y coste total de propiedad (TCO) (las unidades SSD para empresas tienen una prima de precio de 6 a 1), las unidades de disco duro siguen siendo la opción preferida para la capacidad masiva en los centros de datos.
      • La arquitectura permite comenzar con clústeres más pequeños y expandirlos según sea necesario al agregar más nodos o JBOD, lo que garantiza que la infraestructura de almacenamiento pueda crecer junto con las cargas de trabajo de IA/ML.

    Gestión y optimización.

    Una gestión y optimización eficaces son fundamentales para garantizar que las cargas de trabajo de IA/ML rindan al máximo dentro de la arquitectura de almacenamiento. Las avanzadas funciones de gestión de QuantaStor agilizan las operaciones, y ofrecen un control y una supervisión exhaustivos en diversas configuraciones.

    • Gestión unificada de QuantaStor
      • QuantaStor proporciona un plano de control unificado que simplifica la gestión de las arquitecturas de escalamiento vertical y horizontal. Admite funciones avanzadas como el almacenamiento en niveles automático, el cifrado de extremo a extremo y el cumplimiento de los estándares del sector, lo que garantiza que la infraestructura de almacenamiento sea segura y esté optimizada para las cargas de trabajo de IA/ML.
      • La tecnología de rejilla del software permite escalar sin problemas el almacenamiento en varios sitios, eliminando la complejidad de gestionar sistemas dispares.

    Casos de uso y escenarios.

    Las diferentes cargas de trabajo de IA/ML requieren soluciones de almacenamiento a medida para lograr un rendimiento y una rentabilidad óptimos. En función de la escala y la complejidad de la carga de trabajo, pueden desplegarse configuraciones de escalamiento vertical, de escalamiento horizontal o mixtas para satisfacer las demandas específicas de diversos sectores y aplicaciones.

    • Casos de uso de escalabilidad vertical
      • Las configuraciones de escalamiento vertical son ideales para entornos con cargas de trabajo de IA/ML más pequeñas o para aquellos que dan prioridad a la rentabilidad. Son ideales para aplicaciones como el almacenamiento de soportes y entretenimiento, la virtualización de servidor y el archivado de datos.
    • Casos de uso de escalabilidad horizontal
      • Las configuraciones de escalamiento horizontal están diseñadas para la computación de alto rendimiento, los lagos de datos y los entornos de IA/LM en los que la posibilidad de escalar tanto el rendimiento como la capacidad es fundamental. Estas configuraciones también son ideales para el almacenamiento de objetos a gran escala y el análisis en tiempo real.
    • Casos de uso mixtos
      • Las organizaciones pueden desplegar configuraciones de escalamiento horizontal y vertical dentro del mismo entorno, utilizando la gestión unificada de QuantaStor para mantener la coherencia y optimizar el rendimiento en las diferentes cargas de trabajo.

    whitepaper-joint-ai-supermicro-figure-4

    Ampliar

    Avances tecnológicos.

    Los avances tecnológicos que incorpora esta solución son fundamentales para su eficacia. Las unidades de disco duro Exos Mozaic 3+ de Seagate suponen un importante salto adelante en la tecnología de almacenamiento. Al utilizar la tecnología HAMR, estas unidades alcanzan una densidad de área sin precedentes, lo que permite una mayor capacidad de almacenamiento dentro del mismo espacio físico. Este avance no solo responde a la necesidad de almacenamiento de datos a gran escala, sino que también mejora la eficiencia energética, ya que se necesitan menos unidades para almacenar la misma cantidad de datos.

    Las ventajas en términos de coste total de propiedad de los discos duros Mozaic 3+ son considerables, e incluyen 3 veces la capacidad de almacenamiento en el mismo espacio ocupado por el centro de datos por un 25 % menos de coste por TB, un 60 % menos de consumo energético por TB y un 70 % menos de carbono incorporado por TB (en comparación con las unidades PMR de 10 TB, una capacidad de disco común que necesita actualización en los centros de datos hoy en día). El menor consumo de energía de las unidades se traduce en una reducción de los costes energéticos, mientras que la mayor densidad reduce la necesidad de espacio físico, lo que supone un ahorro en la infraestructura del centro de datos. Además, el menor carbono incorporado de las unidades las convierte en una opción más respetuosa con el medio ambiente, en línea con los objetivos de sostenibilidad, cada vez más importantes para las empresas modernas.

    La integración de las unidades SSD Nytro NVMe de Seagate añade otra capa de rendimiento mejorado. Estas unidades de alta velocidad son esenciales para gestionar las intensas operaciones de lectura y escritura típicas de las cargas de trabajo de la IA. Su baja latencia garantiza que se pueda acceder a los datos y procesarlos en tiempo real, lo que resulta crucial para entrenar modelos de IA y desplegar aplicaciones de IA. El diseño de doble puerto de las unidades SSD aumenta la fiabilidad, ya que permite un funcionamiento continuo incluso si falla un puerto.

    El software QuantaStor de OSNexus mejora aún más la solución al proporcionar una gestión inteligente de los datos y funciones avanzadas de seguridad. Las capacidades de jerarquización automática por niveles del software garantizan que los datos se almacenen en el nivel más adecuado, optimizando tanto el rendimiento como el coste. El cifrado de extremo a extremo y el cumplimiento de las normas del sector ayudan a proteger los datos, ya que abordan los problemas de seguridad y privacidad que son primordiales en las aplicaciones de IA, sobre todo en sectores como la sanidad y las finanzas, donde se manejan con frecuencia datos sensibles.

    whitepaper-joint-ai-supermicro-figure-6

    Ampliar

     

    Ventajas de la solución.

    La solución conjunta de Supermicro, Seagate y OSNexus ofrece varias ventajas clave que abordan las necesidades específicas de las cargas de trabajo de IA/ML. Estas ventajas incluyen:

    • Escalabilidad: La capacidad de la solución para escalar tanto en vertical como en horizontal garantiza que pueda crecer junto con las crecientes demandas de las cargas de trabajo de IA. Tanto si una organización maneja unos pocos terabytes como varios petabytes de datos, la solución puede adaptarse a sus necesidades sin necesidad de revisar por completo la infraestructura de almacenamiento.
    • Rendimiento: El uso de unidades SSD Nytro NVMe de Seagate y discos duros Mozaic 3+, combinado con las capacidades de gestión de QuantaStor, ofrece un rendimiento excepcional. Esto es especialmente importante para las cargas de trabajo de IA/ML que requieren un alto rendimiento y una baja latencia para funcionar con eficacia.
    • Rentabilidad: La arquitectura de la solución está diseñada para optimizar tanto los gastos de capital como los operativos. Al reducir el número de unidades físicas necesarias, disminuir el consumo de energía y ofrecer una plataforma de gestión flexible y unificada, la solución reduce significativamente el coste total de propiedad (TCO).
    • Gestión unificada: La capacidad de QuantaStor para gestionar arquitecturas de escalamiento vertical y horizontal desde una única interfaz simplifica las operaciones y reduce la complejidad asociada a las soluciones de almacenamiento de varios proveedores. Este enfoque unificado no sólo ahorra tiempo, sino que también reduce la posibilidad de errores y aumenta la eficacia general.
    • Seguridad y cumplimiento: La solución incluye funciones de seguridad avanzadas que protegen los datos de accesos no autorizados y garantizan el cumplimiento de las normas del sector. Esto es especialmente importante para las aplicaciones de IA en industrias reguladas, donde las violaciones de datos pueden dar lugar a importantes sanciones legales y financieras.
    • Impacto medioambiental: El uso de unidades de Seagate construidas sobre la plataforma Mozaic 3+ reduce el impacto medioambiental de los centros de datos al disminuir el consumo de energía y reducir el espacio físico necesario para el almacenamiento. Esto se alinea con el creciente énfasis en la sostenibilidad en el sector tecnológico.

    Cajas de uso y aplicaciones.

    La solución es lo suficientemente versátil como para soportar una amplia gama de cajas de uso en diversas industrias. Algunos ejemplos incluyen:

    • Sanidad: Las cargas de trabajo de IA/ML en la atención sanitaria, como el análisis predictivo y la medicina personalizada, requieren la capacidad de procesar grandes cantidades de datos de forma rápida y segura. La solución conjunta ofrece la escalabilidad, el rendimiento y la seguridad necesarios para dar soporte a estas aplicaciones.
    • Finanzas: En las finanzas, la IA se utiliza para tareas como la detección de fraudes, el comercio algorítmico y la gestión de riesgos. Estas aplicaciones requieren un procesamiento de datos de alta velocidad y un análisis en tiempo real, ambos soportados por la arquitectura de almacenamiento de alto rendimiento de la solución.
    • Medios y entretenimiento: La industria de los medios de comunicación y el entretenimiento genera cantidades ingentes de datos, sobre todo con el creciente uso del vídeo de alta resolución. La capacidad de la solución para gestionar el almacenamiento de datos a gran escala y proporcionar un acceso rápido a los archivos la hace ideal para tareas como la edición, el renderizado y el archivado de video.
    • Fabricación: La IA/ML se utiliza en la fabricación para el mantenimiento predictivo, el control de calidad y la optimización de la cadena de suministro. Estas aplicaciones generan grandes volúmenes de datos que deben almacenarse y analizarse con eficacia. La solución conjunta proporciona la escalabilidad y el rendimiento necesarios para admitir estos casos de uso.
    • Investigación y desarrollo: La investigación impulsada por la IA en campos como la farmacia, la genómica, la ciencia de los materiales y la modelización del clima requiere la capacidad de almacenar y procesar grandes conjuntos de datos. La alta producción y la baja latencia de la solución la hacen ideal para estas aplicaciones exigentes.

    Conclusión.

    La solución conjunta de IA desarrollada por Supermicro, Seagate y OSNexus ofrece una arquitectura de almacenamiento completa, escalable y rentable adaptada a las demandas exclusivas de las cargas de trabajo de IA/ML. Al combinar tecnologías avanzadas de hardware y software, la solución ofrece un rendimiento, una fiabilidad y una eficacia excepcionales, lo que la convierte en la opción ideal para las organizaciones que buscan aprovechar la IA para obtener una ventaja competitiva. Tanto si se implanta en la sanidad, las finanzas, los medios de comunicación, la fabricación o la investigación, esta solución proporciona la sólida infraestructura necesaria para respaldar la próxima generación de aplicaciones de IA y allanar el camino hacia el futuro de la innovación impulsada por la IA en todos los sectores. 

    Tabla de soluciones.

    Topología Producto Modelo de resiliencia Capacidad pura Capacidad disponible Especificación detallada
    Escalabilidad vertical SBB híbrido; Triple paridad 2039 TB en bruto 1512 TB útiles enlace
    Escalabilidad vertical SBB completamente en flash Paridad doble (4d+2p) 737 TB en bruto 553 TB útiles enlace
    Escalabilidad horizontal Hyper completamente en flash EC2k + 2m/REP3 1106 TB en bruto 533 TB útiles enlace
    Escalabilidad horizontal 4U/36 EC4K+2m/REP3 3974 TB en bruto 2513 TB útiles enlace
    Escalabilidad horizontal 4U/36 EC8K+3m/REP3 8342 TB en bruto 5786 TB útiles enlace
    Escalabilidad horizontal Carga superior de doble nodo EC8K+3m/REP3 11981 TB en bruto 8406 TB útiles enlace


    Siglas e información adicional.

    SBB: Storage Bridge Bay.
    EC: Codificación de borrados.
    "Doble paridad" y "triple paridad" se refieren al número de bloques de paridad utilizados para proporcionar redundancia de datos y tolerancia a fallos.
    Las cadenas numéricas se relacionan con el modelo de resiliencia.