Autore Tom Prohofsky

02 apr, 2025

IA

La memorizzazione dei dati è l'ossigeno dell'apprendimento automatico e dell'IA.

Tom Prohofsky

Sommario

data-storage-is-the-oxygen-images-hero-1440x1080 data-storage-is-the-oxygen-images-hero-1440x1080 data-storage-is-the-oxygen-images-hero-1440x1080

L'intelligenza artificiale (IA) e l'apprendimento automatico hanno alimentato innovazioni trasformative, dalla previsione delle strutture proteiche alla traduzione linguistica in tempo reale. Al centro di queste innovazioni c'è un'insaziabile necessità di dati di alta qualità. I modelli di IA prosperano su vasti set di dati, ma senza una memorizzazione dei dati affidabile e conveniente, questi modelli, e le informazioni che generano, non riuscirebbero a raggiungere il loro potenziale.

Proprio come l'ossigeno alimenta la mente umana, la memorizzazione dei dati alimenta lo sviluppo dell'IA. La capacità di memorizzare, accedere ed elaborare i dati in modo efficiente determina l'efficacia con cui i modelli di IA vengono addestrati e perfezionati. Tuttavia, con l'aumento della domanda di soluzioni basate sull'IA, cresce anche la sfida di gestire il ciclo di vita dei dati di IA, dalla raccolta alla memorizzazione fino all'elaborazione, il tutto tenendo sotto controllo i costi e la complessità.

La crescente domanda di dati pronti per l'IA.

La scienza dei dati si è evoluta da fogli di calcolo e semplici analisi a potenti informazioni basate sull'apprendimento automatico. Oggi, il Dipartimento del lavoro degli Stati Uniti ha riferito che esistono più di 200.000 posti di lavoro nel settore della scienza dei dati, con una crescita prevista del 36% nel prossimo decennio. Gli esperti dei domini in tutti i settori stanno incorporando strumenti di IA nei loro flussi di lavoro, anche senza una formazione formale sulla scienza dei dati, utilizzando piattaforme senza codice che consentono di creare modelli e analizzare i dati più velocemente che mai.

Ma i dati grezzi non sono utili da soli. Prima che possano essere inseriti nei modelli di IA, devono essere strutturati, puliti ed etichettati, un processo spesso chiamato data wrangling. Strumenti open source come Panda aiutano a trasformare enormi set di dati in formati strutturati che possono essere utilizzati dai modelli di IA. Tuttavia, questo processo richiede una memorizzazione dei dati veloce, efficiente e locale per evitare colli di bottiglia che rallentano lo sviluppo del modello.

La sfida della gestione dei dati con IA.

L'enorme volume di dati di addestramento dell'IA presenta sfide logistiche significative. La memorizzazione e la gestione di set di dati di grandi dimensioni non riguarda solo la capacità, ma anche i costi, la conformità e l'accessibilità.

Alcune delle maggiori sfide nella gestione dei dati di IA includono:

  • Sovranità e sicurezza dei dati. Le organizzazioni devono rispettare le normative che regolano la proprietà intellettuale, la privacy e il controllo giurisdizionale.
  • Costi di memorizzazione cloud. I set di dati di IA memorizzati nel cloud possono essere da cinque a 10 volte più costosi rispetto all'utilizzo di soluzioni NAS in sede.
  • Colli di bottiglia durante lo spostamento dei dati. Il trasferimento di grandi set di dati su reti geografiche è lento e costoso e crea ritardi per i team geograficamente distribuiti.

Gli approcci di memorizzazione centralizzati tradizionali sono messi alla prova da fonti di dati geograficamente sparse. Un numero crescente di professionisti dell'IA si sta rivolgendo a soluzioni di memorizzazione edge localizzate che offrono un maggiore controllo, costi inferiori e latenza ridotta.

Portare la memorizzazione dei dati con IA all'edge.

Invece di trasferire vasti set di dati su server cloud centralizzati, le organizzazioni possono elaborare e memorizzare i dati di IA più vicino a dove vengono generati. Questo approccio, spesso chiamato edge computing, riduce al minimo i costi di spostamento dei dati e migliora le prestazioni.
Una soluzione conveniente è rappresentata dai sistemi NAS ibridi di piccole dimensioni che forniscono sistemi di memorizzazione locali a prestazioni elevate per carichi di lavoro di IA. A differenza dei sistemi NAS tradizionali, questi sistemi integrano strumenti di IA containerizzati come i Jupyter Notebook, consentendo agli esperti dei domini e agli sviluppatori di IA di collaborare direttamente sul sistema di memorizzazione stesso. Eliminando la necessità di continui trasferimenti di dati, queste soluzioni NAS riducono i costi operativi e accelerano lo sviluppo dell'IA.
L'elaborazione dei dati di IA all'edge offre inoltre alle organizzazioni un maggiore controllo sui set di dati. Il mantenimento della sovranità sui dati di addestramento dell'IA garantisce la conformità alle normative del settore e riduce i rischi associati alla memorizzazione di terze parti. Questo approccio rende i flussi di lavoro di IA più efficienti mantenendo i dati vicino a dove vengono raccolti e analizzati.

L'elaborazione edge offre numerosi vantaggi per lo sviluppo dell'IA:

  • Costi inferiori. Riduce le spese di memorizzazione cloud e trasferimento dei dati.
  • Sviluppo di IA più veloce. Mantiene i dati di addestramento locali per un rapido accesso.
  • Migliore controllo dei dati. Mantiene la sovranità e la conformità garantendo che i dati vengano memorizzati ed elaborati internamente.

AI Edge Lab: architettura e configurazione del sistema.

Per esplorare la fattibilità dell'esecuzione di carichi di lavoro di IA su sistemi di memorizzazione localizzati, abbiamo creato un cluster NAS a tre nodi e ne abbiamo misurato le prestazioni di memorizzazione.

Configurazione di sistema:

  • Hardware:
  • processore Intel N5095 (basso consumo energetico)
  • Due porte Ethernet 2,5 GE
  • 4 unità disco IronWolf® Pro da 24 TB (RAID5, 70 TB utilizzabili per nodo)
  • Unità SSD e unità di elaborazione TPU opzionali per l'accelerazione
  • Software:
  • Contenitori Jupyter Notebook per lo sviluppo di IA basato su Python
  • NATS Jetstream per messaggistica con tolleranza ai guasti, memorizzazione con valori chiave e memorizzazione basata su oggetti
  • Replica dei dati su più nodi per ridondanza e resilienza
data-storage-is-the-oxygen-images-figure-1-1440x900

Test delle prestazioni: valutazione della memorizzazione e della rete.

Per prima cosa abbiamo misurato le prestazioni di un singolo nodo per stabilire una linea di base per la velocità di throughput. Il sistema ha raggiunto 200 MB/s per collegamento da 2,5 GE per grandi trasferimenti di dati.

data-storage-is-the-oxygen-images-figure-2-1440x900

Successivamente, abbiamo analizzato in che modo la replica multi-nodo ha influenzato le prestazioni. Sebbene la replica dei dati abbia aumentato il traffico di rete, ha avuto un impatto minimo sulle prestazioni di lettura, un vantaggio fondamentale per i carichi di lavoro che richiedono la coerenza dei dati su più nodi.

data-storage-is-the-oxygen-images-figure-3-1440x900

I test sulle prestazioni di rete hanno rivelato che l'aggiunta di un secondo collegamento da 2,5 GE ha fornito solo piccoli vantaggi in scrittura, mentre il collegamento in rete da 10 GE ha migliorato le prestazioni in alcuni casi.

data-storage-is-the-oxygen-images-figure-4-1440x900

Addestramento dell'IA all'edge nel mondo reale.

Per simulare un flusso di lavoro di IA, abbiamo testato un'attività di apprendimento automatico nel mondo reale utilizzando il sistema NAS. Abbiamo addestrato un modello di classificazione delle imbarcazioni utilizzando un set di dati di 500 immagini etichettate, eseguendo l'estrazione di funzionalità e l'addestramento del modello a livello locale.

Dopo aver memorizzato le immagini in un bucket di memorizzazione basata su oggetti con etichette di metadati, abbiamo utilizzato PyTorch Img2Vec per estrarre le caratteristiche da ogni immagine e quindi addestrare un classificatore di foreste casuali. Il modello risultante ha raggiunto una precisione del 78% in meno di un minuto.

data-storage-is-the-oxygen-images-figure-5-1440x900

Le principali osservazioni di questo test includevano:

  • L'estrazione delle funzioni ha richiesto la maggior parte del tempo (81%), sottolineando la necessità di una memorizzazione locale veloce.
  • L'addestramento del modello di IA è stato completato in meno di un minuto, dimostrando l'efficienza dei sistemi NAS locali per i flussi di lavoro di IA.
  • Gli esperti del dominio senza una formazione formale sull'IA sono stati in grado di eseguire l'esperimento con successo, dimostrando l'accessibilità di questo approccio.

Questo esperimento ha dimostrato che i sistemi di memorizzazione NAS localizzati possono fungere da hub di dati IA economico, riducendo la dipendenza dai servizi cloud e migliorando l'accessibilità e le prestazioni.

Considerazioni finali: La memorizzazione basata su IA deve evolversi.

Il futuro dell'IA dipende da una memorizzazione dei dati efficiente, economica e scalabile. Man mano che i volumi di dati continuano a crescere, le organizzazioni devono ripensare al modo in cui archiviano e gestiscono i set di dati di IA.

Le soluzioni NAS localizzate offrono un'alternativa pratica ai costosi sistemi di memorizzazione cloud, consentendo ai team di IA di:

  • ridurre i costi pur mantenendo un accesso ai dati a prestazioni elevate.
  • Migliorare l'efficienza del flusso di lavoro di IA mantenendo i dati vicini al calcolo.
  • Migliorare la conformità e la sovranità controllando dove risiedono i dati di IA.

Proprio come l'ossigeno sostiene la vita, la memorizzazione dei dati sostiene l'innovazione dell'IA. Rendendo i sistemi di memorizzazione predisposti per l'IA più accessibili, efficienti in termini di costi e ad alte prestazioni, le organizzazioni possono accelerare le loro scoperte basate sull'IA.

Tom Prohofsky