Apple lancia SlowFast-LLaVA-1.5, il modello AI per l’analisi dei video lunghi

Apple lancia SlowFast-LLaVA-1.5, il modello AI per l’analisi dei video lunghi

Apple ha annunciato un importante passo avanti nell’intelligenza artificiale applicata all’analisi video. I suoi ricercatori hanno infatti sviluppato SlowFast-LLaVA-1.5 (SF-LLaVA-1.5), una famiglia di modelli linguistici multimodali progettati per comprendere i video lunghi in maniera più efficiente rispetto ai concorrenti, superando persino modelli di dimensioni maggiori.

Quando un LLM viene addestrato per comprendere i video, il processo è molto più complesso rispetto al testo o alle immagini. Il modello deve dividere il filmato in frame, estrarre caratteristiche visive con la computer vision, analizzare i cambiamenti nel tempo e infine allineare tutto con il linguaggio naturale, così da poter descrivere o ragionare sul contenuto.

Il metodo più semplice ma inefficiente è analizzare ogni singolo frame. Questo genera enormi quantità di dati duplicati che rischiano di saturare la finestra di contesto del modello, cioè la quantità massima di informazioni che può tenere a mente in un dato momento.

Molti modelli video LLM soffrono infatti di tre grandi limiti, secondo i ricercatori Apple:

dipendenza da finestre di contesto molto estese e grandi quantità di frame, con conseguente inefficienza;
necessità di pipeline di addestramento multi-step complesse, spesso basate su dataset privati e difficili da replicare;
ottimizzazione esclusiva per i compiti video, con scarsa trasferibilità ad altri scenari visivi.

Per superare queste barriere, Apple ha preso come base il modello open source SlowFast-LLaVA, che combina due flussi: uno “lento” che analizza pochi frame con grande dettaglio e uno “veloce” che osserva molti frame a bassa risoluzione per catturare i movimenti.

Apple ha prima perfezionato il modello sulle immagini, così da dotarlo di solide capacità di ragionamento visivo generale. Successivamente lo ha addestrato su dataset pubblici di immagini e video, costruendo una comprensione temporale senza sacrificare quella statica.

Il risultato è SF-LLaVA-1.5, disponibile in tre varianti da 1B, 3B e 7B parametri, in grado di superare modelli ben più grandi su benchmark come LongVideoBench e MLVU.

Come scrivono i ricercatori nello studio SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding:

“I modelli linguistici multimodali video (Video LLMs) integrano la percezione video nei LLM pre-addestrati per elaborare i filmati e generare risposte ai comandi degli utenti. Sebbene siano stati fatti progressi significativi, permangono limiti notevoli nei modelli esistenti.”

Il modello di Apple non solo stabilisce nuovi record nell’analisi di video lunghi, ma si distingue anche in compiti basati su immagini come OCR, scenari ricchi di testo, ragionamento matematico e test di conoscenza generale.

Per ottimizzare l’efficienza, SF-LLaVA-1.5 utilizza un massimo di 128 frame per input, suddivisi in 96 frame per il flusso veloce e 32 per quello lento, selezionati a intervalli regolari. Questo approccio bilancia velocità, accuratezza e numero di token elaborati, riducendo drasticamente la ridondanza informativa.

I ricercatori ammettono però un limite:

“Questo approccio può mancare alcuni frame chiave nei video lunghi e ingannare il modello sulla velocità di riproduzione di un filmato. (…) Le prestazioni di SF-LLaVA-1.5 possono essere ulteriormente migliorate ottimizzando tutti i parametri, incluso l’encoder visivo. Tuttavia, ciò non è banale per i Video LLM a causa dell’elevato costo di memoria GPU.”

Un altro elemento distintivo è che SF-LLaVA-1.5 è stato addestrato esclusivamente su dataset pubblici, aumentando la trasparenza e la replicabilità dei risultati. Il modello è già disponibile come open source su GitHub e Hugging Face, mentre lo studio completo è consultabile su arXiv.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *