Cos'è la visione computerizzata?
La visione artificiale è una tecnologia che le macchine utilizzano per riconoscere automaticamente le immagini e descriverle in modo accurato ed efficiente. Oggi, i sistemi informatici hanno accesso a un grande volume di immagini e dati video provenienti o creati da smartphone, telecamere del traffico, sistemi di sicurezza e altri dispositivi. Le applicazioni di visione artificiale utilizzano l'intelligenza artificiale e il machine learning (IA/ML) per elaborare questi dati in modo accurato, al fine di identificare gli oggetti e riconoscere i volti, nonché per la classificazione, il suggerimento, il monitoraggio e il rilevamento.
Perché la visione artificiale è importante?
Anche se la tecnologia di elaborazione delle informazioni visive esiste da tempo, prima gran parte del processo richiedeva l'intervento umano, impiegava molto tempo ed era soggetto a errori. Ad esempio, in passato l'implementazione di un sistema di riconoscimento facciale richiedeva agli sviluppatori di etichettare manualmente migliaia di immagini con punti dati chiave, come la larghezza del ponte nasale e la distanza tra gli occhi. L'automazione di queste attività richiedeva un'ampia potenza di calcolo, perché i dati delle immagini sono non strutturati e complessi da organizzare per i computer. Le applicazioni di visione erano quindi costose e inaccessibili per la maggior parte delle organizzazioni.
Oggi, i progressi nel campo, combinati a un notevole aumento della potenza di calcolo, hanno migliorato sia la scala che la precisione dell'elaborazione dei dati delle immagini. I sistemi di visione artificiale basati su risorse di cloud computing ora sono accessibili a tutti. Qualsiasi organizzazione può utilizzare la tecnologia per la verifica dell'identità, la moderazione dei contenuti, l'analisi di video in streaming, il rilevamento degli errori e altro ancora.
Casi d'uso
Come funziona la visione artificiale?
I sistemi di visione artificiale utilizzano la tecnologia di intelligenza artificiale (IA) per imitare le capacità del cervello umano responsabili del riconoscimento e della classificazione degli oggetti. Gli informatici addestrano i computer a riconoscere i dati visivi inserendo grandi quantità di informazioni. Gli algoritmi di machine learning (ML) identificano modelli comuni in queste immagini o video e applicano tali conoscenze per identificare con precisione immagini sconosciute. Ad esempio, se i computer elaborano milioni di immagini di automobili, inizieranno a creare modelli di identità in grado di rilevare con precisione un veicolo in un'immagine. La visione artificiale utilizza tecnologie come quelle indicate di seguito.
Deep learning
Il deep learning è un tipo di ML che utilizza reti neurali. Le reti neurali di deep learning sono costituite da molti strati di moduli software, chiamati neuroni artificiali, che lavorano insieme all'interno del computer. Usano calcoli matematici per elaborare automaticamente diversi aspetti dei dati dell'immagine e sviluppare gradualmente una comprensione combinata.
Reti neurali convoluzionali
Le reti neurali convoluzionali (CNN) utilizzano un sistema di etichettatura per classificare i dati visivi e comprendere l'intera immagine. Analizzano le immagini come pixel e assegnano a ciascun pixel un valore di etichetta. Il valore viene immesso per eseguire un'operazione matematica chiamata convoluzione e fare previsioni sull'immagine. Come un essere umano che tenta di riconoscere un oggetto a distanza, una CNN identifica innanzitutto i contorni e le forme semplici prima di inserire dettagli aggiuntivi come colore, forme interne e texture. Infine, ripete il processo di previsione su diverse iterazioni per migliorare la precisione.
Reti neurali ricorrenti
Le reti neurali ricorrenti (RNN) sono simili alle CNN, ma possono elaborare una serie di immagini per trovare collegamenti tra di esse. Mentre le CNN vengono utilizzate per l'analisi di singole immagini, le RNN possono analizzare i video e comprendere le relazioni tra le immagini.
Qual è la differenza tra visione artificiale ed elaborazione delle immagini?
L'elaborazione delle immagini utilizza algoritmi per alterare qualità delle immagini come nitidezza, levigatura, filtraggio o miglioramento. La visione artificiale è diversa in quanto non modifica un'immagine, ma dà un senso a ciò che vede e svolge un'attività, come l'etichettatura. In alcuni casi, è possibile utilizzare l'elaborazione delle immagini per modificarne una in modo che un sistema di visione artificiale possa comprenderla meglio. In altri casi si utilizza la visione artificiale per identificare immagini o parti di un'immagine e quindi si utilizza l'elaborazione delle immagini per modificarle ulteriormente.
Quali sono le attività più comuni che la visione artificiale può eseguire?
Classificazione di immagini
La classificazione delle immagini consente ai computer di vedere un'immagine e classificare con precisione in quale classe rientra. La visione artificiale comprende classi ed etichette, ad esempio alberi, aerei o edifici. Un esempio è una fotocamera che può riconoscere i volti in una fotografia e concentrarsi su di essi.
Rilevamento di oggetti
Il rilevamento di oggetti è un'attività di visione artificiale per il rilevamento e la localizzazione di immagini. Utilizza la classificazione per identificare, ordinare e organizzare le immagini. Il rilevamento di oggetti viene utilizzato nei processi industriali e di produzione per controllare le applicazioni autonome e monitorare le linee di produzione. Anche i produttori di videocamere connesse per la casa e i fornitori di servizi si affidano al rilevamento di oggetti per elaborare i flussi video in diretta dalle telecamere, rilevare persone e oggetti in tempo reale e fornire avvisi agli utenti finali.
Monitoraggio di oggetti
Il monitoraggio di oggetti utilizza modelli di deep learning per identificare e tracciare elementi appartenenti a categorie. Ha diverse applicazioni pratiche in diversi settori. Il primo elemento del monitoraggio di oggetti è il rilevamento degli oggetti; attorno all'oggetto viene creato un riquadro di delimitazione, quindi gli viene assegnato un ID e può essere tracciato attraverso i fotogrammi. Ad esempio, il monitoraggio di oggetti può essere utilizzato per il monitoraggio del traffico in ambienti urbani, la sorveglianza umana e l'imaging medico.
Segmentazione
La segmentazione è un algoritmo di visione artificiale che identifica un oggetto dividendo le immagini in diverse regioni in base ai pixel visti. La segmentazione semplifica un'immagine, ad esempio posizionando una forma o un contorno intorno a un elemento per determinare di cosa si tratta. In questo modo, la segmentazione riconosce anche se è presente più di un oggetto in un'immagine o in una cornice.
Ad esempio, se in un'immagine sono presenti un gatto e un cane, è possibile utilizzare la segmentazione per riconoscere i due animali. A differenza del rilevamento di oggetti, che crea un riquadro attorno a un oggetto, la segmentazione tiene traccia dei pixel per determinare la forma di un oggetto, facilitando l'analisi e l'etichettatura.
Recupero di immagini basato sul contenuto
Il recupero di immagini basato sul contenuto è un'applicazione di tecniche di visione artificiale in grado di cercare immagini digitali specifiche in database di grandi dimensioni. Analizza metadati come tag, descrizioni, etichette e parole chiave. Il recupero semantico utilizza comandi come "Trova immagini di edifici" per recuperare contenuti appropriati.
In che modo AWS ti aiuta con le attività di visione artificiale?
AWS fornisce il set più ampio e completo di servizi di intelligenza artificiale e machine learning (IA/ML) per clienti di tutti i livelli di esperienza collegati a un set completo di origini dati.
Per i clienti che si basano su framework e gestiscono la propria infrastruttura, ottimizziamo le versioni dei framework di deep learning più diffusi, tra cui PyTorch, MXNet e TensorFlow. AWS offre un portfolio ampio e completo di servizi ML per infrastrutture di elaborazione, rete e archiviazione grazie a una scelta di processori e acceleratori per soddisfare esigenze di prestazioni e budget uniche.
Per i clienti che desiderano creare una soluzione di visione artificiale standard nella propria azienda, Amazon SageMaker semplifica la preparazione dei dati e la creazione, l'addestramento e l'implementazione di modelli di ML per qualsiasi caso d'uso grazie a infrastruttura, strumenti e flussi di lavoro completamente gestiti, comprese offerte senza codice per l'analisi delle aziende.
Per i clienti che non hanno competenze di machine learning, hanno bisogno di un time-to-market più rapido o desiderano aggiungere intelligenza a un processo o a un'applicazione esistente, AWS offre una gamma di servizi di visione artificiale basati sul machine learning. Questi servizi consentono di aggiungere facilmente intelligenza alle applicazioni di intelligenza artificiale tramite API preaddestrate. Amazon Rekognition automatizza l'analisi di immagini e video con il ML e analizza milioni di immagini, live streaming e video archiviati in pochi secondi.
Inizia a utilizzare la visione artificiale creando un account AWS gratuito oggi stesso.