Onlama AI? Ecco come far girare l'AI in locale con Ollama

Succede spesso. Digiti "onlama ai" nella barra di ricerca, premi invio e ti rendi conto che il correttore o un semplice refuso hanno cambiato una lettera. Ma il senso resta lo stesso: stai cercando un modo per far girare l'intelligenza artificiale direttamente sul tuo computer, senza dipendere da abbonamenti mensili o cloud esterni.

Il nome corretto è Ollama. E se sei arrivato fin qui, significa che vuoi smettere di inviare i tuoi dati a server lontani e preferisci avere il controllo totale del tuo modello linguistico.

Perché l'AI locale cambia tutto

Chi usa ChatGPT o Claude sa quanto sia comodo. Ma c'è un prezzo da pagare: la privacy. Ogni prompt che scrivi, ogni documento che carichi per essere riassunto, finisce in un database di terze parti.

Con Ollama questo problema sparisce.

Immagina di avere un assistente potentissimo che vive nel tuo hard disk. Non serve internet. Non ci sono filtri di censura aziendali che ti dicono "non posso rispondere a questa domanda per motivi etici" ogni due frasi. C'è solo il tuo hardware e il modello che hai scelto di scaricare.

Un dettaglio non da poco: il costo è zero. Una volta configurato l'ambiente, non paghi più nulla. Nessun piano Plus, nessun token a consumo.

Come funziona concretamente Ollama

Se pensavi che per gestire un LLM (Large Language Model) servisse una laurea in informatica o un server della NASA, posso rassicurarti. Non è così.

Ollama ha semplificato l'intero processo di distribuzione dei modelli. In pratica, agisce come un gestore di pacchetti per l'AI. Vuoi provare Llama 3? Mistral? Phi-3? Basta un comando e il modello viene scaricato, configurato e reso disponibile localmente.

La magia sta nel modo in cui gestisce la memoria VRAM della tua scheda video. Se hai una GPU NVIDIA potente, l'AI volerà. Se invece hai un Mac con chip M1, M2 o M3, Ollama sfrutta l'architettura di memoria unificata per darti prestazioni sorprendenti.

Proprio così. Anche chi non ha un PC da gaming può iniziare a sperimentare.

Quale modello scegliere per iniziare?

Qui casca l'asino. Con così tante opzioni, è facile confondersi. Non tutti i modelli sono uguali e non tutti girano bene su ogni macchina.

Llama 3: Il gold standard di Meta. Versatile, intelligente e ottimo per quasi tutto. Se hai almeno 8GB o 16GB di RAM, è la scelta obbligata.
Mistral: Un modello europeo incredibilmente efficiente. Spesso più asciutto di Llama, perfetto per chi cerca risposte dirette.
Phi-3: Il "piccolo gigante" di Microsoft. È leggerissimo. Se il tuo computer è un po' datato o vuoi qualcosa che non rallenti il sistema, Phi-3 è la soluzione ideale.

Il consiglio? Provali tutti. La bellezza dell'AI locale è che puoi saltare da un modello all'altro in pochi secondi per capire quale risponde meglio al tuo modo di scrivere.

L'importanza dei Prompt locali

Molti pensano che basti installare il software per avere un'AI perfetta. Sbagliato. Il segreto è nel prompting.

Quando usi un modello locale, devi essere più preciso. Non hai i "filtri di smoothing" che renderanno le risposte di ChatGPT sempre gentili e standardizzate. Qui l'AI segue fedelmente le tue istruzioni. Se sei vago, otterrai risposte vaghe.

Un trucco veloce: assegna sempre un ruolo al modello all'inizio della conversazione. Invece di chiedere "Scrivimi una mail", prova con "Agisci come un copywriter senior esperto in conversion rate optimization e scrivi una mail per...".

La differenza nel risultato è abissale.

Hardware: cosa serve davvero?

Non mentiamoci: l'AI mangia risorse. Ma non serve spendere migliaia di euro.

L'elemento critico è la VRAM (la memoria della scheda video). Se il modello sta interamente nella VRAM, le risposte arrivano istantaneamente. Se invece deve usare la RAM di sistema (CPU), noterai un rallentamento evidente. Le parole appariranno una a una, lentamente.

Per un'esperienza fluida:

Minimo: 8GB di RAM (per modelli piccoli come Phi-3).
Consigliato: 16GB o 32GB di RAM / VRAM per far girare Llama 3 con serenità.
Top: GPU NVIDIA RTX serie 30 o 40, oppure Mac Studio/MacBook Pro con chip Apple Silicon.

Se hai un PC vecchio, non disperare. Puoi comunque usare Ollama, ma dovrai accettare tempi di risposta più lunghi. È comunque un ottimo modo per imparare.

Integrazioni e interfacce grafiche

Ollama di base gira nel terminale (quella schermata nera che spaventa i meno esperti). Ma nessuno vuole scrivere prompt in un terminale tutto il giorno.

Esistono diverse GUI (Graphical User Interfaces) che puoi installare per avere un'esperienza simile a quella di ChatGPT. La più famosa è Open WebUI. Ti permette di gestire le chat, creare diversi profili utente e persino caricare documenti PDF per fare RAG (Retrieval-Augmented Generation).

Il RAG è una funzione potentissima: permette all'AI di leggere i tuoi file locali e rispondere basandosi solo su quei dati. Fondamentale per chi deve analizzare contratti, manuali tecnici o appunti universitari senza che questi escano dal computer.

Un sistema chiuso. Sicuro. Veloce.

Errori comuni da evitare

Molti utenti, dopo aver cercato "onlama ai" e installato il software, commettono l'errore di scaricare modelli troppo grandi per il proprio hardware. Se provi a far girare un modello da 70 miliardi di parametri su un laptop con 8GB di RAM, il computer probabilmente si bloccherà o l'AI risponderà a una velocità di una parola ogni dieci secondi.

Controlla sempre la dimensione del modello (espressa in GB) prima di fare il download. Se hai 16GB di RAM totale, punta a modelli che occupano tra i 4 e gli 8GB per lasciare spazio al sistema operativo.

Un altro errore? Non aggiornare Ollama. Il mondo dell'AI corre velocemente; ogni settimana escono ottimizzazioni che rendono i modelli più rapidi o meno inclini ad allucinare.

Il futuro è decentralizzato

Siamo passati da un'era in cui l'informatica era centralizzata (mainframe), a quella dei PC, poi siamo tornati al cloud. Ora stiamo vedendo il ritorno dell'edge computing.

L'intelligenza artificiale non deve per forza stare su un server in California. Può stare nella tua tasca, nel tuo laptop o nel tuo server domestico.

Ollama è solo l'inizio di questo percorso. Permette a chiunque, anche a chi non sa programmare in Python, di possedere i propri strumenti cognitivi.

Non è più una questione di comodità, ma di sovranità digitale.