Ollama: come far girare LLM potenti sul proprio PC

Basta cloud: l'AI che gira davvero sul tuo computer

Siamo abituati a pensare che per usare un'intelligenza artificiale avanzata servano server enormi, fatture mensili in dollari e una connessione internet costante. Non è più così.

Ollama cambia completamente le regole del gioco. In parole povere, è lo strumento che ti permette di scaricare e far girare i Large Language Models (LLM) direttamente sull'hardware della tua macchina. Niente API esterne, niente dati inviati a server in California, niente filtri aziendali che ti dicono cosa puoi o non puoi chiedere.

È una sensazione quasi magica la prima volta che lanci un comando e vedi il testo scorrere sullo schermo sapendo che tutto quel calcolo sta avvenendo dentro il tuo case.

Ma perché dovresti farlo? Perché non restare su ChatGPT o Claude? La risposta è semplice: la sovranità dei dati. Quando usi Ollama, i tuoi prompt rimangono tuoi. Se stai lavorando a un progetto aziendale segreto, scrivendo un romanzo che non vuoi condividere o semplicemente analizzando documenti privati, il locale è l'unica scelta sensata.

Installazione e primi passi senza mal di testa

Dimentica le guide complicate da dieci pagine con compilazioni di codice in C++. Ollama ha reso tutto incredibilmente fluido. Scarichi l'installer per macOS, Linux o Windows, lo avvii e sei a posto.

Una volta installato, non troverai subito un'interfaccia grafica colorata. Ollama lavora principalmente tramite terminale. Può spaventare chi non ha mai aperto il prompt dei comandi, ma in realtà è dove risiede la vera potenza.

Per iniziare a chattare, basta un comando semplicissimo: ollama run llama3.

A quel punto succede l'estasi. Il software controlla se hai il modello in locale; se non lo trova, lo scarica automaticamente e apre una sessione di chat istantanea. Proprio così. In meno di due minuti passi da un computer "vuoto" a un assistente AI capace di programmare in Python o riassumere testi complessi.

Quale modello scegliere? Non tutti sono uguali

Qui arriviamo al punto cruciale. Ollama non è un modello in sé, ma un orchestratore. Ti permette di scegliere tra diverse "menti" artificiali a seconda delle tue necessità e della potenza del tuo PC.

Se hai una macchina con molta RAM (o meglio, molta VRAM sulla scheda video), puoi puntare su modelli più grandi. Se invece sei su un laptop leggero, devi giocare d'astuzia.

Llama 3: Il gold standard di Meta. Equilibrato, veloce e incredibilmente capace in quasi ogni compito.
Mistral / Mixtral: L'eccellenza europea. Spesso più preciso nel ragionamento logico e molto efficiente.
Phi-3: Il piccolo gigante di Microsoft. Sorprendente per quanto è leggero, perfetto per chi non ha una GPU mostruosa.
CodeLlama: Se il tuo obiettivo è scrivere codice senza errori, questo è lo strumento giusto.

Un dettaglio non da poco riguarda la quantizzazione. Noterai spesso numeri come 4-bit o 8-bit accanto ai modelli. In pratica, sono versioni "compresse" dell'AI che permettono di far girare modelli enormi su hardware consumer senza perdere troppa qualità.

L'integrazione con le interfacce grafiche (GUI)

Ok, il terminale è veloce, ma ammettiamolo: dopo un po' stanca. E se volessi un'esperienza simile a quella di ChatGPT, con cronologia delle chat e formattazione pulita?

Ollama è progettato per essere aperto. Espone un'API locale che permette a decine di progetti open source di collegarsi ad esso. Il più famoso è senza dubbio Open WebUI.

Installando Open WebUI (spesso tramite Docker), trasformi Ollama in una piattaforma completa. Puoi caricare documenti PDF per fare RAG (Retrieval-Augmented Generation), creare diversi profili utente e persino gestire i "System Prompt" per dare all'AI una personalità specifica.

Immagina di avere un archivio di 50 manuali tecnici della tua azienda. Li carichi nel sistema, e l'AI locale risponde alle tue domande basandosi solo su quei documenti. Senza che un singolo byte esca dalla tua rete locale. Questo è il vero potere del setup Ollama + WebUI.

Hardware: di cosa hai davvero bisogno?

Questa è la domanda che ci fanno tutti. "Posso farlo girare sul mio vecchio portatile?"

La risposta breve è: probabilmente sì, ma dipenderà dalla velocità.

Il cuore pulsante dell'AI non è la CPU, ma la GPU. Se hai una scheda NVIDIA con core CUDA e una buona quantità di VRAM (8GB o più), l'esperienza sarà fulminea. I modelli "voleranno".

Se usi un Mac con chip Apple Silicon (M1, M2, M3), sei fortunato. L'architettura a memoria unificata permette a Ollama di usare la RAM del sistema come VRAM. È una delle piattaforme migliori per far girare LLM in locale proprio per questo motivo.

E se hai solo CPU e poca RAM? Puoi comunque farlo. Sarà più lento, vedrai le parole apparire una ad una con un ritmo più pacato, ma funzionerà. In quel caso, punta tutto sui modelli "small" come Phi-3 o versioni fortemente quantizzate di Mistral.

Ottimizzare i prompt per il locale

C'è una differenza sottile tra chiedere qualcosa a GPT-4 e chiederlo a un modello locale. I modelli più piccoli sono meno "tolleranti" verso le istruzioni vaghe.

Per ottenere il massimo da Ollama, devi essere specifico. Invece di dire "Scrivimi una mail", prova con: "Agisci come un esperto di marketing senior. Scrivi una mail di vendita breve, tono professionale ma colloquiale, focalizzata sul beneficio X per il cliente Y."

Dare un contesto chiaro e definire un ruolo riduce drasticamente le allucinazioni (quelle risposte inventate che a volte i modelli producono) e migliora la coerenza del testo.

Un altro trucco? Usa i Modelfiles. Ollama ti permette di creare versioni personalizzate dei modelli. Puoi definire un set di istruzioni predefinite che l'AI seguirà sempre, senza doverle riscrivere a ogni nuova chat. Praticamente crei il tuo assistente su misura.

Il futuro dell'intelligenza artificiale è privato

Siamo in una fase di transizione. Per anni ci hanno convinto che l'AI dovesse vivere nel cloud per essere potente. Ollama ci sta dimostrando che l'indipendenza è possibile.

Non si tratta solo di privacy, ma di continuità. Se domani un provider decidesse di cambiare i termini di servizio o chiudere l'accesso a una determinata funzione, chi usa modelli locali non ne risentirebbe minimamente.

Il controllo totale del modello, dei dati e dell'infrastruttura è l'unico modo per integrare davvero l'AI nei flussi di lavoro professionali senza correre rischi legali o di sicurezza.

Se non l'hai ancora fatto, installalo. Sperimenta con i vari modelli. Scopri quanto può essere veloce la tua macchina quando viene spinta al limite per generare pensiero sintetico. È un viaggio di sola andata: una volta provato il potere del locale, tornare a dipendere totalmente dal cloud sembra un passo indietro.