Ollama: Come far girare i LLM sul proprio PC senza filtri

Basta cloud: l'AI torna a casa

Siamo abituati a pensare che per usare un modello linguistico potente servano server enormi in California o abbonamenti mensili che svuotano il portafoglio. Ollama ribalta completamente questa prospettiva.

In sostanza, è lo strumento che permette di scaricare e far girare i Large Language Models (LLM) direttamente sul proprio hardware. Niente più dipendenza da una connessione internet stabile o dalla benevolenza di un'azienda che decide, da un giorno all'altro, di cambiare le regole del gioco o censurare determinate risposte.

La vera libertà digitale è questa: possedere il modello.

Chi ha già avuto a che fare con l'installazione di modelli AI sa quanto possa essere un incubo. Driver CUDA che non collaborano, dipendenze Python che vanno in conflitto, configurazioni di ambiente che richiedono una laurea in informatica. Ollama pulisce tutto questo rumore.

Lo rende semplice. Quasi banale.

Perché scegliere Ollama invece di ChatGPT?

La prima risposta è ovvia: la privacy. Quando scrivi un prompt su una piattaforma cloud, i tuoi dati viaggiano verso server remoti. Possono essere usati per l'addestramento, possono essere letti da moderatori umani. Con Ollama, tutto resta nel tuo disco rigido. I dati non escono mai dalla tua macchina.

Poi c'è la questione della censura. Molti modelli commerciali hanno "guardrail" così stretti da diventare frustranti. Ti dicono che non possono rispondere a certe domande per motivi etici, anche quando stai solo scrivendo un romanzo noir o analizzando un testo storico complesso. Installando modelli open-source tramite Ollama, decidi tu dove mettere il limite.

Quali modelli puoi usare davvero?

Il catalogo di Ollama è impressionante. Non parliamo di piccoli giocattoli, ma di veri pesi massimi dell'AI moderna.

Llama 3: Il colosso di Meta, versatile e incredibilmente capace in quasi ogni compito.
Mistral: L'eccellenza europea, noto per l'efficienza e la precisione.
Phi-3: Il piccolo genio di Microsoft, perfetto se non hai una GPU da migliaia di euro.
CodeLlama: Se scrivi codice, questo è il tuo miglior alleato locale.

Un dettaglio non da poco è la gestione della memoria. Ollama ottimizza l'uso della VRAM della scheda video e, se necessario, appoggiandosi alla RAM del sistema, permettendoti di far girare modelli che un tempo erano impensabili su un laptop consumer.

Certo, non puoi far girare GPT-4 sul tuo MacBook Air. Ma per il 90% dei task quotidiani, i modelli disponibili localmente sono più che sufficienti.

Installazione e primi passi: zero stress

Dimentica le guide di dieci pagine. Scarichi l'installer, lo avvii e sei a posto. La magia avviene nel terminale.

Per scaricare un modello basta un comando semplicissimo: ollama run llama3. Il software scarica i pesi del modello, configura l'ambiente e ti apre una chat istantanea.

Proprio così. In meno di due minuti passi da un PC vuoto a un'intelligenza artificiale che risponde in tempo reale senza chiedere un centesimo.

Come ottimizzare l'esperienza

Far girare l'AI localmente è fantastico, ma ci sono dei trucchi per non far esplodere le ventole del computer. La prima cosa da guardare è la quantizzazione. I modelli vengono "compressi" (ad esempio in formato 4-bit) per occupare meno spazio e richiedere meno memoria senza perdere troppa precisione.

Se noti che le risposte sono lente, prova a scendere di scala. Passa da un modello da 70 miliardi di parametri a uno da 8 o 7 miliardi. Spesso la differenza nella qualità della risposta è minima, ma la velocità aumenta in modo drastico.

Il segreto è trovare l'equilibrio tra potenza e hardware disponibile.

Integrare Ollama nel proprio workflow

Usare il terminale è utile per i test, ma per lavorare seriamente serve un'interfaccia più gradevole. La bellezza di Ollama è che espone un'API locale.

Questo significa che puoi collegarlo a diverse interfacce grafiche (UI) create dalla community. Esistono plugin per Obsidian, estensioni per VS Code e interfacce web che imitano perfettamente l'estetica di ChatGPT, ma con il motore che gira sotto il tuo tavolo.

Immagina di avere un assistente alla scrittura integrato nel tuo editor di note preferito, che conosce tutti i tuoi documenti privati perché li legge localmente, senza mai inviarli su internet. Questo è il vero potere della configurazione locale.

Il futuro dell'AI è decentralizzato

Siamo in una fase di transizione. Per anni ci hanno convinto che l'intelligenza artificiale fosse un servizio "as a service", qualcosa da noleggiare. Ma la tendenza sta cambiando.

L'open source sta correndo veloce. Modelli sempre più piccoli e intelligenti rendono superfluo l'abbonamento mensile per chi ha un minimo di competenza tecnica (o semplicemente la curiosità di installare un software).

Ollama non è solo un tool, è una porta d'accesso a un modo diverso di intendere l'informatica. Un ritorno al controllo totale dell'utente sul proprio strumento di lavoro.

Se hai una scheda video NVIDIA recente o un Mac con chip Apple Silicon (M1, M2, M3), non c'è motivo di aspettare.

Sperimenta. Sbaglia. Scarica dieci modelli diversi e scopri quale si adatta meglio al tuo modo di pensare. Il costo? Solo qualche gigabyte di spazio sul disco.