AI Ollama: Come far girare i LLM in locale sul tuo PC

Basta cloud: l'AI che vive nel tuo computer

Immagina di poter chattare con un modello linguistico avanzato, analizzare documenti riservati o scrivere codice senza che un singolo byte lasci il tuo hard disk. Non è un sogno per smanettoni, ma la realtà concreta offerta da ai ollama.

Per troppo tempo siamo stati schiavi di abbonamenti mensili e della costante ansia che i nostri dati venissero usati per addestrare modelli proprietari. Ollama ribalta completamente questo paradigma.

In sostanza, permette di scaricare ed eseguire Large Language Models (LLM) direttamente sulla propria macchina. Senza filtri esterni, senza censure aziendali e, soprattutto, senza connessione internet.

Proprio così.

Perché scegliere Ollama rispetto a ChatGPT o Claude?

La prima risposta è ovvia: la privacy. Quando carichi un file su un servizio cloud, quel dato non è più solo tuo. Con l'ecosistema di AI Ollama, il confine tra te e l'intelligenza artificiale è definito dall'hardware del tuo PC.

Ma c'è dell'altro. La personalizzazione. Chi usa Ollama può scegliere esattamente quale modello installare a seconda delle proprie esigenze. Vuoi un modello leggero per compiti semplici? C'è Llama 3 in versione ridotta. Hai bisogno di qualcosa di mostruoso per il coding? Puoi puntare su CodeLlama o Mistral.

Un dettaglio non da poco è la velocità di risposta quando l'hardware è adeguato. Non ci sono code di server, non ci sono rallentamenti nelle ore di punta. Sei tu il proprietario della potenza di calcolo.

Certo, serve un po' di RAM. Tanta, per essere precisi. Ma il gioco vale la candela.

Installazione e primi passi: niente complicazioni

Molti pensano che far girare un'AI in locale richieda una laurea in informatica o la capacità di scrivere script complessi in Python. Sbagliato.

L'installazione di Ollama è sorprendentemente lineare. Scarichi l'eseguibile, lo installi e sei pronto a partire dal terminale. Per chi non ama la riga di comando, esistono interfacce grafiche (come Open WebUI) che rendono l'esperienza identica a quella di ChatGPT, ma con il motore che gira sotto il tuo tavolo.

Scarica Ollama dal sito ufficiale.
Apri il terminale e digita ollama run llama3.
Attendi il download del modello (che può variare da pochi GB a decine di GB).
Inizia a chattare istantaneamente.

Sembra quasi troppo semplice, vero? Il vero potere però emerge quando inizi a esplorare la libreria dei modelli disponibili.

Quale modello scegliere per AI Ollama?

Qui entriamo nel vivo della questione. Non tutti i modelli sono uguali e non tutti girano bene su ogni computer. La scelta dipende quasi esclusivamente dalla tua VRAM (la memoria della scheda video).

Se hai una GPU NVIDIA con 8GB o 12GB di VRAM, puoi far girare tranquillamente modelli da 7 miliardi di parametri (come Llama 3 8B o Mistral) con una fluidità impressionante. Se invece ti affidi solo alla CPU e alla RAM di sistema, i tempi di risposta saranno più lunghi, ma l'AI funzionerà comunque.

Il consiglio è di partire dai modelli "small". Sono incredibilmente capaci per la maggior parte dei task quotidiani e non saturano le risorse del sistema, permettendoti di tenere aperti Chrome e Spotify senza che il computer imploda.

E per chi scrive codice? I modelli specializzati sono un salto di qualità enorme. Automatizzare parti di script o debuggare funzioni in locale accelera il workflow di qualsiasi sviluppatore, eliminando l'attesa del caricamento delle pagine web.

L'arte dei Prompt in locale: massimizzare i risultati

Usare AI Ollama non significa solo installare un software, ma imparare a dialogare con il modello. Spesso ci si lamenta che l'AI locale sia "meno intelligente" di GPT-4. In realtà, è spesso una questione di come vengono formulati i prompt.

I modelli locali tendono a essere più letterali. Hanno bisogno di istruzioni chiare e contestualizzate. Se chiedi qualcosa di vago, otterrai una risposta vaga. Se invece definisci un ruolo preciso (es: "Agisci come un esperto SEO con 10 anni di esperienza"), la qualità dell'output schizza verso l'alto.

Un trucco efficace è l'uso dei Modelfiles. Ollama permette di creare versioni personalizzate dei modelli, definendo un "System Prompt" permanente. Puoi dire al tuo AI Ollama che deve rispondere sempre in modo sintetico, usare un tono ironico o formattare ogni risposta in tabelle Markdown.

Una volta salvato il Modelfile, non dovrai più ripetere le istruzioni a ogni nuova sessione. Il modello saprà già chi è e come deve comportarsi.

Hardware: di cosa hai davvero bisogno?

Parliamo di ferro. Non serve un supercomputer della NASA, ma non basta nemmeno un netbook del 2015.

Il componente chiave è la GPU. Le schede NVIDIA con core CUDA sono lo standard industriale e offrono le prestazioni migliori grazie a un supporto driver ottimizzato. Tuttavia, chi possiede un Mac con chip Apple Silicon (M1, M2, M3) ha un vantaggio enorme: l'architettura di memoria unificata permette all'AI di usare la RAM del sistema come se fosse VRAM.

Questo significa che su un MacBook Pro con 32GB o 64GB di RAM puoi far girare modelli molto più grandi rispetto a un PC Windows con una scheda video commerciale da 8GB. Un vantaggio competitivo non indifferente per chi lavora in mobilità.

Se invece hai un PC assemblato, punta su almeno 16GB di RAM e una GPU dedicata. Se non ne hai una, Ollama userà la CPU, ma preparati a leggere le risposte parola per parola, con un ritmo quasi meditativo.

Il futuro dell'AI decentralizzata

Siamo all'inizio di una rivoluzione. L'idea che l'intelligenza artificiale debba risiedere in un server remoto in California è un concetto che sta scomparendo rapidamente.

L'integrazione tra AI Ollama e altri tool locali sta creando ecosistemi incredibili. Immagina plugin per il tuo editor di testo, assistenti che leggono i tuoi file PDF locali senza inviarli via web o sistemi di automazione domestica che non dipendono dal cloud.

La vera libertà digitale passa da qui: possedere gli strumenti, controllare i dati e decidere come l'intelligenza artificiale debba servirti, senza intermediari.

Non è solo una questione tecnica. È una scelta di indipendenza.

Se non l'hai ancora fatto, installa Ollama oggi stesso. Scarica un modello, prova a romperlo, sperimenta con i prompt e scopri cosa significa avere un cervello digitale che risponde solo a te.