Sì, Ollama è gratis. Ma cosa significa davvero?

Se sei arrivato fin qui, probabilmente hai sentito parlare di modelli linguistici che girano direttamente sul tuo computer senza passare per il cloud. La risposta breve è: sì, Ollama è completamente gratuito. Non ci sono abbonamenti mensili, non esistono piani 'Premium' nascosti e non devi inserire la carta di credito per iniziare a scaricare modelli.

Ma c'è un dettaglio che spesso sfugge a chi è abituato a ChatGPT o Claude. Quando diciamo che Ollama è gratuito, intendiamo il software. L'orchestratore che ti permette di scaricare e gestire i modelli con un semplice comando da terminale non costa nulla.

Il vero costo? È l'hardware.

Far girare un'intelligenza artificiale in locale richiede risorse. Non serve un supercomputer della NASA, ma se provi a caricare un modello massiccio su un laptop di dieci anni fa con 4GB di RAM, l'unica cosa che otterrai sarà una ventola che urla e un computer bloccato. Proprio così.

Il vantaggio di non pagare un canone mensile

Siamo abituati a pagare 20 dollari al mese per accedere alle versioni più potenti dei chatbot commerciali. Con Ollama questo paradigma cambia. Una volta installato, puoi scaricare Llama 3, Mistral o Phi-3 e usarli quante volte vuoi. Senza limiti di messaggi orari.

Questo apre scenari interessanti per chi lavora con dati sensibili. Se i tuoi documenti non lasciano mai il tuo hard disk, la privacy non è più una promessa scritta in un contratto di termini e condizioni lungo dieci pagine, ma una certezza tecnica. I tuoi prompt restano a casa tua.

Un altro punto fondamentale riguarda l'indipendenza. Non dipendi dalla stabilità dei server di un'azienda californiana o dai cambiamenti improvvisi delle loro policy di moderazione che, a volte, rendono l'AI eccessivamente prudente o addirittura inutile per certi compiti creativi.

Quali modelli puoi usare senza spendere un centesimo?

La bellezza di Ollama sta nella sua libreria. Puoi scegliere il modello in base alla potenza del tuo PC. Se hai una macchina modesta, puoi puntare su modelli piccoli ma efficienti come Phi-3 di Microsoft o le versioni 'small' di Mistral.

Se invece possiedi una GPU NVIDIA con una buona quantità di VRAM (la memoria dedicata della scheda video), allora puoi spingerti verso Llama 3. La differenza di prestazioni è abissale, ma il prezzo del software rimane zero.

  • Llama 3: Il punto di riferimento attuale per versatilità e potenza.
  • Mistral/Mixtral: Eccellenti per chi cerca un equilibrio tra velocità e precisione.
  • CodeLlama: Se il tuo obiettivo è scrivere codice senza pagare GitHub Copilot.

C'è un aspetto che molti sottovalutano: la possibilità di personalizzare i modelli tramite i Modelfiles. Puoi creare una versione dell'AI istruita specificamente per il tuo lavoro, definendo un sistema di prompt unico, e tutto questo avviene localmente.

Hardware: dove si nasconde il costo reale

Non voglio venderti l'idea che sia tutto 'gratis' se poi scopri di dover cambiare PC. Per far girare Ollama in modo fluido, la variabile critica è la memoria.

La RAM del sistema aiuta, ma la VRAM della scheda video è ciò che fa davvero la differenza. Se hai un Mac con chip M1, M2 o M3, sei fortunato: l'architettura a memoria unificata di Apple rende Ollama incredibilmente efficiente. Su Windows o Linux, una scheda NVIDIA RTX è quasi obbligatoria per non attendere tre secondi per ogni singola parola generata.

Un consiglio rapido: se hai 16GB di RAM, punta a modelli da 7B o 8B parametri. Se ne hai 32GB o più, puoi iniziare a esplorare modelli più complessi senza che il sistema vada in crash.

Come installarlo e partire subito

L'installazione è quasi banale. Vai sul sito ufficiale, scarichi l'installer per il tuo sistema operativo e lo avvii. Non ci sono configurazioni infinite o script complicati da compilare.

Una volta aperto il terminale, basta un comando come ollama run llama3 per scaricare il modello e iniziare a chattare. È quasi magico vedere l'AI che risponde in tempo reale sapendo che non c'è nessun cavo di rete coinvolto nel processo di generazione del testo.

Molti utenti poi scelgono di aggiungere un'interfaccia grafica (come Open WebUI) per avere un'esperienza simile a quella di ChatGPT, evitando il terminale. Anche queste interfacce sono spesso open source e gratuite.

Ollama vs Servizi Cloud: il confronto onesto

Vale la pena passare al locale? Dipende da cosa cerchi. Se ti serve l'ultima versione di GPT-4o con capacità multimodali avanzatissime e non hai un PC potente, il cloud vince a mani basse.

Ma se cerchi controllo totale, privacy assoluta e la libertà di sperimentare senza che qualcuno monitori i tuoi input, Ollama è l'unica strada percorribile. Inoltre, imparare a gestire modelli locali ti dà una comprensione tecnica dell'AI che nessun abbonamento mensile può offrirti.

C'è poi il fattore 'offline'. Sembra assurdo nel 2024, ma poter usare un assistente intelligente mentre sei in treno senza connessione o in un luogo isolato è un vantaggio concreto. Non è più fantascienza, è solo una questione di spazio su disco.

Considerazioni finali sulla gratuità

In sintesi, Ollama rappresenta la democratizzazione dell'intelligenza artificiale. Toglie il potere dalle mani di pochi grandi provider e lo restituisce all'utente finale.

Sì, l'energia elettrica che consuma il tuo PC aumenterà leggermente durante le sessioni di generazione intense. Sì, potresti sentire le ventole girare al massimo. Ma confrontato con il costo di un abbonamento ricorrente e il rischio di cedere i propri dati a terzi, è un prezzo irrisorio.

Il software è libero, l'accesso ai modelli è aperto e la gestione è semplificata. Se hai l'hardware giusto, non c'è alcun motivo per continuare a pagare per servizi che potresti ospitare autonomamente nel tuo salotto.