Perché usare Ollama?

Ollama ti permette di eseguire modelli linguistici senza dipendere da servizi cloud. Lato privacy, lato velocità e controllo completo.

Primo passo: installare il client

Scarica l’eseguibile dal sito ufficiale, estrai i file e posiziona la cartella in un percorso di sistema. Una volta fatto, apri il terminale e verifica che ollama --version restituisca una versione valida.

Configurare il modello da chiamare

Per esempio, scegli “llama3” con 8 billion di parametri. Lancia: ollama pull llama3. Il download può richiedere qualche minuto, ma una volta completato è pronto all’uso.

Inviare la chiamata

Il comando base è:

ollama run llama3 "Qual è la capitale della Francia?"
L’output apparirà subito, con la risposta generata. Se preferisci interfacciarti via HTTP, avvia il server:

ollama serve. Il servizio ascolta su http://localhost:11434/v1/chat/completions. Per una chiamata tipica REST:

curl -X POST http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "llama3", "messages": [{"role":"user","content":"Cosa può fare un modello LLM?"}]}'

Il JSON restituito conterrà il testo generato.

Gestire più richieste contemporaneamente

L’API di Ollama supporta concurrency. Basta inviare richieste in parallelo; l’infrastruttura locale gestirà la schedulazione. Per evitare blocchi, imposta un timeout e un pool di thread nel tuo client.

Debugging rapido

Se la risposta non arriva o l’API restituisce errori, controlla i log:

ollama logs. Cerca messaggi come “Connection refused” o “Out of memory”. In caso di memoria insufficiente, riduci il modello a una versione più leggera.

Quando è utile chiamare Ollama dal tuo progetto?

  • Prototipi che devono restare offline per motivi di sicurezza.
  • Applicazioni con latenza critica: la risposta locale è quasi immediata.
  • Ambienti dove l’infrastruttura cloud non è disponibile o proibita.