Perché usare Ollama?
Ollama ti permette di eseguire modelli linguistici senza dipendere da servizi cloud. Lato privacy, lato velocità e controllo completo.
Primo passo: installare il client
Scarica l’eseguibile dal sito ufficiale, estrai i file e posiziona la cartella in un percorso di sistema. Una volta fatto, apri il terminale e verifica che ollama --version restituisca una versione valida.
Configurare il modello da chiamare
Per esempio, scegli “llama3” con 8 billion di parametri. Lancia: ollama pull llama3. Il download può richiedere qualche minuto, ma una volta completato è pronto all’uso.
Inviare la chiamata
Il comando base è:
ollama run llama3 "Qual è la capitale della Francia?"
L’output apparirà subito, con la risposta generata. Se preferisci interfacciarti via HTTP, avvia il server:
ollama serve. Il servizio ascolta su http://localhost:11434/v1/chat/completions. Per una chiamata tipica REST:
curl -X POST http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "llama3", "messages": [{"role":"user","content":"Cosa può fare un modello LLM?"}]}'
Il JSON restituito conterrà il testo generato.
Gestire più richieste contemporaneamente
L’API di Ollama supporta concurrency. Basta inviare richieste in parallelo; l’infrastruttura locale gestirà la schedulazione. Per evitare blocchi, imposta un timeout e un pool di thread nel tuo client.
Debugging rapido
Se la risposta non arriva o l’API restituisce errori, controlla i log:
ollama logs. Cerca messaggi come “Connection refused” o “Out of memory”. In caso di memoria insufficiente, riduci il modello a una versione più leggera.
Quando è utile chiamare Ollama dal tuo progetto?
- Prototipi che devono restare offline per motivi di sicurezza.
- Applicazioni con latenza critica: la risposta locale è quasi immediata.
- Ambienti dove l’infrastruttura cloud non è disponibile o proibita.