Wat is de Ollama API?

Ollama is een open-source tool voor het lokaal uitvoeren van grote taalmodellen (LLMs) op uw machine. Het biedt een REST API die HTTP-verzoeken accepteert, waarmee u kunt communiceren met modellen zoals Llama 3, Mistral, Gemma en vele anderen, rechtstreeks vanuit uw terminal of applicatiecode. De API volgt een eenvoudig JSON-gebaseerd verzoek/antwoord-patroon en ondersteunt tekstgeneratie, meerturnige chatgesprekken en tekstembeddings.

cURL is de meest gebruikte manier om de Ollama API te testen en ermee te communiceren. Het opstellen van het juiste cURL-commando met alle benodigde parameters, headers en JSON-bodyopmaak kan echter omslachtig en foutgevoelig zijn, vooral bij het afstemmen van modelopties zoals temperature en top-k sampling.

Beschrijving van de tool

Deze tool genereert kant-en-klare cURL-commando's voor Ollama API-endpoints. Selecteer een endpoint, configureer uw model en parameters, en ontvang direct een correct opgemaakt cURL-commando. Het gegenereerde commando bevat alle benodigde headers, JSON-bodystructuur en modelopties — klaar om in uw terminal te plakken.

Voorbeelden

Eenvoudige tekstgeneratie:

curl -X POST "http://localhost:11434/api/generate" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "llama3",
  "prompt": "Explain quantum computing in simple terms",
  "stream": true
}'

Chat met systeemprompt en aangepaste temperature:

curl -X POST "http://localhost:11434/api/chat" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "llama3",
  "messages": [
    { "role": "system", "content": "You are a helpful coding assistant." },
    { "role": "user", "content": "Write a Python function to reverse a string" }
  ],
  "stream": false,
  "options": {
    "temperature": 0.3
  }
}'

Embeddings genereren:

curl -X POST "http://localhost:11434/api/embeddings" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "llama3",
  "prompt": "The quick brown fox jumps over the lazy dog",
  "stream": false
}'

Functies

  • Ondersteunt alle drie de belangrijkste Ollama-endpoints: /api/generate, /api/chat en /api/embeddings
  • Configureerbare modelopties: temperature, top-p, top-k, maximaal aantal tokens, herhaalpenalty en seed
  • Ondersteuning voor systeemprompts bij generate- en chat-endpoints
  • JSON-antwoordformaatoptie voor gestructureerde uitvoer
  • Gegenereerd commando downloaden als .sh-bestand

Uitleg van de opties

Optie Beschrijving Standaard Bereik
Temperature Bepaalt de willekeurigheid van de uitvoer. Lagere waarden produceren meer gerichte tekst, hogere waarden vergroten de creativiteit. 0.7 0–2
Top P Drempelwaarde voor nucleus sampling. Het model houdt rekening met tokens waarvan de cumulatieve kans deze waarde bereikt. 0.9 0–1
Top K Beperkt de tokenselectie tot de K meest waarschijnlijke kandidaten bij elke stap. 40 1–100
Max tokens Maximaal aantal te genereren tokens in het antwoord. Stel in op -1 voor onbeperkt. 128 -1–4096
Herhaalpenalty Bestraft herhaalde tokens. Waarden boven 1.0 ontmoedigen herhaling. 1.1 0–2
Seed Vaste seed voor reproduceerbare uitvoer. Laat leeg voor willekeurige resultaten. Willekeurig geheel getal
Antwoordformaat Stel in op JSON om het model te dwingen geldige JSON-uitvoer te retourneren. Geen Geen / JSON
Stream Wanneer ingeschakeld, wordt het antwoord token voor token gestreamd. Schakel uit om het volledige antwoord in één keer te ontvangen. Aan Aan / Uit

Toepassingen

  • Snel prototypen en testen van Ollama API-aanroepen vanuit de terminal zonder handmatig JSON te schrijven
  • cURL-commando's genereren om te delen met teamleden of op te nemen in documentatie
  • Experimenteren met verschillende modelparameters om optimale instellingen voor uw gebruikssituatie te vinden