Vad är Ollama API?

Ollama är ett open source-verktyg för att köra stora språkmodeller (LLMs) lokalt på din dator. Det tillhandahåller ett REST API som tar emot HTTP-förfrågningar, vilket gör att du kan interagera med modeller som Llama 3, Mistral, Gemma och många andra direkt från din terminal eller applikationskod. API:et följer ett enkelt JSON-baserat förfrågnings-/svarsmönster och stöder textgenerering, flerstegskonversationer och textinbäddningar.

cURL är det vanligaste sättet att testa och interagera med Ollama API. Att konstruera rätt cURL-kommando med alla korrekta parametrar, headers och JSON-body-formatering kan dock vara omständligt och felbenäget, särskilt när man justerar modellalternativ som temperatur och top-k-sampling.

Verktygsbeskrivning

Det här verktyget genererar färdiga cURL-kommandon för Ollama API-endpoints. Välj en endpoint, konfigurera din modell och dina parametrar och få ett korrekt formaterat cURL-kommando direkt. Det genererade kommandot inkluderar alla nödvändiga headers, JSON-body-struktur och modellalternativ — redo att klistra in i din terminal.

Exempel

Grundläggande textgenerering:

curl -X POST "http://localhost:11434/api/generate" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "llama3",
  "prompt": "Explain quantum computing in simple terms",
  "stream": true
}'

Chatt med systemprompt och anpassad temperatur:

curl -X POST "http://localhost:11434/api/chat" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "llama3",
  "messages": [
    { "role": "system", "content": "You are a helpful coding assistant." },
    { "role": "user", "content": "Write a Python function to reverse a string" }
  ],
  "stream": false,
  "options": {
    "temperature": 0.3
  }
}'

Generera inbäddningar:

curl -X POST "http://localhost:11434/api/embeddings" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "llama3",
  "prompt": "The quick brown fox jumps over the lazy dog",
  "stream": false
}'

Funktioner

  • Stöder alla tre huvudsakliga Ollama-endpoints: /api/generate, /api/chat och /api/embeddings
  • Konfigurerbara modellalternativ: temperatur, top-p, top-k, maximalt antal tokens, upprepningsstraff och seed
  • Stöd för systemprompt för generate- och chat-endpoints
  • JSON-svarsformatalternativ för strukturerad utdata
  • Ladda ned det genererade kommandot som en .sh-fil

Alternativ förklarade

Alternativ Beskrivning Standard Intervall
Temperatur Styr slumpmässigheten i utdata. Lägre värden ger mer fokuserad text, högre värden ökar kreativiteten. 0,7 0–2
Top P Tröskel för nucleus-sampling. Modellen beaktar tokens vars kumulativa sannolikhet når detta värde. 0,9 0–1
Top K Begränsar tokenurvalet till de K mest sannolika kandidaterna vid varje steg. 40 1–100
Maximalt antal tokens Maximalt antal tokens att generera i svaret. Ange -1 för obegränsat. 128 -1–4096
Upprepningsstraff Straffar upprepade tokens. Värden över 1,0 motverkar upprepning. 1,1 0–2
Seed Fast seed för reproducerbar utdata. Lämna tomt för slumpmässiga resultat. Valfritt heltal
Svarsformat Ange JSON för att tvinga modellen att returnera giltig JSON-utdata. Ingen Ingen / JSON
Stream När aktiverat strömmas svaret token för token. Inaktivera för att ta emot hela svaret på en gång. På / Av

Användningsområden

  • Snabb prototypframtagning och testning av Ollama API-anrop från terminalen utan att manuellt skriva JSON
  • Generering av cURL-kommandon att dela med teammedlemmar eller inkludera i dokumentation
  • Experimentera med olika modellparametrar för att hitta optimala inställningar för ditt användningsfall