Hva er Ollama API?

Ollama er et åpen kildekode-verktøy for å kjøre store språkmodeller (LLM-er) lokalt på maskinen din. Det tilbyr et REST API som aksepterer HTTP-forespørsler, slik at du kan samhandle med modeller som Llama 3, Mistral, Gemma og mange andre direkte fra terminalen eller applikasjonskoden din. API-et følger et enkelt JSON-basert forespørsel/svar-mønster og støtter tekstgenerering, flertrinns chat-samtaler og tekstinnbygginger.

cURL er den vanligste måten å teste og samhandle med Ollama API på. Å konstruere riktig cURL-kommando med alle de riktige parameterne, headerne og JSON-body-formateringen kan imidlertid være tidkrevende og feilutsatt, særlig når du justerer modellalternativer som temperatur og top-k-sampling.

Verktøybeskrivelse

Dette verktøyet genererer klare-til-bruk cURL-kommandoer for Ollama API-endepunkter. Velg et endepunkt, konfigurer modellen og parameterne dine, og få en korrekt formatert cURL-kommando umiddelbart. Den genererte kommandoen inkluderer alle nødvendige headere, JSON-body-struktur og modellalternativer — klar til å lime inn i terminalen din.

Eksempler

Grunnleggende tekstgenerering:

curl -X POST "http://localhost:11434/api/generate" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "llama3",
  "prompt": "Explain quantum computing in simple terms",
  "stream": true
}'

Chat med systemprompt og egendefinert temperatur:

curl -X POST "http://localhost:11434/api/chat" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "llama3",
  "messages": [
    { "role": "system", "content": "You are a helpful coding assistant." },
    { "role": "user", "content": "Write a Python function to reverse a string" }
  ],
  "stream": false,
  "options": {
    "temperature": 0.3
  }
}'

Generer innbygginger:

curl -X POST "http://localhost:11434/api/embeddings" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "llama3",
  "prompt": "The quick brown fox jumps over the lazy dog",
  "stream": false
}'

Funksjoner

  • Støtter alle tre hovedendepunktene i Ollama: /api/generate, /api/chat og /api/embeddings
  • Konfigurerbare modellalternativer: temperatur, top-p, top-k, maks tokens, gjentakelsesstraff og seed
  • Støtte for systemprompt for generate- og chat-endepunkter
  • JSON-responsformat-alternativ for strukturert utdata
  • Last ned generert kommando som en .sh-fil

Forklaring av alternativer

Alternativ Beskrivelse Standard Område
Temperatur Styrer tilfeldigheten i utdataene. Lavere verdier gir mer fokusert tekst, høyere verdier øker kreativiteten. 0,7 0–2
Top P Terskel for nucleus-sampling. Modellen vurderer tokens hvis kumulative sannsynlighet når denne verdien. 0,9 0–1
Top K Begrenser token-utvalget til de K mest sannsynlige kandidatene på hvert trinn. 40 1–100
Maks tokens Maksimalt antall tokens som skal genereres i svaret. Sett til -1 for ubegrenset. 128 -1–4096
Gjentakelsesstraff Straffer gjentatte tokens. Verdier over 1,0 motvirker repetisjon. 1,1 0–2
Seed Fast seed for reproduserbare resultater. La stå tomt for tilfeldige resultater. Hvilket som helst heltall
Responsformat Sett til JSON for å tvinge modellen til å returnere gyldig JSON-utdata. Ingen Ingen / JSON
Stream Når aktivert, strømmes svaret token for token. Deaktiver for å motta hele svaret på én gang. På / Av

Bruksområder

  • Rask prototyping og testing av Ollama API-kall fra terminalen uten å skrive JSON manuelt
  • Generering av cURL-kommandoer for deling med teammedlemmer eller inkludering i dokumentasjon
  • Eksperimentering med ulike modellparametere for å finne optimale innstillinger for ditt brukstilfelle