RackDiff
Alle Guides

Ollama auf VPS installieren: Kompletter Setup-Guide 2026

Schritt-für-Schritt Anleitung: Ollama auf Linux VPS installieren, Open WebUI einrichten, Reverse Proxy mit SSL. Inkl. Sicherheitstipps und Performance-Tuning.

Dirk Hesse
5. Februar 2026
7 Min. Lesezeit

ChatGPT Plus kostet 20$/Monat. Claude Pro 18€/Monat. Aber was, wenn du unbegrenzt mit KI chatten könntest – für 9€ im Monat Fixkosten?

Die Rechnung: Ein VPS (Virtual Private Server – dein eigener Server in der Cloud) mit 8 GB RAM kostet ab 8,99€/Monat. Darauf läuft Ollama mit Llama 3.2 – ein Sprachmodell, das für die meisten Anwendungen mit GPT-3.5 mithalten kann. Keine API-Kosten, keine Token-Limits, volle Datenkontrolle.

In diesem Guide installierst du Ollama auf deinem eigenen Server. Danach hast du: Llama 3.2 als lokale KI, ein ChatGPT-ähnliches Interface, und sensible Daten, die dein Netzwerk nie verlassen.

Welcher VPS für dein Modell?

Unser Rechner zeigt dir den passenden Server für Llama, Qwen & Co.

Zum Ollama VPS-Rechner

Voraussetzungen

Bevor wir starten, brauchst du:

  • Einen VPS mit mindestens 8 GB RAM (für Llama 3.2 8B). Noch keinen? Server ab 8,99€/Monat mit 8+ GB RAM →
  • Ubuntu 22.04 oder 24.04 (Debian funktioniert auch)
  • SSH-Zugang zum Server
  • Optional: Eine Domain für HTTPS-Zugriff

Unsere VPS-Empfehlung für Ollama:

AnbieterProduktRAMPreis
NetcupRS 20008 GB8,99€/mo
HetznerCX328 GB12,49€/mo
ContaboCloud VPS M16 GB10,49€/mo

Contabo bietet das beste RAM/Preis-Verhältnis (16 GB für 10€), Hetzner die schnellsten CPUs für flüssigere Antworten, Netcup einen guten Mittelweg.

Server für Ollama gesucht?

Für Llama 3.2 8B brauchst du mindestens 8 GB RAM. Hier findest du passende Server ab 8,99€/Monat.

Server mit 8+ GB RAM

Schritt 1: Ollama installieren

Die Installation ist ein Einzeiler. Verbinde dich per SSH und führe aus:

curl -fsSL https://ollama.com/install.sh | sh

Installation prüfen:

ollama --version
# Ausgabe: ollama version 0.5.x

Das Script installiert Ollama nach /usr/local/bin/ und richtet einen systemd-Service ein, der automatisch startet.


Schritt 2: Erstes Modell herunterladen

Jetzt laden wir Llama 3.2 8B - das beste Einsteigermodell:

ollama pull llama3.2

Modell testen:

ollama run llama3.2
>>> Schreibe ein Haiku über Server-Hosting

Tipp: Der erste Start lädt das Modell in den RAM - das dauert 10-30 Sekunden. Danach antwortet Ollama sofort.


Schritt 3: Remote-Zugriff aktivieren

Standardmäßig lauscht Ollama nur auf localhost. Für Zugriff von außen (z.B. n8n, Open WebUI auf anderem Server):

sudo mkdir -p /etc/systemd/system/ollama.service.d/
sudo nano /etc/systemd/system/ollama.service.d/override.conf

Inhalt der override.conf:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

Dienst neu starten:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Warnung: Ohne Authentifizierung ist deine API jetzt öffentlich! Im nächsten Schritt sichern wir sie ab.


Schritt 4: API absichern

Drei Optionen für sicheren Remote-Zugriff:

Option A: Firewall (einfachste)

Erlaube nur bestimmte IPs:

sudo ufw allow from DEINE_IP to any port 11434
sudo ufw enable

Option B: Reverse Proxy mit Basic Auth

Traefik oder Nginx mit Passwortschutz - siehe Schritt 6.

Option C: WireGuard VPN

Sicherste Option - Ollama bleibt auf localhost, Zugriff nur über VPN mit WireGuard.


Schritt 5: Open WebUI installieren (ChatGPT-Interface)

Open WebUI gibt dir ein schickes Chat-Interface - inklusive Chat-Historie und Benutzerverwaltung:

Docker installieren (falls noch nicht vorhanden):

curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER

Open WebUI starten:

docker run -d \
  --name open-webui \
  --restart always \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --add-host=host.docker.internal:host-gateway \
  ghcr.io/open-webui/open-webui:main

Open WebUI läuft jetzt auf Port 3000. Der erste User, der sich registriert, wird automatisch Admin.


Schritt 6: HTTPS mit Traefik einrichten

Für sicheren Zugriff über eine Domain richten wir Traefik als Reverse Proxy ein:

version: '3'

services:
  traefik:
    image: traefik:v3.0
    command:
      - --api.insecure=true
      - --providers.docker=true
      - --entrypoints.web.address=:80
      - --entrypoints.websecure.address=:443
      - --certificatesresolvers.letsencrypt.acme.httpchallenge=true
      - --certificatesresolvers.letsencrypt.acme.httpchallenge.entrypoint=web
      - [email protected]
      - --certificatesresolvers.letsencrypt.acme.storage=/letsencrypt/acme.json
    ports:
      - 80:80
      - 443:443
    volumes:
      - /var/run/docker.sock:/var/run/docker.sock
      - ./letsencrypt:/letsencrypt
    restart: always

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    volumes:
      - open-webui:/app/backend/data
    environment:
      - OLLAMA_BASE_URL=http://host.docker.internal:11434
    extra_hosts:
      - host.docker.internal:host-gateway
    labels:
      - traefik.enable=true
      - traefik.http.routers.webui.rule=Host(`chat.deinedomain.de`)
      - traefik.http.routers.webui.entrypoints=websecure
      - traefik.http.routers.webui.tls.certresolver=letsencrypt
    restart: always

volumes:
  open-webui:

Tipp: Ersetze chat.deinedomain.de mit deiner Domain und stelle sicher, dass der DNS A-Record auf deine Server-IP zeigt.


Bonus: Ollama mit n8n verbinden

n8n hat einen nativen Ollama-Node für kostenlose KI-Automatisierungen:

  1. Füge einen 'Ollama' Node zu deinem Workflow hinzu
  2. Konfiguriere die Base URL: http://localhost:11434 (wenn n8n auf demselben Server läuft)
  3. Wähle dein Modell (z.B. llama3.2)
  4. Verbinde mit Chat Trigger für ein Chat-Interface oder anderen Triggern für Automatisierungen

Anwendungsfälle:

  • E-Mails automatisch zusammenfassen und kategorisieren
  • Support-Tickets analysieren und priorisieren
  • Content für Social Media generieren
  • Dokumente in strukturierte Daten umwandeln

Performance-Tuning

Hole das Maximum aus deinem Setup:

Mehr Context-Länge

Standardmäßig nutzt Ollama 2048 Tokens Context. Für längere Gespräche:

ollama run llama3.2 --num-ctx 4096

Modell vorwärmen

Lade das Modell beim Serverstart in den RAM für sofortige Antworten:

curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "prompt": "warmup", "stream": false}'

Monitoring

Überwache RAM-Auslastung während der Nutzung:

watch -n 1 'free -h'

Modell-Empfehlungen nach Anwendungsfall

AnwendungModellRAMBefehl
Allgemeine ChatsLlama 3.2 8B10 GBollama pull llama3.2
Code schreibenDeepSeek Coder 6.7B10 GBollama pull deepseek-coder:6.7b
Deutsche TexteLlama 3.2 8B Instruct10 GBollama pull llama3.2:8b-instruct
Schnelle AntwortenMistral 7B10 GBollama pull mistral
Komplexe AnalysenQwen 2.5 14B18 GBollama pull qwen2.5:14b
Bilder analysierenLLaVA 7B10 GBollama pull llava

Häufige Probleme

Ollama antwortet nicht von Remote

Prüfe:

  1. OLLAMA_HOST=0.0.0.0 gesetzt?
  2. Port 11434 in Firewall offen?
  3. systemctl restart ollama ausgeführt?

Out of Memory Fehler

Modell ist zu groß für deinen RAM. Nutze ein kleineres Modell oder quantisierte Version (z.B. llama3.2:8b-q4_0).

Langsame Antworten

Normal auf CPU! Für 8B Modelle erwarte 5-15 Tokens/Sekunde. Für mehr Speed: Größerer VPS oder GPU-Server.

Open WebUI findet Ollama nicht

Prüfe OLLAMA_BASE_URL und ob --add-host=host.docker.internal:host-gateway gesetzt ist.


Fazit

Du hast jetzt einen vollständigen Ollama-Server mit Web-Interface und HTTPS. Deine Daten bleiben auf deinem Server, du zahlst keine API-Gebühren, und kannst unbegrenzt mit KI chatten.

Kosten im Vergleich: ChatGPT Plus kostet 240$/Jahr. Ein VPS mit Ollama kostet ~108€/Jahr – und du kannst darauf noch Vaultwarden als Passwort-Manager oder Immich für Fotos laufen lassen.


Häufig gestellte Fragen

VPS für Ollama gesucht?

Für Llama 3.2 8B brauchst du mindestens 8 GB RAM. Für größere Modelle wie Qwen 14B: 16 GB.

Server mit 8+ GB RAM

Passender VPS-Rechner

LocalLLaMA: KI-Modelle selbst hosten

Agentic Coding & Local LLMs auf eigener Hardware – inspiriert von r/LocalLLaMA.

Zum VPS-Rechner

Verwandte Artikel