Ollama auf VPS installieren: Kompletter Setup-G...

ChatGPT Plus kostet 20$/Monat. Claude Pro 18€/Monat. Aber was, wenn du unbegrenzt mit KI chatten könntest – für 9€ im Monat Fixkosten?

Die Rechnung: Ein VPS (Virtual Private Server – dein eigener Server in der Cloud) mit 8 GB RAM kostet ab 8,99€/Monat. Darauf läuft Ollama mit Llama 3.2 – ein Sprachmodell, das für die meisten Anwendungen mit GPT-3.5 mithalten kann. Keine API-Kosten, keine Token-Limits, volle Datenkontrolle.

In diesem Guide installierst du Ollama auf deinem eigenen Server. Danach hast du: Llama 3.2 als lokale KI, ein ChatGPT-ähnliches Interface, und sensible Daten, die dein Netzwerk nie verlassen.

Welcher VPS für dein Modell?

Unser Rechner zeigt dir den passenden Server für Llama, Qwen & Co.

Zum Ollama VPS-Rechner

Voraussetzungen

Bevor wir starten, brauchst du:

Einen VPS mit mindestens 8 GB RAM (für Llama 3.2 8B). Noch keinen? Server ab 8,99€/Monat mit 8+ GB RAM →
Ubuntu 22.04 oder 24.04 (Debian funktioniert auch)
SSH-Zugang zum Server
Optional: Eine Domain für HTTPS-Zugriff

Unsere VPS-Empfehlung für Ollama:

Anbieter	Produkt	RAM	Preis
Netcup	RS 2000	8 GB	8,99€/mo
Hetzner	CX32	8 GB	12,49€/mo
Contabo	Cloud VPS M	16 GB	10,49€/mo

Contabo bietet das beste RAM/Preis-Verhältnis (16 GB für 10€), Hetzner die schnellsten CPUs für flüssigere Antworten, Netcup einen guten Mittelweg.

Server für Ollama gesucht?

Für Llama 3.2 8B brauchst du mindestens 8 GB RAM. Hier findest du passende Server ab 8,99€/Monat.

Server mit 8+ GB RAM

Schritt 1: Ollama installieren

Die Installation ist ein Einzeiler. Verbinde dich per SSH und führe aus:

curl -fsSL https://ollama.com/install.sh | sh

Installation prüfen:

ollama --version
# Ausgabe: ollama version 0.5.x

Das Script installiert Ollama nach /usr/local/bin/ und richtet einen systemd-Service ein, der automatisch startet.

Schritt 2: Erstes Modell herunterladen

Jetzt laden wir Llama 3.2 8B - das beste Einsteigermodell:

ollama pull llama3.2

Modell testen:

ollama run llama3.2
>>> Schreibe ein Haiku über Server-Hosting

Tipp: Der erste Start lädt das Modell in den RAM - das dauert 10-30 Sekunden. Danach antwortet Ollama sofort.

Schritt 3: Remote-Zugriff aktivieren

Standardmäßig lauscht Ollama nur auf localhost. Für Zugriff von außen (z.B. n8n, Open WebUI auf anderem Server):

sudo mkdir -p /etc/systemd/system/ollama.service.d/
sudo nano /etc/systemd/system/ollama.service.d/override.conf

Inhalt der override.conf:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

Dienst neu starten:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Warnung: Ohne Authentifizierung ist deine API jetzt öffentlich! Im nächsten Schritt sichern wir sie ab.

Schritt 4: API absichern

Drei Optionen für sicheren Remote-Zugriff:

Option A: Firewall (einfachste)

Erlaube nur bestimmte IPs:

sudo ufw allow from DEINE_IP to any port 11434
sudo ufw enable

Option B: Reverse Proxy mit Basic Auth

Traefik oder Nginx mit Passwortschutz - siehe Schritt 6.

Option C: WireGuard VPN

Sicherste Option - Ollama bleibt auf localhost, Zugriff nur über VPN mit WireGuard.

Schritt 5: Open WebUI installieren (ChatGPT-Interface)

Open WebUI gibt dir ein schickes Chat-Interface - inklusive Chat-Historie und Benutzerverwaltung:

Docker installieren (falls noch nicht vorhanden):

curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER

Open WebUI starten:

docker run -d \
  --name open-webui \
  --restart always \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --add-host=host.docker.internal:host-gateway \
  ghcr.io/open-webui/open-webui:main

Open WebUI läuft jetzt auf Port 3000. Der erste User, der sich registriert, wird automatisch Admin.

Schritt 6: HTTPS mit Traefik einrichten

Für sicheren Zugriff über eine Domain richten wir Traefik als Reverse Proxy ein:

version: '3'

services:
  traefik:
    image: traefik:v3.0
    command:
      - --api.insecure=true
      - --providers.docker=true
      - --entrypoints.web.address=:80
      - --entrypoints.websecure.address=:443
      - --certificatesresolvers.letsencrypt.acme.httpchallenge=true
      - --certificatesresolvers.letsencrypt.acme.httpchallenge.entrypoint=web
      - [email protected]
      - --certificatesresolvers.letsencrypt.acme.storage=/letsencrypt/acme.json
    ports:
      - 80:80
      - 443:443
    volumes:
      - /var/run/docker.sock:/var/run/docker.sock
      - ./letsencrypt:/letsencrypt
    restart: always

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    volumes:
      - open-webui:/app/backend/data
    environment:
      - OLLAMA_BASE_URL=http://host.docker.internal:11434
    extra_hosts:
      - host.docker.internal:host-gateway
    labels:
      - traefik.enable=true
      - traefik.http.routers.webui.rule=Host(`chat.deinedomain.de`)
      - traefik.http.routers.webui.entrypoints=websecure
      - traefik.http.routers.webui.tls.certresolver=letsencrypt
    restart: always

volumes:
  open-webui:

Tipp: Ersetze chat.deinedomain.de mit deiner Domain und stelle sicher, dass der DNS A-Record auf deine Server-IP zeigt.

Bonus: Ollama mit n8n verbinden

n8n hat einen nativen Ollama-Node für kostenlose KI-Automatisierungen:

Füge einen 'Ollama' Node zu deinem Workflow hinzu
Konfiguriere die Base URL: http://localhost:11434 (wenn n8n auf demselben Server läuft)
Wähle dein Modell (z.B. llama3.2)
Verbinde mit Chat Trigger für ein Chat-Interface oder anderen Triggern für Automatisierungen

Anwendungsfälle:

E-Mails automatisch zusammenfassen und kategorisieren
Support-Tickets analysieren und priorisieren
Content für Social Media generieren
Dokumente in strukturierte Daten umwandeln

Performance-Tuning

Hole das Maximum aus deinem Setup:

Mehr Context-Länge

Standardmäßig nutzt Ollama 2048 Tokens Context. Für längere Gespräche:

ollama run llama3.2 --num-ctx 4096

Modell vorwärmen

Lade das Modell beim Serverstart in den RAM für sofortige Antworten:

curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "prompt": "warmup", "stream": false}'

Monitoring

Überwache RAM-Auslastung während der Nutzung:

watch -n 1 'free -h'

Modell-Empfehlungen nach Anwendungsfall

Anwendung	Modell	RAM	Befehl
Allgemeine Chats	Llama 3.2 8B	10 GB	`ollama pull llama3.2`
Code schreiben	DeepSeek Coder 6.7B	10 GB	`ollama pull deepseek-coder:6.7b`
Deutsche Texte	Llama 3.2 8B Instruct	10 GB	`ollama pull llama3.2:8b-instruct`
Schnelle Antworten	Mistral 7B	10 GB	`ollama pull mistral`
Komplexe Analysen	Qwen 2.5 14B	18 GB	`ollama pull qwen2.5:14b`
Bilder analysieren	LLaVA 7B	10 GB	`ollama pull llava`

Häufige Probleme

Ollama antwortet nicht von Remote

Prüfe:

OLLAMA_HOST=0.0.0.0 gesetzt?
Port 11434 in Firewall offen?
systemctl restart ollama ausgeführt?

Out of Memory Fehler

Modell ist zu groß für deinen RAM. Nutze ein kleineres Modell oder quantisierte Version (z.B. llama3.2:8b-q4_0).

Langsame Antworten

Normal auf CPU! Für 8B Modelle erwarte 5-15 Tokens/Sekunde. Für mehr Speed: Größerer VPS oder GPU-Server.

Open WebUI findet Ollama nicht

Prüfe OLLAMA_BASE_URL und ob --add-host=host.docker.internal:host-gateway gesetzt ist.

RAM-Bedarf der wichtigsten Modelle

Der RAM-Bedarf bestimmt, welches Modell auf deinem VPS läuft. Faustregel: Du brauchst etwa so viel freien RAM wie das Modell groß ist, plus 1–2 GB Reserve für Betriebssystem und Ollama-Prozess. Quantisierte Modelle (Q4) sind der beste Kompromiss aus Qualität und Größe.

Modell	Parameter	RAM (Q4)	Empfohlener VPS
Llama 3.2 3B	3 Mrd.	~4 GB	8 GB RAM
Llama 3.1 8B	8 Mrd.	~6 GB	8 GB RAM
Qwen 2.5 14B	14 Mrd.	~10 GB	16 GB RAM
Mistral Small 24B	24 Mrd.	~16 GB	32 GB RAM
Llama 3.3 70B	70 Mrd.	~42 GB	64 GB RAM

Bei reiner CPU-Inferenz sinkt die Geschwindigkeit mit steigender Modellgröße deutlich. Für flüssige Chats auf einem CPU-VPS sind 3B- bis 8B-Modelle die praktikabelste Wahl. Größere Modelle laufen zwar, antworten aber spürbar langsamer (wenige Tokens pro Sekunde).

Lohnt sich Self-Hosting? Break-even gegen Cloud-APIs

Ob sich der eigene Server rechnet, hängt von deinem Nutzungsvolumen ab. Kommerzielle APIs rechnen pro Token ab, ein VPS kostet einen festen Monatsbetrag – unabhängig von der Auslastung.

Ein VPS mit 16 GB RAM bewegt sich im niedrigen zweistelligen Eurobereich pro Monat (tagesaktuelle Bruttopreise siehe Angebotskarten). Wer täglich viele Anfragen verarbeitet – etwa für Textzusammenfassungen, Klassifizierung oder einen internen Chatbot – erreicht den Break-even gegenüber einer Pay-per-Token-API schnell. Für sporadische Nutzung mit wenigen Anfragen pro Tag bleibt eine API günstiger. Der eigentliche Mehrwert von Self-Hosting liegt aber oft nicht im Preis: Deine Prompts und Daten verlassen nie deinen Server – entscheidend für sensible oder DSGVO-relevante Inhalte.

Fazit

Du hast jetzt einen vollständigen Ollama-Server mit Web-Interface und HTTPS. Deine Daten bleiben auf deinem Server, du zahlst keine API-Gebühren, und kannst unbegrenzt mit KI chatten.

Kosten im Vergleich: ChatGPT Plus kostet 240$/Jahr. Ein VPS mit Ollama kostet ~108€/Jahr – und du kannst darauf noch Vaultwarden als Passwort-Manager oder Immich für Fotos laufen lassen.

Häufig gestellte Fragen

Brauche ich Docker für Ollama?

Nein, Ollama läuft nativ auf Linux. Docker ist nur für Open WebUI empfohlen.

Kann ich mehrere Modelle gleichzeitig nutzen?

Ja, aber jedes geladene Modell belegt RAM. Ollama lädt Modelle on-demand und entlädt ungenutzte nach 5 Minuten.

Wie update ich Ollama?

Einfach den Installer erneut ausführen: curl -fsSL https://ollama.com/install.sh | sh. Modelle bleiben erhalten.

Ist CPU-Inferenz für Produktivbetrieb geeignet?

Für Chat-Anwendungen mit 1-5 gleichzeitigen Usern: Ja. Für Batch-Processing oder viele parallele Anfragen: GPU empfohlen.

Was kostet ein GPU-Server für Ollama?

GPU-VPS starten ab ~50€/Monat (z.B. bei Hetzner oder Lambda Labs). Für die meisten Use-Cases ist CPU aber ausreichend.

Weitere Self-Hosting Guides

n8n Self-Hosting Guide

Docker Setup Schritt für Schritt

Lesen

VPS Vergleich 2026

Die besten Anbieter im Test

Lesen

Vaultwarden Setup

Bitwarden auf eigenem Server

Lesen

VPS für Ollama gesucht?

Für Llama 3.2 8B brauchst du mindestens 8 GB RAM. Für größere Modelle wie Qwen 14B: 16 GB.

Server mit 8+ GB RAM

Ollama auf VPS installieren: Kompletter Setup-Guide 2026

Welcher VPS für dein Modell?

Voraussetzungen

Server für Ollama gesucht?

Schritt 1: Ollama installieren

Schritt 2: Erstes Modell herunterladen

Schritt 3: Remote-Zugriff aktivieren

Schritt 4: API absichern

Option A: Firewall (einfachste)

Option B: Reverse Proxy mit Basic Auth

Option C: WireGuard VPN

Schritt 5: Open WebUI installieren (ChatGPT-Interface)

Schritt 6: HTTPS mit Traefik einrichten

Bonus: Ollama mit n8n verbinden

Performance-Tuning

Mehr Context-Länge

Modell vorwärmen

Monitoring

Modell-Empfehlungen nach Anwendungsfall

Häufige Probleme

Ollama antwortet nicht von Remote

Out of Memory Fehler

Langsame Antworten

Open WebUI findet Ollama nicht

RAM-Bedarf der wichtigsten Modelle

Lohnt sich Self-Hosting? Break-even gegen Cloud-APIs

Fazit

Häufig gestellte Fragen

Weitere Self-Hosting Guides

n8n Self-Hosting Guide

VPS Vergleich 2026

Vaultwarden Setup

VPS für Ollama gesucht?

LocalLLaMA: KI-Modelle selbst hosten

Verwandte Artikel

Welches LLM läuft auf deinem VPS? Der Hardware-Guide 2026

No-Code KI-App-Builder: eigener VPS vs. IONOS AI App & Site Builder

KI-Telefonassistent: selbst hosten vs. IONOS AI Receptionist