ChatGPT Plus kostet 20$/Monat. Claude Pro 18€/Monat. Aber was, wenn du unbegrenzt mit KI chatten könntest – für 9€ im Monat Fixkosten?
Die Rechnung: Ein VPS (Virtual Private Server – dein eigener Server in der Cloud) mit 8 GB RAM kostet ab 8,99€/Monat. Darauf läuft Ollama mit Llama 3.2 – ein Sprachmodell, das für die meisten Anwendungen mit GPT-3.5 mithalten kann. Keine API-Kosten, keine Token-Limits, volle Datenkontrolle.
In diesem Guide installierst du Ollama auf deinem eigenen Server. Danach hast du: Llama 3.2 als lokale KI, ein ChatGPT-ähnliches Interface, und sensible Daten, die dein Netzwerk nie verlassen.
Welcher VPS für dein Modell?
Unser Rechner zeigt dir den passenden Server für Llama, Qwen & Co.
Zum Ollama VPS-RechnerVoraussetzungen
Bevor wir starten, brauchst du:
- Einen VPS mit mindestens 8 GB RAM (für Llama 3.2 8B). Noch keinen? Server ab 8,99€/Monat mit 8+ GB RAM →
- Ubuntu 22.04 oder 24.04 (Debian funktioniert auch)
- SSH-Zugang zum Server
- Optional: Eine Domain für HTTPS-Zugriff
Unsere VPS-Empfehlung für Ollama:
| Anbieter | Produkt | RAM | Preis |
|---|---|---|---|
| Netcup | RS 2000 | 8 GB | 8,99€/mo |
| Hetzner | CX32 | 8 GB | 12,49€/mo |
| Contabo | Cloud VPS M | 16 GB | 10,49€/mo |
Contabo bietet das beste RAM/Preis-Verhältnis (16 GB für 10€), Hetzner die schnellsten CPUs für flüssigere Antworten, Netcup einen guten Mittelweg.
Server für Ollama gesucht?
Für Llama 3.2 8B brauchst du mindestens 8 GB RAM. Hier findest du passende Server ab 8,99€/Monat.
Server mit 8+ GB RAMSchritt 1: Ollama installieren
Die Installation ist ein Einzeiler. Verbinde dich per SSH und führe aus:
curl -fsSL https://ollama.com/install.sh | sh
Installation prüfen:
ollama --version
# Ausgabe: ollama version 0.5.x
Das Script installiert Ollama nach /usr/local/bin/ und richtet einen systemd-Service ein, der automatisch startet.
Schritt 2: Erstes Modell herunterladen
Jetzt laden wir Llama 3.2 8B - das beste Einsteigermodell:
ollama pull llama3.2
Modell testen:
ollama run llama3.2
>>> Schreibe ein Haiku über Server-Hosting
Tipp: Der erste Start lädt das Modell in den RAM - das dauert 10-30 Sekunden. Danach antwortet Ollama sofort.
Schritt 3: Remote-Zugriff aktivieren
Standardmäßig lauscht Ollama nur auf localhost. Für Zugriff von außen (z.B. n8n, Open WebUI auf anderem Server):
sudo mkdir -p /etc/systemd/system/ollama.service.d/
sudo nano /etc/systemd/system/ollama.service.d/override.conf
Inhalt der override.conf:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Dienst neu starten:
sudo systemctl daemon-reload
sudo systemctl restart ollama
Warnung: Ohne Authentifizierung ist deine API jetzt öffentlich! Im nächsten Schritt sichern wir sie ab.
Schritt 4: API absichern
Drei Optionen für sicheren Remote-Zugriff:
Option A: Firewall (einfachste)
Erlaube nur bestimmte IPs:
sudo ufw allow from DEINE_IP to any port 11434
sudo ufw enable
Option B: Reverse Proxy mit Basic Auth
Traefik oder Nginx mit Passwortschutz - siehe Schritt 6.
Option C: WireGuard VPN
Sicherste Option - Ollama bleibt auf localhost, Zugriff nur über VPN mit WireGuard.
Schritt 5: Open WebUI installieren (ChatGPT-Interface)
Open WebUI gibt dir ein schickes Chat-Interface - inklusive Chat-Historie und Benutzerverwaltung:
Docker installieren (falls noch nicht vorhanden):
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER
Open WebUI starten:
docker run -d \
--name open-webui \
--restart always \
-p 3000:8080 \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--add-host=host.docker.internal:host-gateway \
ghcr.io/open-webui/open-webui:main
Open WebUI läuft jetzt auf Port 3000. Der erste User, der sich registriert, wird automatisch Admin.
Schritt 6: HTTPS mit Traefik einrichten
Für sicheren Zugriff über eine Domain richten wir Traefik als Reverse Proxy ein:
version: '3'
services:
traefik:
image: traefik:v3.0
command:
- --api.insecure=true
- --providers.docker=true
- --entrypoints.web.address=:80
- --entrypoints.websecure.address=:443
- --certificatesresolvers.letsencrypt.acme.httpchallenge=true
- --certificatesresolvers.letsencrypt.acme.httpchallenge.entrypoint=web
- [email protected]
- --certificatesresolvers.letsencrypt.acme.storage=/letsencrypt/acme.json
ports:
- 80:80
- 443:443
volumes:
- /var/run/docker.sock:/var/run/docker.sock
- ./letsencrypt:/letsencrypt
restart: always
open-webui:
image: ghcr.io/open-webui/open-webui:main
volumes:
- open-webui:/app/backend/data
environment:
- OLLAMA_BASE_URL=http://host.docker.internal:11434
extra_hosts:
- host.docker.internal:host-gateway
labels:
- traefik.enable=true
- traefik.http.routers.webui.rule=Host(`chat.deinedomain.de`)
- traefik.http.routers.webui.entrypoints=websecure
- traefik.http.routers.webui.tls.certresolver=letsencrypt
restart: always
volumes:
open-webui:
Tipp: Ersetze
chat.deinedomain.demit deiner Domain und stelle sicher, dass der DNS A-Record auf deine Server-IP zeigt.
Bonus: Ollama mit n8n verbinden
n8n hat einen nativen Ollama-Node für kostenlose KI-Automatisierungen:
- Füge einen 'Ollama' Node zu deinem Workflow hinzu
- Konfiguriere die Base URL:
http://localhost:11434(wenn n8n auf demselben Server läuft) - Wähle dein Modell (z.B. llama3.2)
- Verbinde mit Chat Trigger für ein Chat-Interface oder anderen Triggern für Automatisierungen
Anwendungsfälle:
- E-Mails automatisch zusammenfassen und kategorisieren
- Support-Tickets analysieren und priorisieren
- Content für Social Media generieren
- Dokumente in strukturierte Daten umwandeln
Performance-Tuning
Hole das Maximum aus deinem Setup:
Mehr Context-Länge
Standardmäßig nutzt Ollama 2048 Tokens Context. Für längere Gespräche:
ollama run llama3.2 --num-ctx 4096
Modell vorwärmen
Lade das Modell beim Serverstart in den RAM für sofortige Antworten:
curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "prompt": "warmup", "stream": false}'
Monitoring
Überwache RAM-Auslastung während der Nutzung:
watch -n 1 'free -h'
Modell-Empfehlungen nach Anwendungsfall
| Anwendung | Modell | RAM | Befehl |
|---|---|---|---|
| Allgemeine Chats | Llama 3.2 8B | 10 GB | ollama pull llama3.2 |
| Code schreiben | DeepSeek Coder 6.7B | 10 GB | ollama pull deepseek-coder:6.7b |
| Deutsche Texte | Llama 3.2 8B Instruct | 10 GB | ollama pull llama3.2:8b-instruct |
| Schnelle Antworten | Mistral 7B | 10 GB | ollama pull mistral |
| Komplexe Analysen | Qwen 2.5 14B | 18 GB | ollama pull qwen2.5:14b |
| Bilder analysieren | LLaVA 7B | 10 GB | ollama pull llava |
Häufige Probleme
Ollama antwortet nicht von Remote
Prüfe:
- OLLAMA_HOST=0.0.0.0 gesetzt?
- Port 11434 in Firewall offen?
systemctl restart ollamaausgeführt?
Out of Memory Fehler
Modell ist zu groß für deinen RAM. Nutze ein kleineres Modell oder quantisierte Version (z.B. llama3.2:8b-q4_0).
Langsame Antworten
Normal auf CPU! Für 8B Modelle erwarte 5-15 Tokens/Sekunde. Für mehr Speed: Größerer VPS oder GPU-Server.
Open WebUI findet Ollama nicht
Prüfe OLLAMA_BASE_URL und ob --add-host=host.docker.internal:host-gateway gesetzt ist.
Fazit
Du hast jetzt einen vollständigen Ollama-Server mit Web-Interface und HTTPS. Deine Daten bleiben auf deinem Server, du zahlst keine API-Gebühren, und kannst unbegrenzt mit KI chatten.
Kosten im Vergleich: ChatGPT Plus kostet 240$/Jahr. Ein VPS mit Ollama kostet ~108€/Jahr – und du kannst darauf noch Vaultwarden als Passwort-Manager oder Immich für Fotos laufen lassen.
Häufig gestellte Fragen
Weitere Self-Hosting Guides
VPS für Ollama gesucht?
Für Llama 3.2 8B brauchst du mindestens 8 GB RAM. Für größere Modelle wie Qwen 14B: 16 GB.
Server mit 8+ GB RAM



