RackDiff
Alle Guides

Local LLM Coding Agent: Setup-Guide für 16GB RAM VPS (2026)

Ollama + Continue.dev auf VPS einrichten. Warum Cline einfriert, welches Modell bei 16GB RAM stabil läuft, und wie du deinen eigenen AI Coding Assistant hostest.

Dirk Hesse
5. Februar 2026
6 Min. Lesezeit

"Mein Cline friert ständig ein." – Ein Satz, der in r/LocalLLaMA täglich auftaucht. Die Lösung ist meist dieselbe: Falsches Modell, zu wenig RAM-Headroom, oder ein OOM-Killer, der zuschlägt.

Dieser Guide zeigt dir, wie du einen stabilen AI Coding Assistant auf einem 16GB RAM VPS einrichtest. Kein Einfrieren, keine Timeouts, volle Datenkontrolle.

💡 Noch keinen VPS? Unser Ollama VPS-Rechner berechnet die Hardware für dein Modell.

Falls du Ollama noch nicht installiert hast, starte mit unserem Ollama VPS Setup Guide.

Das Problem: Warum Cline auf deinem VPS einfriert

Die meisten Freezes haben drei Ursachen:

1. Memory Pressure

Ein 14B-Modell in Q4-Quantisierung braucht ~8-10 GB RAM. Klingt okay bei 16 GB – aber:

  • Linux Kernel: ~500 MB
  • Docker Overhead: ~200 MB
  • VS Code Server (Remote SSH): ~500 MB
  • Ollama Runtime: ~300 MB

Verfügbar fürs Modell: ~14 GB. Bei 10 GB Modell + 4 GB Context bleibt kein Spielraum mehr. Ein einziger größerer Request triggert den OOM-Killer.

2. Falsche Quantisierung

Nicht alle Q4-Varianten sind gleich:

  • Q4_K_M: Beste Balance aus Qualität und Größe
  • Q4_K_S: Kleiner, aber merkbar schlechtere Code-Qualität
  • Q8_0: Zu groß für 16 GB bei 14B-Modellen

3. Context Window Overflow

Cline sendet oft den gesamten Datei-Kontext. Bei einem 32K Context Window und großen Dateien explodiert der RAM-Bedarf.


Die Lösung: Das richtige Setup

Hardware-Empfehlung: 16 GB RAM VPS

Für stabiles LLM-Hosting brauchst du mindestens 16 GB RAM und 8 vCPUs. Hier die besten Optionen:

AnbieterProduktvCPURAMStoragePreis/Mo
IONOS Logo
IONOS VPS Linux S+22 GB80 GBNVMe SSD2.50Angebot
Netcup Logo
VPS 500 G1224 GB128 GBSSD5.91Angebot
Hetzner Logo
CPX42816 GB240 GBNVMe SSD30.33Angebot
Contabo Logo
AMD Ryzen 12 Cores1264 GB1000 GBNVMe SSD102.82Angebot

Warum diese Specs?

  • 16 GB RAM = 7B-Modell + 6 GB Headroom für System und IDE
  • 8 vCPUs = Schnelle Token-Generierung (~30-50 tokens/s)
  • NVMe SSD = Schnelles Modell-Loading

Ein Hetzner CX32 oder IONOS VPS L reicht für dieses Setup völlig aus.

Noch keinen VPS?

Für dieses Setup brauchst du mindestens 16GB RAM.

16GB VPS ab 9,99€ vergleichen

Schritt 1: Modell-Auswahl (Der wichtigste Schritt)

Vergiss 14B-Modelle auf 16 GB RAM. Sie funktionieren – bis sie es nicht mehr tun.

Empfehlung: Qwen2.5-Coder-7B-Instruct

EigenschaftWert
Parameter7 Milliarden
QuantisierungQ5_K_M (empfohlen)
RAM-Bedarf~5.5 GB
Context32K tokens
StärkenCode-Completion, Refactoring, Erklärungen

Warum nicht größer?

Ein 7B-Modell mit Q5-Quantisierung schlägt ein 14B-Modell mit Q4 in der Praxis, weil:

  1. Mehr RAM-Headroom = Keine Freezes bei großen Requests
  2. Schnellere Inferenz = Bessere IDE-Integration
  3. Höhere Quantisierung = Bessere Code-Qualität pro Parameter

Alternative: DeepSeek-Coder-V2-Lite-Instruct

Falls du mehr "Reasoning" brauchst (komplexe Architektur-Fragen):

EigenschaftWert
Parameter16B (MoE, effektiv ~2.4B aktiv)
QuantisierungQ4_K_M
RAM-Bedarf~6 GB
StärkenKomplexe Code-Analyse, Multi-File Reasoning

DeepSeek nutzt Mixture-of-Experts – nur ein Teil der Parameter ist aktiv, daher der niedrige RAM-Bedarf trotz 16B.

Download-Links (Hugging Face)


Schritt 2: Ollama mit Ressourcen-Limits

Standard-Ollama frisst allen verfügbaren RAM. Für Stabilität brauchen wir Limits.

docker-compose.yml

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: unless-stopped
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    environment:
      - OLLAMA_NUM_PARALLEL=1
      - OLLAMA_MAX_LOADED_MODELS=1
      - OLLAMA_FLASH_ATTENTION=1
    deploy:
      resources:
        limits:
          memory: 12G
        reservations:
          memory: 8G

volumes:
  ollama_data:

Wichtige Einstellungen erklärt

VariableWertWarum
OLLAMA_NUM_PARALLEL1Verhindert parallele Requests, die RAM sprengen
OLLAMA_MAX_LOADED_MODELS1Nur ein Modell im RAM (kein Swap zwischen Modellen)
OLLAMA_FLASH_ATTENTION1Effizientere Attention-Berechnung
memory: 12GLimit4 GB bleiben fürs System

Modell laden

docker compose up -d
docker exec -it ollama ollama pull qwen2.5-coder:7b-instruct-q5_K_M

Schritt 3: Continue.dev statt Cline

Cline ist mächtig, aber frisst zu viel RAM. Für Remote-Ollama auf VPS empfehle ich Continue.dev:

Warum Continue.dev?

FeatureClineContinue.dev
Tab-AutocompleteNeinJa
Chat + EditJaJa
Memory FootprintHochNiedrig
Ollama-StabilitätProblematischExcellent
Open SourceJaJa

Installation

  1. VS Code Extension: "Continue" installieren
  2. Config erstellen: ~/.continue/config.json
{
  "models": [
    {
      "title": "Qwen Coder",
      "provider": "ollama",
      "model": "qwen2.5-coder:7b-instruct-q5_K_M",
      "apiBase": "http://YOUR_VPS_IP:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "Qwen Autocomplete",
    "provider": "ollama",
    "model": "qwen2.5-coder:7b-instruct-q5_K_M",
    "apiBase": "http://YOUR_VPS_IP:11434"
  }
}

SSH-Tunnel (Empfohlen)

Statt Port 11434 öffentlich zu exponieren:

ssh -L 11434:localhost:11434 user@YOUR_VPS_IP

Dann in der Config apiBase: "http://localhost:11434" nutzen.


Schritt 4: Anti-Freeze Optimierungen

OOM-Killer Tuning

Verhindere, dass Linux Ollama killt:

# Ollama-Prozess vor OOM-Killer schützen
echo -1000 | sudo tee /proc/$(pgrep ollama)/oom_score_adj

Für permanente Lösung in /etc/systemd/system/ollama.service.d/override.conf:

[Service]
OOMScoreAdjust=-1000

Swap-File (Notfall-Buffer)

Ein kleines Swap-File als Sicherheitsnetz:

sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

Achtung: Swap ist nur für Notfälle. Wenn Ollama regelmäßig swappt, ist das Modell zu groß.

Context-Limit in Continue.dev

Begrenze den Context, den Continue sendet:

{
  "contextProviders": [
    {
      "name": "code",
      "params": {
        "nRetrieve": 10,
        "nFinal": 5
      }
    }
  ]
}

Kostenvergleich: VPS vs. Cloud APIs

LösungKostenTokensDatenschutz
GPT-4 API~20-50 Euro mtl.*BegrenztDaten bei OpenAI
Claude API~20-40 Euro mtl.*BegrenztDaten bei Anthropic
16GB VPS + Ollama~10-15 Euro mtl.UnbegrenztVolle Kontrolle

*Bei typischer Entwickler-Nutzung (50-100K Tokens/Tag)

Break-Even: Nach ~2 Wochen intensiver Nutzung hat sich der VPS amortisiert.


FAQ

Häufig gestellte Fragen


Fazit

Ein lokaler LLM Coding Assistant auf einem 16GB VPS ist 2026 absolut machbar – wenn du das richtige Setup wählst:

  1. 7B-Modell statt 14B (Stabilität > Größe)
  2. Q5_K_M Quantisierung für beste Code-Qualität
  3. Continue.dev statt Cline für Remote-Ollama
  4. Docker mit Memory-Limits gegen Freezes
  5. SSH-Tunnel für Sicherheit

Die Kosten: ~10-15 Euro mtl. für unbegrenzte, private AI-Coding-Power.

Passender VPS-Rechner

LocalLLaMA: KI-Modelle selbst hosten

Agentic Coding & Local LLMs auf eigener Hardware – inspiriert von r/LocalLLaMA.

Zum VPS-Rechner

Verwandte Artikel