RackDiff
Alle Guides

Whisper auf VPS installieren: Transkription selbst hosten 2026

Schritt-für-Schritt: faster-whisper mit Docker installieren, Web-Interface einrichten, Transkription automatisieren. Inkl. Performance-Tipps für CPU-only Server.

Dirk Hesse
5. Februar 2026
8 Min. Lesezeit

Podcast-Episode transkribieren: 10 Minuten Audio kosten bei Otter.ai 0,30$. Bei Assembly AI 0,65$. Bei 50 Episoden pro Jahr summiert sich das auf 15-30€ – nur für Transkription.

Die Alternative: Ein VPS mit 4 GB RAM liegt bei vielen Anbietern im günstigen Einstiegssegment. Darauf läuft faster-whisper – eine optimierte Version von OpenAIs Whisper, die 4x schneller läuft bei gleicher Qualität. Keine API-Limits, keine Kosten pro Minute, volle Datenkontrolle.

In diesem Guide installierst du faster-whisper auf deinem eigenen Server. Danach hast du: Transkription in 100+ Sprachen, SRT/VTT-Untertitel auf Knopfdruck, und Audio-Dateien, die dein Netzwerk nie verlassen.

Welcher VPS für Whisper?

Unser Rechner zeigt dir den passenden Server für dein Transkriptions-Volumen.

Zum Whisper VPS-Rechner

Was ist Whisper / faster-whisper?

Whisper ist OpenAIs Open-Source Speech-to-Text Modell. Es versteht 100+ Sprachen, erkennt Sprecher, setzt Satzzeichen – und ist kostenlos.

faster-whisper ist eine Community-Optimierung, die CTranslate2 nutzt. Ergebnis:

Original Whisperfaster-whisper
Geschwindigkeit1x (Baseline)4x schneller
RAM-VerbrauchHoch50% weniger
QualitätIdentischIdentisch
GPU-SupportJaJa
CPU-onlyLangsamNutzbar

Fazit: Für Self-Hosting auf CPU-Servern ist faster-whisper die einzig sinnvolle Option.

Warum Whisper selbst hosten?

  • Kosten: Planbare VPS-Fixkosten statt nutzungsabhängiger Abrechnung pro Minute
  • Datenschutz: Interviews, Meetings, vertrauliche Gespräche bleiben bei dir (DSGVO-konform)
  • Keine Limits: Transkribiere unbegrenzt – nachts, am Wochenende, wann du willst
  • Offline-fähig: Einmal installiert, keine Internet-Abhängigkeit

Voraussetzungen

Bevor wir starten, brauchst du:

  • VPS mit mindestens 4 GB RAM (für Small-Modell). Noch keinen? Aktuelle 4-GB-Server vergleichen →
  • Ubuntu 22.04 oder 24.04 (Debian funktioniert auch)
  • SSH-Zugang zum Server
  • Domain (optional, für Web-Interface mit HTTPS)

Modell-Anforderungen

ModellRAM (CPU)QualitätGeschwindigkeit
Tiny2 GBAusreichendSehr schnell
Base2 GBGutSchnell
Small4 GBSehr gut für DeutschMittel
Medium8 GBExzellentLangsam
Large-v312+ GBBesteSehr langsam

Empfehlung für Deutsch: Das small Modell bietet die beste Balance. Large-v3 lohnt sich nur bei schwierigen Akzenten oder Fachvokabular.

Server für Whisper gesucht?

Für das Small-Modell brauchst du 4 GB RAM. Für Medium oder parallele Transkription: 8 GB.

Server mit 4+ GB RAM

Schritt 1: Server vorbereiten

Verbinde dich per SSH und aktualisiere das System:

ssh root@deine-server-ip
apt update && apt upgrade -y

Docker installieren:

curl -fsSL https://get.docker.com | sh
apt install docker-compose-plugin -y

Schritt 2: Whisper mit Web-Interface (Empfohlen)

Für die meisten Nutzer ist ein Web-Interface am praktischsten. Wir nutzen Whishper – eine fertige Lösung mit faster-whisper, Upload-Interface und automatischer Untertitel-Generierung.

2.1 Docker Compose Setup

Erstelle einen Ordner und die Konfiguration:

mkdir -p /opt/whisper && cd /opt/whisper
nano docker-compose.yml

Inhalt:

version: "3"

services:
  whishper:
    image: pluja/whishper:latest
    restart: unless-stopped
    ports:
      - "5000:80"
    environment:
      # Modell: tiny, base, small, medium, large-v3
      - WHISPER_MODEL=small
      # Sprache: de, en, auto (auto-detect)
      - WHISPER_LANG=de
      # Performance: int8 für CPU, float16 für GPU
      - COMPUTE_TYPE=int8
    volumes:
      - whisper_data:/app/data
      - whisper_models:/root/.cache/huggingface

volumes:
  whisper_data:
  whisper_models:

2.2 Starten

docker compose up -d

Der erste Start lädt das Modell (~500 MB für Small) – das dauert 2-5 Minuten.

2.3 Testen

Öffne http://deine-server-ip:5000 im Browser. Du siehst ein Upload-Interface:

  1. Audio- oder Video-Datei hochladen
  2. Sprache wählen (oder Auto-Detect)
  3. Output-Format wählen (TXT, SRT, VTT, JSON)
  4. "Transcribe" klicken

Hinweis: Auf CPU dauert die Transkription etwa 1x Echtzeit (1h Audio = 1h Verarbeitung) mit dem Small-Modell.


Alternative: CLI für Automatisierung

Wenn du Transkription automatisieren willst (z.B. neue Dateien automatisch verarbeiten), ist die CLI-Version besser geeignet.

faster-whisper CLI mit Docker

# Audio-Datei transkribieren
docker run --rm -v $(pwd):/data \
  fedirz/faster-whisper-xxl \
  --model small \
  --language de \
  --output_format srt \
  /data/podcast.mp3

# Output: podcast.srt im aktuellen Ordner

Batch-Processing Script

Für mehrere Dateien:

#!/bin/bash
# transcribe-all.sh

INPUT_DIR="/data/audio"
OUTPUT_DIR="/data/transcripts"

for file in "$INPUT_DIR"/*.mp3; do
  filename=$(basename "$file" .mp3)
  docker run --rm \
    -v "$INPUT_DIR":/input \
    -v "$OUTPUT_DIR":/output \
    fedirz/faster-whisper-xxl \
    --model small \
    --language de \
    --output_format srt \
    --output_dir /output \
    "/input/$(basename $file)"
  echo "Fertig: $filename"
done

Schritt 3: Reverse Proxy mit HTTPS

Für sicheren Zugriff von außen richten wir Caddy als Reverse Proxy ein:

apt install -y caddy

/etc/caddy/Caddyfile:

whisper.deine-domain.de {
    reverse_proxy localhost:5000
}
systemctl reload caddy

Caddy holt automatisch ein Let's Encrypt Zertifikat. Dein Whisper-Interface ist jetzt unter https://whisper.deine-domain.de erreichbar.


Performance-Optimierung

compute_type richtig wählen

Der wichtigste Performance-Parameter für CPU-Server:

compute_typeGeschwindigkeitQualitätRAM
float32LangsamBesteHoch
float16MittelSehr gutMittel
int8SchnellGutNiedrig
int8_float16MittelSehr gutMittel

Für CPU-only Server immer int8 verwenden! Die Qualitätsunterschiede sind minimal, die Geschwindigkeit 2-3x höher.

Parallele Verarbeitung

Bei ausreichend RAM kannst du mehrere Dateien parallel transkribieren:

# In docker-compose.yml
services:
  whishper:
    # ...
    deploy:
      resources:
        limits:
          cpus: '4'
          memory: 8G

VAD (Voice Activity Detection) aktivieren

VAD überspringt Stille und beschleunigt die Transkription um 20-40%:

environment:
  - VAD_FILTER=true

Automatisierung mit n8n

Die Kombination aus Whisper und n8n ermöglicht mächtige Workflows. Hier ein Beispiel:

Workflow: Audio per E-Mail → Transkript zurück

  1. Trigger: E-Mail mit Audio-Anhang empfangen
  2. HTTP Request: Audio an Whisper API senden
  3. Wait: Auf Transkription warten
  4. E-Mail senden: Transkript als Anhang zurücksenden

In n8n:

[Email Trigger] → [HTTP Request to Whisper] → [Send Email with Transcript]

Whisper API-Endpunkt (wenn Whishper läuft):

POST http://localhost:5000/api/transcribe
Content-Type: multipart/form-data

file: [audio-file]
language: de
output_format: txt

Mehr zu n8n Self-Hosting: n8n Self-Hosting Guide →


Whisper kombinieren mit anderen Tools

Whisper + Ollama = Voice-to-LLM

Kombiniere Transkription mit KI-Analyse:

  1. Audio mit Whisper transkribieren
  2. Transkript an Ollama senden
  3. Zusammenfassung, Analyse oder Antwort generieren

Anwendungsfall: Meeting aufnehmen → Transkribieren → Action Items extrahieren lassen

Whisper + Paperless = Audio-Archiv

Transkribiere Voice Memos und archiviere sie in Paperless-ngx:

  1. Sprachnachricht aufnehmen
  2. Mit Whisper transkribieren
  3. Als durchsuchbares Dokument in Paperless ablegen

Kosten-Vergleich: Self-Hosting vs. Cloud

ServiceKosten für 10h Audio/MonatKosten für 100h Audio/Monat
OpenAI Whisper API3,60€36€
Assembly AI6,50€65€
Otter.ai Pro10€ (Abo)10€ (Abo)
Self-HostingVPS-FixkostenVPS-Fixkosten

Break-Even: Ab ~14h Transkription pro Monat ist Self-Hosting günstiger als OpenAI. Plus: Keine Datenweitergabe an Dritte.


Häufige Probleme

Transkription ist sehr langsam

  • Prüfe compute_type: Nutze int8 statt float32
  • Modell verkleinern: small statt medium
  • VAD aktivieren: Überspringt Stille

Out of Memory Fehler

Das Modell ist zu groß für deinen RAM:

RuntimeError: CUDA out of memory
# oder
Killed (OOM)

Lösung: Kleineres Modell nutzen oder VPS upgraden.

Schlechte Qualität bei deutschen Texten

  • Sprache explizit setzen: --language de statt Auto-Detect
  • Größeres Modell: small statt tiny
  • Prompt nutzen: Bei Fachvokabular einen initialen Prompt setzen

Docker-Container startet nicht

# Logs prüfen
docker compose logs -f

# Neustart
docker compose down && docker compose up -d

Fazit

Du hast jetzt einen eigenen Transkriptions-Server mit faster-whisper. Deine Audio-Daten bleiben bei dir, du zahlst keine API-Gebühren pro Minute, und kannst unbegrenzt transkribieren.

Für Podcaster: Automatische Shownotes und Untertitel für jede Episode.

Für Content Creator: YouTube-Untertitel in Minuten statt Stunden.

Für DSGVO-Bewusste: Interviews und Meetings ohne Cloud-Upload.

Nächster Schritt: Kombiniere Whisper mit Ollama für KI-Analyse oder n8n für Automatisierung.


Häufig gestellte Fragen

Passenden VPS für Whisper finden

Nutze unseren Rechner um den optimalen Server für deine Transkriptions-Anforderungen zu finden.

Zum Whisper VPS-Rechner

Passender VPS-Rechner

Whisper Self-Hosting: Transkription auf eigenem Server

Podcasts transkribieren, Meeting-Protokolle erstellen, YouTube-Untertitel generieren.

Zum VPS-Rechner

Verwandte Artikel