Whisper auf VPS installieren: Transkription sel...

Podcast-Episode transkribieren: 10 Minuten Audio kosten bei Otter.ai 0,30$. Bei Assembly AI 0,65$. Bei 50 Episoden pro Jahr summiert sich das auf 15-30€ – nur für Transkription.

Die Alternative: Ein VPS mit 4 GB RAM liegt bei vielen Anbietern im günstigen Einstiegssegment. Darauf läuft faster-whisper – eine optimierte Version von OpenAIs Whisper, die 4x schneller läuft bei gleicher Qualität. Keine API-Limits, keine Kosten pro Minute, volle Datenkontrolle.

In diesem Guide installierst du faster-whisper auf deinem eigenen Server. Danach hast du: Transkription in 100+ Sprachen, SRT/VTT-Untertitel auf Knopfdruck, und Audio-Dateien, die dein Netzwerk nie verlassen.

Welcher VPS für Whisper?

Unser Rechner zeigt dir den passenden Server für dein Transkriptions-Volumen.

Zum Whisper VPS-Rechner

Was ist Whisper / faster-whisper?

Whisper ist OpenAIs Open-Source Speech-to-Text Modell. Es versteht 100+ Sprachen, erkennt Sprecher, setzt Satzzeichen – und ist kostenlos.

faster-whisper ist eine Community-Optimierung, die CTranslate2 nutzt. Ergebnis:

	Original Whisper	faster-whisper
Geschwindigkeit	1x (Baseline)	4x schneller
RAM-Verbrauch	Hoch	50% weniger
Qualität	Identisch	Identisch
GPU-Support	Ja	Ja
CPU-only	Langsam	Nutzbar

Fazit: Für Self-Hosting auf CPU-Servern ist faster-whisper die einzig sinnvolle Option.

Warum Whisper selbst hosten?

Kosten: Planbare VPS-Fixkosten statt nutzungsabhängiger Abrechnung pro Minute
Datenschutz: Interviews, Meetings, vertrauliche Gespräche bleiben bei dir (DSGVO-konform)
Keine Limits: Transkribiere unbegrenzt – nachts, am Wochenende, wann du willst
Offline-fähig: Einmal installiert, keine Internet-Abhängigkeit

Voraussetzungen

Bevor wir starten, brauchst du:

VPS mit mindestens 4 GB RAM (für Small-Modell). Noch keinen? Aktuelle 4-GB-Server vergleichen →
Ubuntu 22.04 oder 24.04 (Debian funktioniert auch)
SSH-Zugang zum Server
Domain (optional, für Web-Interface mit HTTPS)

Modell-Anforderungen

Modell	RAM (CPU)	Qualität	Geschwindigkeit
Tiny	2 GB	Ausreichend	Sehr schnell
Base	2 GB	Gut	Schnell
Small	4 GB	Sehr gut für Deutsch	Mittel
Medium	8 GB	Exzellent	Langsam
Large-v3	12+ GB	Beste	Sehr langsam

Empfehlung für Deutsch: Das small Modell bietet die beste Balance. Large-v3 lohnt sich nur bei schwierigen Akzenten oder Fachvokabular.

Server für Whisper gesucht?

Für das Small-Modell brauchst du 4 GB RAM. Für Medium oder parallele Transkription: 8 GB.

Server mit 4+ GB RAM

Schritt 1: Server vorbereiten

Verbinde dich per SSH und aktualisiere das System:

ssh root@deine-server-ip
apt update && apt upgrade -y

Docker installieren:

curl -fsSL https://get.docker.com | sh
apt install docker-compose-plugin -y

Schritt 2: Whisper mit Web-Interface (Empfohlen)

Für die meisten Nutzer ist ein Web-Interface am praktischsten. Wir nutzen Whishper – eine fertige Lösung mit faster-whisper, Upload-Interface und automatischer Untertitel-Generierung.

2.1 Docker Compose Setup

Erstelle einen Ordner und die Konfiguration:

mkdir -p /opt/whisper && cd /opt/whisper
nano docker-compose.yml

Inhalt:

version: "3"

services:
  whishper:
    image: pluja/whishper:latest
    restart: unless-stopped
    ports:
      - "5000:80"
    environment:
      # Modell: tiny, base, small, medium, large-v3
      - WHISPER_MODEL=small
      # Sprache: de, en, auto (auto-detect)
      - WHISPER_LANG=de
      # Performance: int8 für CPU, float16 für GPU
      - COMPUTE_TYPE=int8
    volumes:
      - whisper_data:/app/data
      - whisper_models:/root/.cache/huggingface

volumes:
  whisper_data:
  whisper_models:

2.2 Starten

docker compose up -d

Der erste Start lädt das Modell (~500 MB für Small) – das dauert 2-5 Minuten.

2.3 Testen

Öffne http://deine-server-ip:5000 im Browser. Du siehst ein Upload-Interface:

Audio- oder Video-Datei hochladen
Sprache wählen (oder Auto-Detect)
Output-Format wählen (TXT, SRT, VTT, JSON)
"Transcribe" klicken

Hinweis: Auf CPU dauert die Transkription etwa 1x Echtzeit (1h Audio = 1h Verarbeitung) mit dem Small-Modell.

Alternative: CLI für Automatisierung

Wenn du Transkription automatisieren willst (z.B. neue Dateien automatisch verarbeiten), ist die CLI-Version besser geeignet.

faster-whisper CLI mit Docker

# Audio-Datei transkribieren
docker run --rm -v $(pwd):/data \
  fedirz/faster-whisper-xxl \
  --model small \
  --language de \
  --output_format srt \
  /data/podcast.mp3

# Output: podcast.srt im aktuellen Ordner

Batch-Processing Script

Für mehrere Dateien:

#!/bin/bash
# transcribe-all.sh

INPUT_DIR="/data/audio"
OUTPUT_DIR="/data/transcripts"

for file in "$INPUT_DIR"/*.mp3; do
  filename=$(basename "$file" .mp3)
  docker run --rm \
    -v "$INPUT_DIR":/input \
    -v "$OUTPUT_DIR":/output \
    fedirz/faster-whisper-xxl \
    --model small \
    --language de \
    --output_format srt \
    --output_dir /output \
    "/input/$(basename $file)"
  echo "Fertig: $filename"
done

Schritt 3: Reverse Proxy mit HTTPS

Für sicheren Zugriff von außen richten wir Caddy als Reverse Proxy ein:

apt install -y caddy

/etc/caddy/Caddyfile:

whisper.deine-domain.de {
    reverse_proxy localhost:5000
}

systemctl reload caddy

Caddy holt automatisch ein Let's Encrypt Zertifikat. Dein Whisper-Interface ist jetzt unter https://whisper.deine-domain.de erreichbar.

Performance-Optimierung

compute_type richtig wählen

Der wichtigste Performance-Parameter für CPU-Server:

compute_type	Geschwindigkeit	Qualität	RAM
float32	Langsam	Beste	Hoch
float16	Mittel	Sehr gut	Mittel
int8	Schnell	Gut	Niedrig
int8_float16	Mittel	Sehr gut	Mittel

Für CPU-only Server immer int8 verwenden! Die Qualitätsunterschiede sind minimal, die Geschwindigkeit 2-3x höher.

Parallele Verarbeitung

Bei ausreichend RAM kannst du mehrere Dateien parallel transkribieren:

# In docker-compose.yml
services:
  whishper:
    # ...
    deploy:
      resources:
        limits:
          cpus: '4'
          memory: 8G

VAD (Voice Activity Detection) aktivieren

VAD überspringt Stille und beschleunigt die Transkription um 20-40%:

environment:
  - VAD_FILTER=true

Automatisierung mit n8n

Die Kombination aus Whisper und n8n ermöglicht mächtige Workflows. Hier ein Beispiel:

Workflow: Audio per E-Mail → Transkript zurück

Trigger: E-Mail mit Audio-Anhang empfangen
HTTP Request: Audio an Whisper API senden
Wait: Auf Transkription warten
E-Mail senden: Transkript als Anhang zurücksenden

In n8n:

[Email Trigger] → [HTTP Request to Whisper] → [Send Email with Transcript]

Whisper API-Endpunkt (wenn Whishper läuft):

POST http://localhost:5000/api/transcribe
Content-Type: multipart/form-data

file: [audio-file]
language: de
output_format: txt

Mehr zu n8n Self-Hosting: n8n Self-Hosting Guide →

Whisper kombinieren mit anderen Tools

Whisper + Ollama = Voice-to-LLM

Kombiniere Transkription mit KI-Analyse:

Audio mit Whisper transkribieren
Transkript an Ollama senden
Zusammenfassung, Analyse oder Antwort generieren

Anwendungsfall: Meeting aufnehmen → Transkribieren → Action Items extrahieren lassen

Whisper + Paperless = Audio-Archiv

Transkribiere Voice Memos und archiviere sie in Paperless-ngx:

Sprachnachricht aufnehmen
Mit Whisper transkribieren
Als durchsuchbares Dokument in Paperless ablegen

Kosten-Vergleich: Self-Hosting vs. Cloud

Service	Kosten für 10h Audio/Monat	Kosten für 100h Audio/Monat
OpenAI Whisper API	3,60€	36€
Assembly AI	6,50€	65€
Otter.ai Pro	10€ (Abo)	10€ (Abo)
Self-Hosting	VPS-Fixkosten	VPS-Fixkosten

Break-Even: Ab ~14h Transkription pro Monat ist Self-Hosting günstiger als OpenAI. Plus: Keine Datenweitergabe an Dritte.

Häufige Probleme

Transkription ist sehr langsam

Prüfe compute_type: Nutze int8 statt float32
Modell verkleinern: small statt medium
VAD aktivieren: Überspringt Stille

Out of Memory Fehler

Das Modell ist zu groß für deinen RAM:

RuntimeError: CUDA out of memory
# oder
Killed (OOM)

Lösung: Kleineres Modell nutzen oder VPS upgraden.

Schlechte Qualität bei deutschen Texten

Sprache explizit setzen: --language de statt Auto-Detect
Größeres Modell: small statt tiny
Prompt nutzen: Bei Fachvokabular einen initialen Prompt setzen

Docker-Container startet nicht

# Logs prüfen
docker compose logs -f

# Neustart
docker compose down && docker compose up -d

Fazit

Du hast jetzt einen eigenen Transkriptions-Server mit faster-whisper. Deine Audio-Daten bleiben bei dir, du zahlst keine API-Gebühren pro Minute, und kannst unbegrenzt transkribieren.

Für Podcaster: Automatische Shownotes und Untertitel für jede Episode.

Für Content Creator: YouTube-Untertitel in Minuten statt Stunden.

Für DSGVO-Bewusste: Interviews und Meetings ohne Cloud-Upload.

Nächster Schritt: Kombiniere Whisper mit Ollama für KI-Analyse oder n8n für Automatisierung.

Häufig gestellte Fragen

Wie lange dauert die Transkription auf CPU?

Mit faster-whisper und int8: Etwa 1x Echtzeit (1h Audio = 1h Verarbeitung) mit dem Small-Modell. Mit GPU wäre es 10-20x schneller.

Welches Modell ist am besten für deutsche Podcasts?

Das 'small' Modell bietet die beste Balance aus Qualität und Geschwindigkeit. Large-v3 ist nur bei schwierigen Akzenten oder Fachvokabular besser.

Kann Whisper Sprecher unterscheiden?

Nein, Whisper selbst kann keine Speaker Diarization. Dafür brauchst du zusätzlich pyannote-audio oder eine Lösung wie Whishper, die das integriert.

Brauche ich eine GPU für Whisper?

Nein, faster-whisper läuft auch auf CPU akzeptabel. GPU beschleunigt nur – für gelegentliche Transkription reicht CPU völlig.

Wie viel Speicherplatz brauche ich?

Die Modelle brauchen 75 MB (Tiny) bis 3 GB (Large). Dazu kommen deine Audio-Dateien. 30 GB SSD reichen für den Start.

Weitere Self-Hosting Guides

Ollama auf VPS installieren

Lokale KI mit Open WebUI

Lesen

n8n Self-Hosting Guide

Docker Setup Schritt für Schritt

Lesen

Paperless-ngx Guide

Papierloses Büro selbst hosten

Lesen

Passenden VPS für Whisper finden

Nutze unseren Rechner um den optimalen Server für deine Transkriptions-Anforderungen zu finden.

Zum Whisper VPS-Rechner

Welcher VPS für Whisper?

Was ist Whisper / faster-whisper?

Warum Whisper selbst hosten?

Voraussetzungen

Modell-Anforderungen

Server für Whisper gesucht?

Schritt 1: Server vorbereiten

Schritt 2: Whisper mit Web-Interface (Empfohlen)

2.1 Docker Compose Setup

2.2 Starten

2.3 Testen

Alternative: CLI für Automatisierung

faster-whisper CLI mit Docker

Batch-Processing Script

Schritt 3: Reverse Proxy mit HTTPS

Performance-Optimierung

compute_type richtig wählen

Parallele Verarbeitung

VAD (Voice Activity Detection) aktivieren

Automatisierung mit n8n

Workflow: Audio per E-Mail → Transkript zurück

Whisper kombinieren mit anderen Tools

Whisper + Ollama = Voice-to-LLM

Whisper + Paperless = Audio-Archiv

Kosten-Vergleich: Self-Hosting vs. Cloud

Häufige Probleme

Transkription ist sehr langsam

Out of Memory Fehler

Schlechte Qualität bei deutschen Texten

Docker-Container startet nicht

Fazit

Häufig gestellte Fragen

Weitere Self-Hosting Guides

Ollama auf VPS installieren

n8n Self-Hosting Guide

Paperless-ngx Guide

Passenden VPS für Whisper finden

Whisper Self-Hosting: Transkription auf eigenem Server

Verwandte Artikel

Welches LLM läuft auf deinem VPS? Der Hardware-Guide 2026

No-Code KI-App-Builder: eigener VPS vs. IONOS AI App & Site Builder

KI-Telefonassistent: selbst hosten vs. IONOS AI Receptionist