Podcast-Episode transkribieren: 10 Minuten Audio kosten bei Otter.ai 0,30$. Bei Assembly AI 0,65$. Bei 50 Episoden pro Jahr summiert sich das auf 15-30€ – nur für Transkription.
Die Alternative: Ein VPS mit 4 GB RAM liegt bei vielen Anbietern im günstigen Einstiegssegment. Darauf läuft faster-whisper – eine optimierte Version von OpenAIs Whisper, die 4x schneller läuft bei gleicher Qualität. Keine API-Limits, keine Kosten pro Minute, volle Datenkontrolle.
In diesem Guide installierst du faster-whisper auf deinem eigenen Server. Danach hast du: Transkription in 100+ Sprachen, SRT/VTT-Untertitel auf Knopfdruck, und Audio-Dateien, die dein Netzwerk nie verlassen.
Welcher VPS für Whisper?
Unser Rechner zeigt dir den passenden Server für dein Transkriptions-Volumen.
Zum Whisper VPS-RechnerWas ist Whisper / faster-whisper?
Whisper ist OpenAIs Open-Source Speech-to-Text Modell. Es versteht 100+ Sprachen, erkennt Sprecher, setzt Satzzeichen – und ist kostenlos.
faster-whisper ist eine Community-Optimierung, die CTranslate2 nutzt. Ergebnis:
| Original Whisper | faster-whisper | |
|---|---|---|
| Geschwindigkeit | 1x (Baseline) | 4x schneller |
| RAM-Verbrauch | Hoch | 50% weniger |
| Qualität | Identisch | Identisch |
| GPU-Support | Ja | Ja |
| CPU-only | Langsam | Nutzbar |
Fazit: Für Self-Hosting auf CPU-Servern ist faster-whisper die einzig sinnvolle Option.
Warum Whisper selbst hosten?
- Kosten: Planbare VPS-Fixkosten statt nutzungsabhängiger Abrechnung pro Minute
- Datenschutz: Interviews, Meetings, vertrauliche Gespräche bleiben bei dir (DSGVO-konform)
- Keine Limits: Transkribiere unbegrenzt – nachts, am Wochenende, wann du willst
- Offline-fähig: Einmal installiert, keine Internet-Abhängigkeit
Voraussetzungen
Bevor wir starten, brauchst du:
- VPS mit mindestens 4 GB RAM (für Small-Modell). Noch keinen? Aktuelle 4-GB-Server vergleichen →
- Ubuntu 22.04 oder 24.04 (Debian funktioniert auch)
- SSH-Zugang zum Server
- Domain (optional, für Web-Interface mit HTTPS)
Modell-Anforderungen
| Modell | RAM (CPU) | Qualität | Geschwindigkeit |
|---|---|---|---|
| Tiny | 2 GB | Ausreichend | Sehr schnell |
| Base | 2 GB | Gut | Schnell |
| Small | 4 GB | Sehr gut für Deutsch | Mittel |
| Medium | 8 GB | Exzellent | Langsam |
| Large-v3 | 12+ GB | Beste | Sehr langsam |
Empfehlung für Deutsch: Das small Modell bietet die beste Balance. Large-v3 lohnt sich nur bei schwierigen Akzenten oder Fachvokabular.
Server für Whisper gesucht?
Für das Small-Modell brauchst du 4 GB RAM. Für Medium oder parallele Transkription: 8 GB.
Server mit 4+ GB RAMSchritt 1: Server vorbereiten
Verbinde dich per SSH und aktualisiere das System:
ssh root@deine-server-ip
apt update && apt upgrade -y
Docker installieren:
curl -fsSL https://get.docker.com | sh
apt install docker-compose-plugin -y
Schritt 2: Whisper mit Web-Interface (Empfohlen)
Für die meisten Nutzer ist ein Web-Interface am praktischsten. Wir nutzen Whishper – eine fertige Lösung mit faster-whisper, Upload-Interface und automatischer Untertitel-Generierung.
2.1 Docker Compose Setup
Erstelle einen Ordner und die Konfiguration:
mkdir -p /opt/whisper && cd /opt/whisper
nano docker-compose.yml
Inhalt:
version: "3"
services:
whishper:
image: pluja/whishper:latest
restart: unless-stopped
ports:
- "5000:80"
environment:
# Modell: tiny, base, small, medium, large-v3
- WHISPER_MODEL=small
# Sprache: de, en, auto (auto-detect)
- WHISPER_LANG=de
# Performance: int8 für CPU, float16 für GPU
- COMPUTE_TYPE=int8
volumes:
- whisper_data:/app/data
- whisper_models:/root/.cache/huggingface
volumes:
whisper_data:
whisper_models:
2.2 Starten
docker compose up -d
Der erste Start lädt das Modell (~500 MB für Small) – das dauert 2-5 Minuten.
2.3 Testen
Öffne http://deine-server-ip:5000 im Browser. Du siehst ein Upload-Interface:
- Audio- oder Video-Datei hochladen
- Sprache wählen (oder Auto-Detect)
- Output-Format wählen (TXT, SRT, VTT, JSON)
- "Transcribe" klicken
Hinweis: Auf CPU dauert die Transkription etwa 1x Echtzeit (1h Audio = 1h Verarbeitung) mit dem Small-Modell.
Alternative: CLI für Automatisierung
Wenn du Transkription automatisieren willst (z.B. neue Dateien automatisch verarbeiten), ist die CLI-Version besser geeignet.
faster-whisper CLI mit Docker
# Audio-Datei transkribieren
docker run --rm -v $(pwd):/data \
fedirz/faster-whisper-xxl \
--model small \
--language de \
--output_format srt \
/data/podcast.mp3
# Output: podcast.srt im aktuellen Ordner
Batch-Processing Script
Für mehrere Dateien:
#!/bin/bash
# transcribe-all.sh
INPUT_DIR="/data/audio"
OUTPUT_DIR="/data/transcripts"
for file in "$INPUT_DIR"/*.mp3; do
filename=$(basename "$file" .mp3)
docker run --rm \
-v "$INPUT_DIR":/input \
-v "$OUTPUT_DIR":/output \
fedirz/faster-whisper-xxl \
--model small \
--language de \
--output_format srt \
--output_dir /output \
"/input/$(basename $file)"
echo "Fertig: $filename"
done
Schritt 3: Reverse Proxy mit HTTPS
Für sicheren Zugriff von außen richten wir Caddy als Reverse Proxy ein:
apt install -y caddy
/etc/caddy/Caddyfile:
whisper.deine-domain.de {
reverse_proxy localhost:5000
}
systemctl reload caddy
Caddy holt automatisch ein Let's Encrypt Zertifikat. Dein Whisper-Interface ist jetzt unter https://whisper.deine-domain.de erreichbar.
Performance-Optimierung
compute_type richtig wählen
Der wichtigste Performance-Parameter für CPU-Server:
| compute_type | Geschwindigkeit | Qualität | RAM |
|---|---|---|---|
| float32 | Langsam | Beste | Hoch |
| float16 | Mittel | Sehr gut | Mittel |
| int8 | Schnell | Gut | Niedrig |
| int8_float16 | Mittel | Sehr gut | Mittel |
Für CPU-only Server immer int8 verwenden! Die Qualitätsunterschiede sind minimal, die Geschwindigkeit 2-3x höher.
Parallele Verarbeitung
Bei ausreichend RAM kannst du mehrere Dateien parallel transkribieren:
# In docker-compose.yml
services:
whishper:
# ...
deploy:
resources:
limits:
cpus: '4'
memory: 8G
VAD (Voice Activity Detection) aktivieren
VAD überspringt Stille und beschleunigt die Transkription um 20-40%:
environment:
- VAD_FILTER=true
Automatisierung mit n8n
Die Kombination aus Whisper und n8n ermöglicht mächtige Workflows. Hier ein Beispiel:
Workflow: Audio per E-Mail → Transkript zurück
- Trigger: E-Mail mit Audio-Anhang empfangen
- HTTP Request: Audio an Whisper API senden
- Wait: Auf Transkription warten
- E-Mail senden: Transkript als Anhang zurücksenden
In n8n:
[Email Trigger] → [HTTP Request to Whisper] → [Send Email with Transcript]
Whisper API-Endpunkt (wenn Whishper läuft):
POST http://localhost:5000/api/transcribe
Content-Type: multipart/form-data
file: [audio-file]
language: de
output_format: txt
Mehr zu n8n Self-Hosting: n8n Self-Hosting Guide →
Whisper kombinieren mit anderen Tools
Whisper + Ollama = Voice-to-LLM
Kombiniere Transkription mit KI-Analyse:
- Audio mit Whisper transkribieren
- Transkript an Ollama senden
- Zusammenfassung, Analyse oder Antwort generieren
Anwendungsfall: Meeting aufnehmen → Transkribieren → Action Items extrahieren lassen
Whisper + Paperless = Audio-Archiv
Transkribiere Voice Memos und archiviere sie in Paperless-ngx:
- Sprachnachricht aufnehmen
- Mit Whisper transkribieren
- Als durchsuchbares Dokument in Paperless ablegen
Kosten-Vergleich: Self-Hosting vs. Cloud
| Service | Kosten für 10h Audio/Monat | Kosten für 100h Audio/Monat |
|---|---|---|
| OpenAI Whisper API | 3,60€ | 36€ |
| Assembly AI | 6,50€ | 65€ |
| Otter.ai Pro | 10€ (Abo) | 10€ (Abo) |
| Self-Hosting | VPS-Fixkosten | VPS-Fixkosten |
Break-Even: Ab ~14h Transkription pro Monat ist Self-Hosting günstiger als OpenAI. Plus: Keine Datenweitergabe an Dritte.
Häufige Probleme
Transkription ist sehr langsam
- Prüfe compute_type: Nutze
int8stattfloat32 - Modell verkleinern:
smallstattmedium - VAD aktivieren: Überspringt Stille
Out of Memory Fehler
Das Modell ist zu groß für deinen RAM:
RuntimeError: CUDA out of memory
# oder
Killed (OOM)
Lösung: Kleineres Modell nutzen oder VPS upgraden.
Schlechte Qualität bei deutschen Texten
- Sprache explizit setzen:
--language destatt Auto-Detect - Größeres Modell:
smallstatttiny - Prompt nutzen: Bei Fachvokabular einen initialen Prompt setzen
Docker-Container startet nicht
# Logs prüfen
docker compose logs -f
# Neustart
docker compose down && docker compose up -d
Fazit
Du hast jetzt einen eigenen Transkriptions-Server mit faster-whisper. Deine Audio-Daten bleiben bei dir, du zahlst keine API-Gebühren pro Minute, und kannst unbegrenzt transkribieren.
Für Podcaster: Automatische Shownotes und Untertitel für jede Episode.
Für Content Creator: YouTube-Untertitel in Minuten statt Stunden.
Für DSGVO-Bewusste: Interviews und Meetings ohne Cloud-Upload.
Nächster Schritt: Kombiniere Whisper mit Ollama für KI-Analyse oder n8n für Automatisierung.
Häufig gestellte Fragen
Weitere Self-Hosting Guides
Passenden VPS für Whisper finden
Nutze unseren Rechner um den optimalen Server für deine Transkriptions-Anforderungen zu finden.
Zum Whisper VPS-Rechner



