RackDiff
Whisper Self-Hosting: Transkription auf eigenem Server

Whisper Self-Hosting: Transkription auf eigenem Server

OpenAIs Whisper auf eigenem VPS: DSGVO-konform, keine API-Kosten, unbegrenzte Nutzung.

Lade passende Angebote...

Was ist Whisper?

Whisper ist OpenAIs Speech-to-Text Modell – komplett Open Source und lokal ausführbar. Es transkribiert Audio in über 90 Sprachen und erkennt deutsche Dialekte zuverlässig.

Anders als Cloud-Dienste zahlst du keine API-Kosten und deine Audio-Daten bleiben privat. Perfekt für vertrauliche Interviews, Kundengespräche oder sensible Meeting-Aufnahmen.

Whisper vs. Cloud-Dienste

Google Speech-to-Text kostet $0.006 pro 15 Sekunden. Bei 10 Stunden Podcast pro Monat sind das ~$15. Ein VPS für 5€/Monat transkribiert unbegrenzt – und deine Daten verlassen nie deinen Server.

Für DSGVO-sensible Inhalte (Interviews, Kundengespräche, Patientendaten) ist Self-Hosting die einzige sichere Option. Keine Drittanbieter, keine Datenweitergabe.

DienstKosten/Monat (10h Audio)Datenschutz
Google Speech-to-Text~$15US-Cloud
AWS Transcribe~$14US-Cloud
Whisper API (OpenAI)~$6US-Cloud
Whisper Self-Hosted~5€ VPS100% lokal

faster-whisper: Die bessere Alternative

faster-whisper nutzt CTranslate2 und ist 4x schneller als das Original bei gleicher Genauigkeit. Auf einem 4-Core VPS transkribierst du damit 1 Stunde Audio in etwa 15-20 Minuten statt 60+ Minuten.

Installation via Docker: Eine docker-compose.yml genügt, und du hast ein produktionsreifes Transkriptions-Setup mit REST-API.

Hardware-Anforderungen nach Modell

Der RAM-Bedarf hängt vom gewählten Modell ab. Für deutsche Sprache bietet das 'Small'-Modell das beste Verhältnis aus Geschwindigkeit und Genauigkeit.

ModellRAMDauer (1h Audio)Qualität Deutsch
Tiny2 GB~8 MinAusreichend
Base2 GB~15 MinGut
Small4 GB~20 MinSehr gut
Medium8 GB~40 MinExzellent
Large-v312 GB~60+ MinBeste

Unsere Empfehlung

Für gelegentliche Transkription mit dem Small-Modell reicht Hetzner CX22 mit 4 GB RAM für etwa 4€/Monat.

Für regelmäßige Nutzung oder das Medium-Modell empfehlen wir Contabo Cloud VPS S mit 8 GB RAM für circa 6€/Monat.

Für Batch-Processing großer Audio-Mengen: Contabo Cloud VPS M mit 16 GB RAM für etwa 10€/Monat.

Häufig gestellte Fragen

Verwandte Artikel