Was ist Whisper?
Whisper ist OpenAIs Speech-to-Text Modell – komplett Open Source und lokal ausführbar. Es transkribiert Audio in über 90 Sprachen und erkennt deutsche Dialekte zuverlässig.
Anders als Cloud-Dienste zahlst du keine API-Kosten und deine Audio-Daten bleiben privat. Perfekt für vertrauliche Interviews, Kundengespräche oder sensible Meeting-Aufnahmen.
Whisper vs. Cloud-Dienste
Google Speech-to-Text kostet $0.006 pro 15 Sekunden. Bei 10 Stunden Podcast pro Monat sind das ~$15. Ein VPS für 5€/Monat transkribiert unbegrenzt – und deine Daten verlassen nie deinen Server.
Für DSGVO-sensible Inhalte (Interviews, Kundengespräche, Patientendaten) ist Self-Hosting die einzige sichere Option. Keine Drittanbieter, keine Datenweitergabe.
| Dienst | Kosten/Monat (10h Audio) | Datenschutz |
|---|---|---|
| Google Speech-to-Text | ~$15 | US-Cloud |
| AWS Transcribe | ~$14 | US-Cloud |
| Whisper API (OpenAI) | ~$6 | US-Cloud |
| Whisper Self-Hosted | ~5€ VPS | 100% lokal |
faster-whisper: Die bessere Alternative
faster-whisper nutzt CTranslate2 und ist 4x schneller als das Original bei gleicher Genauigkeit. Auf einem 4-Core VPS transkribierst du damit 1 Stunde Audio in etwa 15-20 Minuten statt 60+ Minuten.
Installation via Docker: Eine docker-compose.yml genügt, und du hast ein produktionsreifes Transkriptions-Setup mit REST-API.
Hardware-Anforderungen nach Modell
Der RAM-Bedarf hängt vom gewählten Modell ab. Für deutsche Sprache bietet das 'Small'-Modell das beste Verhältnis aus Geschwindigkeit und Genauigkeit.
| Modell | RAM | Dauer (1h Audio) | Qualität Deutsch |
|---|---|---|---|
| Tiny | 2 GB | ~8 Min | Ausreichend |
| Base | 2 GB | ~15 Min | Gut |
| Small | 4 GB | ~20 Min | Sehr gut |
| Medium | 8 GB | ~40 Min | Exzellent |
| Large-v3 | 12 GB | ~60+ Min | Beste |
Unsere Empfehlung
Für gelegentliche Transkription mit dem Small-Modell reicht Hetzner CX22 mit 4 GB RAM für etwa 4€/Monat.
Für regelmäßige Nutzung oder das Medium-Modell empfehlen wir Contabo Cloud VPS S mit 8 GB RAM für circa 6€/Monat.
Für Batch-Processing großer Audio-Mengen: Contabo Cloud VPS M mit 16 GB RAM für etwa 10€/Monat.

