Speech-to-text | Whisper

Peter · 19 Juli 2025

Hallo allerseits,

ich wollte mal fragen, ob jemand mit Speech-to-text, z.B. Whisper Erfahrungen gesammelt hat.

Das Endergebnis soll sein, dass ich in einem Verzeichnis auf dem NAS Audiodateien (Sprache) ablege und mir dazu die Texte generiert werden.

Ausprobiert habe ich bisher:

github.com/linuxserver/docker-faster-whisper
github.com/mutablelogic/go-whisper

Bei Beiden bin ich gescheitert. Die Container laufen, aber ich bin zu blöd den richtigen curl-Befehl zusammenzubasteln. Entweder der Container antwortet nicht oder stürzt sogar ab. Aus den Logs vom Container war auch nichts herauszulesen.

Beispiel für go-whisper:
Erfolgreich per curl-Befehl das Modell geladen:

Code:

curl -X POST -H "Content-Type: application/json" \
  -d '{"path": "ggml-medium-q5_0.bin"}' \
  localhost:30000/api/v1/models?stream=true

Bei der Übergabe der WAV-Datei stürzt der Container ab:

Code:

curl -F model=ggml-medium-q5_0 \
  -F file=@/volume1/spielwiese/jfk.wav \
  localhost:30000/api/v1/audio/transcriptions?stream=true

Grundsätzlich finde ich Whisper interessant und hoffe, dass es mit meiner Aussprache gut klarkommt. So könnte ich während der Fahrt schon Sachen diktieren, die dann als Textdatei schon vorliegen, wenn ich ankomme.

Viele Grüße
Peter

Stationary · 19 Juli 2025

Wie groß sind denn Deine Sprachdateien, bzw. wieviele Sekunden lang? Ich meine mich zu erinnern, daß es da mal ein 25 MB-limit pro chunk gab, oder maximal 30 Sekunden.

Peter · 22 Juli 2025

Hi @Stationary,
meine Sprachdateien sind da eher länger. Von einer Begrenzung habe ich da bisher nichts gelesen. Ich hätte damit auch nicht gerechnet, da die Last vom Server auf die eigene Kappe geht.

blurrrr · 22 Juli 2025

Das mit den 25MB scheint ja durchaus ein Thema zu sein... https://www.google.com/search?q=whisper+25mb. Hätte ich jetzt auch nicht gedacht (grade in der heutigen Zeit), aber ok...

Peter · 22 Juli 2025

Ich habe es mal grob überflogen.

25MB wären für mich jetzt kein Problem, da meine Audiofiles nur wenige Minuten lang wären. Im MP3-Format (oder ähnlich) wären das nur wenige MB.

Wobei ich jetzt nicht herausgelesen habe, ob die 25MB nur für ihren Server gelten. Whisper und das jeweilige Modell würde bei mir auf meinem Gerät laufen.

Speech-to-text | Whisper

Peter

New member

Stationary

Well-known member

Peter

New member

blurrrr

Well-known member

Peter

New member

Neueste Beiträge

Letzte Anleitungen

Statistik des Forums

Teilen