Speech-to-text | Whisper

Peter

New member
Hallo allerseits,

ich wollte mal fragen, ob jemand mit Speech-to-text, z.B. Whisper Erfahrungen gesammelt hat.

Das Endergebnis soll sein, dass ich in einem Verzeichnis auf dem NAS Audiodateien (Sprache) ablege und mir dazu die Texte generiert werden.

Ausprobiert habe ich bisher:
  • github.com/linuxserver/docker-faster-whisper
  • github.com/mutablelogic/go-whisper
Bei Beiden bin ich gescheitert. Die Container laufen, aber ich bin zu blöd den richtigen curl-Befehl zusammenzubasteln. Entweder der Container antwortet nicht oder stürzt sogar ab. Aus den Logs vom Container war auch nichts herauszulesen.

Beispiel für go-whisper:
Erfolgreich per curl-Befehl das Modell geladen:
Code:
curl -X POST -H "Content-Type: application/json" \
  -d '{"path": "ggml-medium-q5_0.bin"}' \
  localhost:30000/api/v1/models?stream=true
Bei der Übergabe der WAV-Datei stürzt der Container ab:
Code:
curl -F model=ggml-medium-q5_0 \
  -F file=@/volume1/spielwiese/jfk.wav \
  localhost:30000/api/v1/audio/transcriptions?stream=true

Grundsätzlich finde ich Whisper interessant und hoffe, dass es mit meiner Aussprache gut klarkommt. So könnte ich während der Fahrt schon Sachen diktieren, die dann als Textdatei schon vorliegen, wenn ich ankomme.

Viele Grüße
Peter
 
Wie groß sind denn Deine Sprachdateien, bzw. wieviele Sekunden lang? Ich meine mich zu erinnern, daß es da mal ein 25 MB-limit pro chunk gab, oder maximal 30 Sekunden.
 

Zurzeit aktive Besucher

Letzte Anleitungen

Statistik des Forums

Themen
6.879
Beiträge
66.653
Mitglieder
7.229
Neuestes Mitglied
DaAsche
Zurück
Oben