Speech-to-text | Whisper

Peter

New member
Hallo allerseits,

ich wollte mal fragen, ob jemand mit Speech-to-text, z.B. Whisper Erfahrungen gesammelt hat.

Das Endergebnis soll sein, dass ich in einem Verzeichnis auf dem NAS Audiodateien (Sprache) ablege und mir dazu die Texte generiert werden.

Ausprobiert habe ich bisher:
  • github.com/linuxserver/docker-faster-whisper
  • github.com/mutablelogic/go-whisper
Bei Beiden bin ich gescheitert. Die Container laufen, aber ich bin zu blöd den richtigen curl-Befehl zusammenzubasteln. Entweder der Container antwortet nicht oder stürzt sogar ab. Aus den Logs vom Container war auch nichts herauszulesen.

Beispiel für go-whisper:
Erfolgreich per curl-Befehl das Modell geladen:
Code:
curl -X POST -H "Content-Type: application/json" \
  -d '{"path": "ggml-medium-q5_0.bin"}' \
  localhost:30000/api/v1/models?stream=true
Bei der Übergabe der WAV-Datei stürzt der Container ab:
Code:
curl -F model=ggml-medium-q5_0 \
  -F file=@/volume1/spielwiese/jfk.wav \
  localhost:30000/api/v1/audio/transcriptions?stream=true

Grundsätzlich finde ich Whisper interessant und hoffe, dass es mit meiner Aussprache gut klarkommt. So könnte ich während der Fahrt schon Sachen diktieren, die dann im Büro als Textdatei schon vorliegen, wenn ich ankomme.

Viele Grüße
Peter
 

Zurzeit aktive Besucher

Keine Mitglieder online.

Letzte Anleitungen

Statistik des Forums

Themen
6.878
Beiträge
66.641
Mitglieder
7.228
Neuestes Mitglied
Sprytny0815
Zurück
Oben