Alte pdf nachträglich mit OCR versehen

maustru

Member
Hallo zusammen

Es schreiben hier einige von/über "paperless-ngx". Ich habe seit 2009 ein Papierloses Büro. Damals natürlich noch mit ganz ganz viel Scan Arbeit.
In den letzten Jahren kommen zum glück nicht mehr so viele dinge zum scannen sondern direkt auf digitalen wege zu mir. Dennoch befinden sich in meiner Ablage rund 5000 Dokumente welche ich damals "einfach" eingescannt habe.
Nun würde ich diese aber gerne durchsuchbar haben, auch wenn ich zugeben muss das dies nur NiceToHave ist, da ich bis dato immer alles gefunden habe was ich gesucht habe (Saubere benammslung und Struktur sei Dank!).

Was kennt ihr da so für Möglichkeiten? 95% aller Dokumente sind deutschsprachig und Stapelverarbeitung wäre natürlich Voraussetzung :)
Systemtechnisch zum Konvertieren bin ich da offen... ob Linux und Windows oder auf der Synology.. spielt mir da keine Rolle.

Gruss
 
Ich nutze dafür oft die lizensierte Version von PDF X Change Editor Plus, das funktioniert mit unterschiedlichen Optionen sehr gut, habe damit ganze Bücher die ich abfotografiert habe mit OCR versehen, wobei hier natürlich oft Datenmüll zustande gekommen ist... das ist aber den teils unscharfen Fotos geschuldet.
Paperless ngx nutze ich ebenfalls für bestimmte Dokumente, bin davon aber nicht wirklich angetan... der erkennt zwar auch ziemlich gut, aber das ist dann auch alles nur innerhalb von paperless nutzbar und dort was zu finden und allgemein die Bedienbarkeit finde ich schon extrem schlecht, aber das mag auch an mir liegen 🙃
 
Bei mir wird schon alles mit einem Scanner gescannt und nichts Photographiert.
GoogleDrive macht dir zwar jedes Dokument Durchsuchbar... aber eben, nur innerhalb von GoogleDrive.

Ja, die Software darf auch was Kosten, da es wirklich nur um altbestände geht, zukünftiges wird eh mit OCR eingescannt.
 
Wenn gescannt wird, dann wird das auch richtig gut funktionieren, wenn der schon schlechte Fotos relativ gut erkennt. Hier mal als Beispiel...

So sah das Foto aus, das durchsuchbar gemacht werden sollte:
In diesem Fall ist es mit der Option "Textover" gemacht, sprich das Original bleibt erhalten und es wird eine unsichtbare Textebene darüber gelegt.
1720593171274.png

Und das ist beim OCR rausgekommen, klar dass unten rechts wo es so mega unscharf ist nur Müll rauskam:
Dies ist dann die Option, bei der erkannter Text direkt entfernt und ersetzt wird:
1720593277046.png
 
Was kennt ihr da so für Möglichkeiten?
Was häufig unter der Haube verwendet wird, wäre tesseract, es gibt auch entsprechende Sprachdateien dafür (z.B. Deutsch). Kannst ja grundsätzlich erstmal hier reinschauen: https://wiki.ubuntuusers.de/Texterkennung/.

Was Dinge wie "Unschärfe" angeht, so könnte man dem vielleicht mittels "schärfen" beikommen (z.B. via imagemagick), müsste man halt mal testen. Habe selbst mit dem Thema nix an der Mütze, ich benenn meine Dateien einfach ordentlich und gut ist 😅
 
Einmal als Batchjob durch synOCR auf der Diskstation jagen sollte Deinen Wunsch erfüllen.

Werde ich mir auf jedenfall mal anschauen!
Dankeschön!

Ja, aber ich meine es muss nicht gleich die Plus Variante sein... gibt aber sicherlich auch andere, kostenlose Optionen die genauso gut sind und die Anforderungen erfüllen.
Kostet 90€ für 3 Jahre.... Naja... da fällt mir jetzt kein Zacken ab. Aber ich behalte es mal im Hinterkopf.

Was häufig unter der Haube verwendet wird, wäre tesseract, es gibt auch entsprechende Sprachdateien dafür (z.B. Deutsch). Kannst ja grundsätzlich erstmal hier reinschauen: https://wiki.ubuntuusers.de/Texterkennung/.

Was Dinge wie "Unschärfe" angeht, so könnte man dem vielleicht mittels "schärfen" beikommen (z.B. via imagemagick), müsste man halt mal testen. Habe selbst mit dem Thema nix an der Mütze, ich benenn meine Dateien einfach ordentlich und gut ist 😅
Das mit dem benennen mache ich eben auch so und muss ehrlich sagen das ich bis anhin alles gefunden habe was ich gesucht habe (wenn es dann vorhanden war). Die OCR sache ist einfach nochmals so eine kleine Optimierung
 
Kostet 90€ für 3 Jahre
Wohlgemerkt für 3 Jahre Updates. Das Programm ist auch danach noch aktiv und voll einsetzbar, nur dass man eben keine Updates mehr bekommt.
Ist insgesamt ein geiles PDF Tool, nicht nur für OCR.
Bei mir wäre es definitiv ebenfalls "Textover".
Ist defintiv die beste Variante. Für meine Bücher kostet mich das aber deutlich mehr Kapazität (die PDF sind dann teils über 150MB groß, und das will ich nicht über LTE öffnen müssen), daher habe ich hier die Originalinhalte ersetzt.

So sieht es da übrigens aus, mit den möglichen Optionen:
1720604733381.png
 
Wohlgemerkt für 3 Jahre Updates. Das Programm ist auch danach noch aktiv und voll einsetzbar, nur dass man eben keine Updates mehr bekommt.
Ist insgesamt ein geiles PDF Tool, nicht nur für OCR.

Ist defintiv die beste Variante. Für meine Bücher kostet mich das aber deutlich mehr Kapazität (die PDF sind dann teils über 150MB groß, und das will ich nicht über LTE öffnen müssen), daher habe ich hier die Originalinhalte ersetzt.

So sieht es da übrigens aus, mit den möglichen Optionen:
Anhang anzeigen 7789

Definitiv interessant.
Kann es auch Stapelverarbeitung?
 

Zurzeit aktive Besucher

Keine Mitglieder online.

Letzte Anleitungen

Statistik des Forums

Themen
4.951
Beiträge
49.873
Mitglieder
4.636
Neuestes Mitglied
TL767
Zurück
Oben