Alte pdf nachträglich mit OCR versehen

maustru · 10 Juli 2024

Hallo zusammen

Es schreiben hier einige von/über "paperless-ngx". Ich habe seit 2009 ein Papierloses Büro. Damals natürlich noch mit ganz ganz viel Scan Arbeit.
In den letzten Jahren kommen zum glück nicht mehr so viele dinge zum scannen sondern direkt auf digitalen wege zu mir. Dennoch befinden sich in meiner Ablage rund 5000 Dokumente welche ich damals "einfach" eingescannt habe.
Nun würde ich diese aber gerne durchsuchbar haben, auch wenn ich zugeben muss das dies nur NiceToHave ist, da ich bis dato immer alles gefunden habe was ich gesucht habe (Saubere benammslung und Struktur sei Dank!).

Was kennt ihr da so für Möglichkeiten? 95% aller Dokumente sind deutschsprachig und Stapelverarbeitung wäre natürlich Voraussetzung

Systemtechnisch zum Konvertieren bin ich da offen... ob Linux und Windows oder auf der Synology.. spielt mir da keine Rolle.

Gruss

tiermutter · 10 Juli 2024

Ich nutze dafür oft die lizensierte Version von PDF X Change Editor Plus, das funktioniert mit unterschiedlichen Optionen sehr gut, habe damit ganze Bücher die ich abfotografiert habe mit OCR versehen, wobei hier natürlich oft Datenmüll zustande gekommen ist... das ist aber den teils unscharfen Fotos geschuldet.
Paperless ngx nutze ich ebenfalls für bestimmte Dokumente, bin davon aber nicht wirklich angetan... der erkennt zwar auch ziemlich gut, aber das ist dann auch alles nur innerhalb von paperless nutzbar und dort was zu finden und allgemein die Bedienbarkeit finde ich schon extrem schlecht, aber das mag auch an mir liegen

maustru · 10 Juli 2024

Bei mir wird schon alles mit einem Scanner gescannt und nichts Photographiert.
GoogleDrive macht dir zwar jedes Dokument Durchsuchbar... aber eben, nur innerhalb von GoogleDrive.

Ja, die Software darf auch was Kosten, da es wirklich nur um altbestände geht, zukünftiges wird eh mit OCR eingescannt.

tiermutter · 10 Juli 2024

Wenn gescannt wird, dann wird das auch richtig gut funktionieren, wenn der schon schlechte Fotos relativ gut erkennt. Hier mal als Beispiel...

So sah das Foto aus, das durchsuchbar gemacht werden sollte:
In diesem Fall ist es mit der Option "Textover" gemacht, sprich das Original bleibt erhalten und es wird eine unsichtbare Textebene darüber gelegt.

Und das ist beim OCR rausgekommen, klar dass unten rechts wo es so mega unscharf ist nur Müll rauskam:
Dies ist dann die Option, bei der erkannter Text direkt entfernt und ersetzt wird:

maustru · 10 Juli 2024

Bei mir wäre es definitiv ebenfalls "Textover".
Und du hast das über "PDF X Change Editor Plus" gemacht?

Stationary · 10 Juli 2024

maustru schrieb:
Systemtechnisch zum Konvertieren bin ich da offen... ob Linux und Windows oder auf der Synology.. spielt mir da keine Rolle.

Einmal als Batchjob durch synOCR auf der Diskstation jagen sollte Deinen Wunsch erfüllen.

blurrrr · 10 Juli 2024

maustru schrieb:
Was kennt ihr da so für Möglichkeiten?

Was häufig unter der Haube verwendet wird, wäre tesseract, es gibt auch entsprechende Sprachdateien dafür (z.B. Deutsch). Kannst ja grundsätzlich erstmal hier reinschauen: https://wiki.ubuntuusers.de/Texterkennung/.

Was Dinge wie "Unschärfe" angeht, so könnte man dem vielleicht mittels "schärfen" beikommen (z.B. via imagemagick), müsste man halt mal testen. Habe selbst mit dem Thema nix an der Mütze, ich benenn meine Dateien einfach ordentlich und gut ist

tiermutter · 10 Juli 2024

maustru schrieb:
Und du hast das über "PDF X Change Editor Plus" gemacht?

Ja, aber ich meine es muss nicht gleich die Plus Variante sein... gibt aber sicherlich auch andere, kostenlose Optionen die genauso gut sind und die Anforderungen erfüllen.

maustru · 10 Juli 2024

Stationary schrieb:
Einmal als Batchjob durch synOCR auf der Diskstation jagen sollte Deinen Wunsch erfüllen.

Werde ich mir auf jedenfall mal anschauen!
Dankeschön!

tiermutter schrieb:
Ja, aber ich meine es muss nicht gleich die Plus Variante sein... gibt aber sicherlich auch andere, kostenlose Optionen die genauso gut sind und die Anforderungen erfüllen.

Kostet 90€ für 3 Jahre.... Naja... da fällt mir jetzt kein Zacken ab. Aber ich behalte es mal im Hinterkopf.

blurrrr schrieb:
Was häufig unter der Haube verwendet wird, wäre tesseract, es gibt auch entsprechende Sprachdateien dafür (z.B. Deutsch). Kannst ja grundsätzlich erstmal hier reinschauen: https://wiki.ubuntuusers.de/Texterkennung/.

Was Dinge wie "Unschärfe" angeht, so könnte man dem vielleicht mittels "schärfen" beikommen (z.B. via imagemagick), müsste man halt mal testen. Habe selbst mit dem Thema nix an der Mütze, ich benenn meine Dateien einfach ordentlich und gut ist

Das mit dem benennen mache ich eben auch so und muss ehrlich sagen das ich bis anhin alles gefunden habe was ich gesucht habe (wenn es dann vorhanden war). Die OCR sache ist einfach nochmals so eine kleine Optimierung

tiermutter · 10 Juli 2024

maustru schrieb:
Kostet 90€ für 3 Jahre

Wohlgemerkt für 3 Jahre Updates. Das Programm ist auch danach noch aktiv und voll einsetzbar, nur dass man eben keine Updates mehr bekommt.
Ist insgesamt ein geiles PDF Tool, nicht nur für OCR.

maustru schrieb:
Bei mir wäre es definitiv ebenfalls "Textover".

Ist defintiv die beste Variante. Für meine Bücher kostet mich das aber deutlich mehr Kapazität (die PDF sind dann teils über 150MB groß, und das will ich nicht über LTE öffnen müssen), daher habe ich hier die Originalinhalte ersetzt.

So sieht es da übrigens aus, mit den möglichen Optionen:

maustru · 10 Juli 2024

tiermutter schrieb:
Wohlgemerkt für 3 Jahre Updates. Das Programm ist auch danach noch aktiv und voll einsetzbar, nur dass man eben keine Updates mehr bekommt.
Ist insgesamt ein geiles PDF Tool, nicht nur für OCR.

Ist defintiv die beste Variante. Für meine Bücher kostet mich das aber deutlich mehr Kapazität (die PDF sind dann teils über 150MB groß, und das will ich nicht über LTE öffnen müssen), daher habe ich hier die Originalinhalte ersetzt.

So sieht es da übrigens aus, mit den möglichen Optionen:
Anhang anzeigen 7789

Definitiv interessant.
Kann es auch Stapelverarbeitung?

tiermutter · 10 Juli 2024

Nicht dass ich wüsste... aber das Ding kann so viel, dass ich insgesamt nicht weiß, was damit wirklich geht... ad hoc habe ich aber nichts dazu gefunden, dafür gibt es scheinbar das hier: https://pdf-xchange.de/pdf-tools/index.php

Netzi · 4 Aug. 2024

maustru schrieb:
(Saubere benammslung ... sei Dank!).

öhm... wie meinen?

scnr...

Alte pdf nachträglich mit OCR versehen

maustru

Member

tiermutter

Well-known member

maustru

Member

tiermutter

Well-known member

maustru

Member

Stationary

Well-known member

blurrrr

Well-known member

tiermutter

Well-known member

maustru

Member

tiermutter

Well-known member

maustru

Member

tiermutter

Well-known member

Netzi

Member

Zurzeit aktive Besucher

Neueste Beiträge

Letzte Anleitungen

Statistik des Forums

Teilen