Paperless-NGX: gespeicherte Dokumente fehlerhaft

Stationary

Well-known member
Nutzt jemand von Euch paperless-ngx und hat die Erfahrung gemacht, daß ein PDF durch das Hochladen in paperless-ngx signifikant verändert worden ist?
Konkret geht es hier um eine Bedienungsanleitung, die ich in paperless-ngx abgelegt habe. Diese habe ich vom Hersteller als PDF heruntergeladen und kann sie mir auch ohne Probleme auf Linuxrechner, Macbook und iPad ansehen.
Ich habe das Dokument zwecks Ablage dann einmal vom Linuxrechner, ein zweites Mal vom iPad in mein paperless-ngx geladen. Ich habe es mir dann später dort wieder angesehen, und was ich sah, war verändert. Lade ich es aus paperless-ngx wieder herunter auf das iPad, so erhalte ich ein PDF, das nicht mehr mit dem ursprünglichen Dokument übereinstimmt. Damit meine ich nicht die unterlegte Texterkennung, sondern die Bebilderung:

Original:
IMG_2554.jpeg

In paperless-ngx:
IMG_2555.jpeg

Teilweise ist also die Bebilderung verschwunden.
Hat das schon einmal jemand beobachtet? Oder hat jemand eine Idee, was den Fehler hervorrufen könnte und wie er vermeidbar wäre? Ich habe die OCR-Funktion in Verdacht. Das in paperless-ngx ebenfalls gespeicherte Original ist natürlich noch korrekt.

Ich habe auch schon versucht, das PDF-Original vor dem Speichern zunächst in ein PDF zu “drucken”, um eventuelle layer zu entfernen; das schafft aber auch keine Abhilfe, das neu erzeugte PDF führt zum gleichen Ergebnis.
 
Zuletzt bearbeitet:
Moinsen,
nein, bisher ist hier so etwas nicht aufgefallen. Welche Version nutzt du denn? Hast du irgendwelche "spezial" Einträge in den environment variables hinsichtlich "PAPERLESS_OCR_..."?
 
Ich bin noch auf v2.18.4 auf einem RasPi5 unter Ubuntu.
Ansonsten nichts besonderes:
YAML:
PAPERLESS_OCR_USER_ARGS: '{"invalidate_digital_signatures": true,"continue_on_soft_render_error": true}'
 
Moinsen,
bei mir verhält es sich so, dass ein Dokument nicht doppelt eingescannt werden kann per paperlessngx. Es wird direkt als "duplicate error" angezeigt (und erscheint so auch im Protokoll).
Taucht in deinen Protokollen irgendwas Erhellendes auf?
 
Vielleicht zu viele Layer, oder ggf. vor Druck geschützt, oder dergleichen? Vielleicht ist es aber auch nur ein Anzeigefehler - verändert werden dürfte das PDF an sich ja eigentlich auch nicht.
 
dass ein Dokument nicht doppelt eingescannt werden kann per paperlessngx
Habe ich natürlich vorher umbenannt :-)
Logs anschauen war ein guter Hinweis, da sind mehrere Fehler-Einträge dieser Art:
Code:
[2025-10-26 14:15:36,060] [ERROR] [ocrmypdf.optimize] xref 765: While extracting this image, an error occurred
Traceback (most recent call last):
  File "/usr/local/lib/python3.12/site-packages/ocrmypdf/optimize.py", line 341, in extract_images
    result = extract_fn(
             ^^^^^^^^^^^
  File "/usr/local/lib/python3.12/site-packages/ocrmypdf/optimize.py", line 231, in extract_image_generic
    elif not pim.indexed and pim.colorspace in pim.SIMPLE_COLORSPACES:
                             ^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.12/site-packages/pikepdf/models/image.py", line 211, in colorspace
    raise NotImplementedError(
NotImplementedError: not sure how to get colorspace: ['/Separation', '/Black', '/DeviceRGB', pikepdf.Dictionary({
  "/C0": [ 1, 1, 1 ],
  "/C1": [ Decimal('0.171581'), Decimal('0.160256'), Decimal('0.162759') ],
  "/Domain": [ 0, 1 ],
  "/FunctionType": 2,
  "/N": 1,
  "/Range": [ 0, 1, 0, 1, 0, 1 ]
})]
 
Zuletzt bearbeitet:
Vielleicht ist es aber auch nur ein Anzeigefehler - verändert werden dürfte das PDF an sich ja eigentlich auch nicht.
Nein, man kann aus paperless-ngx das “paperless”-PDF-Dokument herunterladen oder das Original-PDF. Das Original-PDF enthält die Bebilderung korrekt, das “paperless”-PDF nicht. Ist also nicht nur ein Anzeigefehler.
Da man das Dokument drucken kann, gehe ich davon aus, daß es nicht vor Druck geschützt ist, aber das Ausdrucken am MacBook (Druck als PDF) liefert kein Dokument, das von paperless-ngx korrekt verarbeitet wird. Das so gedruckte Dokument sollte eigentlich layerless sein. Auch das Exportieren des Original-PDFs am MacBook in andere PDF Formate (PDF/A oder PDF mit reduzierter Dateigrösse) gibt PDFs, die nicht korrekt behandelt werden.
 

Letzte Anleitungen

Statistik des Forums

Themen
7.287
Beiträge
71.010
Mitglieder
7.742
Neuestes Mitglied
rocatus
Zurück
Oben