Paperless-NGX: gespeicherte Dokumente fehlerhaft

Stationary · 26 Okt. 2025

Nutzt jemand von Euch paperless-ngx und hat die Erfahrung gemacht, daß ein PDF durch das Hochladen in paperless-ngx signifikant verändert worden ist?
Konkret geht es hier um eine Bedienungsanleitung, die ich in paperless-ngx abgelegt habe. Diese habe ich vom Hersteller als PDF heruntergeladen und kann sie mir auch ohne Probleme auf Linuxrechner, Macbook und iPad ansehen.
Ich habe das Dokument zwecks Ablage dann einmal vom Linuxrechner, ein zweites Mal vom iPad in mein paperless-ngx geladen. Ich habe es mir dann später dort wieder angesehen, und was ich sah, war verändert. Lade ich es aus paperless-ngx wieder herunter auf das iPad, so erhalte ich ein PDF, das nicht mehr mit dem ursprünglichen Dokument übereinstimmt. Damit meine ich nicht die unterlegte Texterkennung, sondern die Bebilderung:

Original:

In paperless-ngx:

Teilweise ist also die Bebilderung verschwunden.
Hat das schon einmal jemand beobachtet? Oder hat jemand eine Idee, was den Fehler hervorrufen könnte und wie er vermeidbar wäre? Ich habe die OCR-Funktion in Verdacht. Das in paperless-ngx ebenfalls gespeicherte Original ist natürlich noch korrekt.

Ich habe auch schon versucht, das PDF-Original vor dem Speichern zunächst in ein PDF zu “drucken”, um eventuelle layer zu entfernen; das schafft aber auch keine Abhilfe, das neu erzeugte PDF führt zum gleichen Ergebnis.

the other · 26 Okt. 2025

Moinsen,
nein, bisher ist hier so etwas nicht aufgefallen. Welche Version nutzt du denn? Hast du irgendwelche "spezial" Einträge in den environment variables hinsichtlich "PAPERLESS_OCR_..."?

Stationary · 26 Okt. 2025

Ich bin noch auf v2.18.4 auf einem RasPi5 unter Ubuntu.
Ansonsten nichts besonderes:

YAML:

PAPERLESS_OCR_USER_ARGS: '{"invalidate_digital_signatures": true,"continue_on_soft_render_error": true}'

the other · 26 Okt. 2025

Moinsen,
bei mir verhält es sich so, dass ein Dokument nicht doppelt eingescannt werden kann per paperlessngx. Es wird direkt als "duplicate error" angezeigt (und erscheint so auch im Protokoll).
Taucht in deinen Protokollen irgendwas Erhellendes auf?

blurrrr · 26 Okt. 2025

Vielleicht zu viele Layer, oder ggf. vor Druck geschützt, oder dergleichen? Vielleicht ist es aber auch nur ein Anzeigefehler - verändert werden dürfte das PDF an sich ja eigentlich auch nicht.

Stationary · 26 Okt. 2025

the other schrieb:
dass ein Dokument nicht doppelt eingescannt werden kann per paperlessngx

Habe ich natürlich vorher umbenannt

Logs anschauen war ein guter Hinweis, da sind mehrere Fehler-Einträge dieser Art:

Code:

[2025-10-26 14:15:36,060] [ERROR] [ocrmypdf.optimize] xref 765: While extracting this image, an error occurred
Traceback (most recent call last):
  File "/usr/local/lib/python3.12/site-packages/ocrmypdf/optimize.py", line 341, in extract_images
    result = extract_fn(
             ^^^^^^^^^^^
  File "/usr/local/lib/python3.12/site-packages/ocrmypdf/optimize.py", line 231, in extract_image_generic
    elif not pim.indexed and pim.colorspace in pim.SIMPLE_COLORSPACES:
                             ^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.12/site-packages/pikepdf/models/image.py", line 211, in colorspace
    raise NotImplementedError(
NotImplementedError: not sure how to get colorspace: ['/Separation', '/Black', '/DeviceRGB', pikepdf.Dictionary({
  "/C0": [ 1, 1, 1 ],
  "/C1": [ Decimal('0.171581'), Decimal('0.160256'), Decimal('0.162759') ],
  "/Domain": [ 0, 1 ],
  "/FunctionType": 2,
  "/N": 1,
  "/Range": [ 0, 1, 0, 1, 0, 1 ]
})]

Stationary · 26 Okt. 2025

blurrrr schrieb:
Vielleicht ist es aber auch nur ein Anzeigefehler - verändert werden dürfte das PDF an sich ja eigentlich auch nicht.

Nein, man kann aus paperless-ngx das “paperless”-PDF-Dokument herunterladen oder das Original-PDF. Das Original-PDF enthält die Bebilderung korrekt, das “paperless”-PDF nicht. Ist also nicht nur ein Anzeigefehler.
Da man das Dokument drucken kann, gehe ich davon aus, daß es nicht vor Druck geschützt ist, aber das Ausdrucken am MacBook (Druck als PDF) liefert kein Dokument, das von paperless-ngx korrekt verarbeitet wird. Das so gedruckte Dokument sollte eigentlich layerless sein. Auch das Exportieren des Original-PDFs am MacBook in andere PDF Formate (PDF/A oder PDF mit reduzierter Dateigrösse) gibt PDFs, die nicht korrekt behandelt werden.

Paperless-NGX: gespeicherte Dokumente fehlerhaft

Stationary

Well-known member

the other

Well-known member

Stationary

Well-known member

the other

Well-known member

blurrrr

Well-known member

Stationary

Well-known member

Stationary

Well-known member

Neueste Beiträge

Letzte Anleitungen

Statistik des Forums

Teilen