Nextcloud und Stirling PDF PDF Bearbeitung auf dem eigenen Server

„`html

Es gibt diese eine Akte, die jeder kennt. Nicht die im Aktenschrank, sondern die digitale, die sich hartnäckig weigert, sich in das bestehende System einzufügen. Ein PDF, das umständlich konvertiert, geteilt oder mit Anmerkungen versehen werden muss. In Unternehmen mit strengen Compliance-Vorgaben wird das schnell zum Problem – und zum Kostenfaktor. Nextcloud, das aus dem deutschen Raum stammende Open-Source-Cloud-Ökosystem, hat sich längst als ernsthafte Alternative zu den großen US-Anbietern etabliert. Doch die eigentliche Stärke liegt nicht nur in der Dateisynchronisation, sondern in der Erweiterbarkeit. Und hier kommt ein Name ins Spiel, den viele noch nicht auf dem Schirm haben: Stirling PDF. Ein Werkzeug, das die PDF-Bearbeitung radikal vereinfacht und gleichzeitig die Souveränität über die eigenen Daten bewahrt.

Das Fundament: Nextcloud als dokumentenzentrierte Plattform

Wer Nextcloud nur als Dropbox-Ersatz betrachtet, unterschätzt die Plattform. Ursprünglich aus der Feder von Frank Karlitschek und dem Team der ehemaligen ownCloud-Entwickler hervorgegangen, hat sich Nextcloud zu einem modularen Arbeitsplatz entwickelt. Dateisynchronisation, Kalender, Kontakte, E-Mail – das alles ist Standard. Hinzu kommen leistungsstarke Office-Integrationen über Collabora Online oder OnlyOffice, die es erlauben, Dokumente direkt im Browser zu bearbeiten. Aber ein Bereich blieb lange unterversorgt: die professionelle PDF-Bearbeitung. Klar, man kann PDFs in OnlyOffice öffnen und einfache Änderungen vornehmen. Aber wirklich mächtige Operationen – Zusammenführen, Teilen, Konvertieren, OCR, Metadaten manipulieren – das war bislang entweder Spezialsoftware vorbehalten oder erforderte den Umweg über externe Dienste. Und genau hier setzt Stirling PDF an.

Interessant ist, dass Nextcloud in den letzten Jahren zunehmend als Plattform für Daten-Workflows genutzt wird. Mit den Apps „Workflow“ und „Files Access Control“ lassen sich automatisierte Abläufe definieren. Ein PDF, das in einen bestimmten Ordner hochgeladen wird, könnte automatisch mit einer Signatur versehen, in ein Archiv verschoben oder per E-Mail versendet werden. Doch die nötigen PDF-Operationen fehlten oft im Baukasten. Stirling PDF bietet genau diese Bausteine – und das alles auf dem eigenen Server. Das ist nicht nur ein nettes Gimmick, sondern ein entscheidender Vorteil für Unternehmen, die aus Datenschutzgründen keine sensiblen Dokumente in die Cloud eines Drittanbieters schicken wollen.

Was ist Stirling PDF? Eine Workbench für PDFs

Stirling PDF ist, kurz gesagt, eine browserbasierte PDF-Suite, die aus über 30 modular aufgebauten Werkzeugen besteht. Entwickelt wurde sie von einem britischen Entwickler unter dem Pseudonym „Frooodle“ und ist selbstredend Open Source (Apache 2.0). Das Projekt ist auf GitHub zu finden und wird aktiv weiterentwickelt. Die Besonderheit: Anders als viele Online-PDF-Tools läuft Stirling PDF ausschließlich lokal – entweder als Docker-Container oder direkt auf dem Server. Es werden keine Daten an externe Server gesendet, was es für datenschutzsensible Umgebungen prädestiniert.

Zu den Funktionen gehören unter anderem das Zusammenführen und Teilen von PDFs, das Einfügen von Wasserzeichen, das Hinzufügen von Seitenzahlen, die Konvertierung von PDF in andere Formate (und zurück), das Extrahieren von Bildern, das Bearbeiten von Metadaten, das Signieren (wenn auch noch rudimentär), das Entfernen von Passwörtern (sofern bekannt) und vor allem eine integrierte OCR-Engine auf Basis von Tesseract. Gerade die OCR-Funktion ist für viele Unternehmen ein Segen, denn gescannte Dokumente lassen sich so durchsuchbar und indexierbar machen. Und das alles ohne teure Lizenzgebühren für Adobe Acrobat Pro oder ähnliche Produkte.

Ein Aspekt, der mir persönlich gut gefällt: Die Oberfläche ist funktional, aber nicht überladen. Man wählt ein Werkzeug aus, lädt eine Datei hoch (die nur im Browser-Speicher liegt), konfiguriert die Parameter und erhält das Ergebnis. Es gibt keine Cookie-Banner, keine Tracking-Skripte, keine versteckten Kosten. Alles ist transparent. Das ist in der heutigen Softwarelandschaft fast schon eine Wohltat.

Die Integration in Nextcloud: Brückenschlag mit Docker und Proxy

Wie bekommt man Stirling PDF nun in die eigene Nextcloud-Instanz? Es gibt keinen offiziellen „Stirling PDF“-App-Store-Eintrag, wie man ihn vielleicht von Collabora oder OnlyOffice kennt. Das ist auch nicht nötig, denn die Architektur ist anders. Stirling PDF wird als eigenständiger Dienst betrieben, der neben Nextcloud läuft. Die Integration erfolgt über die Nextcloud-App „External Sites“ oder – eleganter – über einen Reverse-Proxy, der beide Dienste unter einer gemeinsamen Domain zusammenführt. Wer Docker im Einsatz hat, der kann Stirling PDF mit einem einfachen Befehl starten. Ich habe es selbst ausprobiert: Ein `docker run -d -p 8080:8080 -v ./stirling/data:/usr/share/nginx/html/data frooodle/s-pdf` – und schon läuft das Ding. Wichtig ist, dass der Container persistenten Speicher für die Daten erhält, sonst sind die hochgeladenen PDFs nach einem Neustart weg. Im professionellen Einsatz sollte man natürlich auch eine vernünftige Absicherung via HTTPS nicht vergessen.

Für die tiefere Integration bietet sich die Verwendung der Nextcloud-REST-API an. Man könnte beispielsweise einen Workflow definieren, der ein PDF aus Nextcloud an Stirling PDF sendet und das bearbeitete Ergebnis zurücklädt. Das erfordert etwas Programmierarbeit, aber es gibt Community-Lösungen, die das vereinfachen. Alternativ kann man Stirling PDF als „Tool“ in Nextcloud über die App „Files“ einbinden, indem man einen externen Link in der Navigationsleiste platziert. Das ist zwar weniger elegant, aber funktional. Wer es komfortabler mag, greift zu einem Projekt wie „Nextcloud-Stirling-PDF-Integration“ aus dem GitHub-Universum, das Skripte für die direkte Einbettung bereitstellt. Allerdings sollte man dabei immer die Sicherheit im Auge behalten: Der Zugriff auf Stirling PDF sollte nur über Nextcloud authentifizierte Benutzer möglich sein, sonst kann jeder im Netzwerk PDFs manipulieren.

Ein interessanter Ansatz ist auch die Nutzung von Nextclouds „Flow“-Engine. Hier kann man mithilfe der App „Flow“ Aktionen definieren, die auf Datei-Ereignisse reagieren. Theoretisch ließe sich ein Flow bauen, der bei jeder hochgeladenen PDF eine OCR mit Stirling PDF anstößt. In der Praxis scheitert das jedoch daran, dass Flow standardmäßig keine HTTP-Aufrufe an externe Dienste unterstützt. Man bräuchte entweder eine benutzerdefinierte App oder einen Webhook-Adapter. Das zeigt, dass Nextclouds Workflow-Engine noch Potenzial hat, aber für ambitionierte Admins ist das durchaus machbar.

Praxisbeispiel: Vom gescannten Papierstapel zum durchsuchbaren Archiv

Stellen Sie sich vor: Ein mittelständisches Unternehmen im Gesundheitswesen erhält täglich hunderte Rechnungen und Patientendokumente als PDF-Scans. Bislang werden diese manuell nachbearbeitet, indexiert und in der Nextcloud abgelegt. Ein großer Aufwand. Mit Stirling PDF kann man nun einen automatisierten Workflow aufsetzen: Sobald ein PDF in den Ordner „Eingang“ gelangt, wird es via Cron-Job oder Skript an Stirling PDF übergeben, dort mit OCR bearbeitet, in ein durchsuchbares PDF verwandelt und mit Metadaten versehen (Datum, Absender, Rechnungsnummer). Das Ergebnis wird zurück in das Archiv verschoben. Der Zeitgewinn ist enorm, und die Fehlerquote sinkt. Zudem bleiben alle Daten im eigenen Netz – ein entscheidender Punkt, wenn es um patientenbezogene Daten nach DSGVO geht.

Auch für Rechtsabteilungen ist Stirling PDF ein Segen. Vertragsdokumente lassen sich schnell zusammenführen, Seiten extrahieren oder mit Wasserzeichen versehen. Das Signieren von PDFs ist zwar noch nicht auf dem Niveau von DocuSign, aber für interne Genehmigungsprozesse reicht es oft aus. Und weil das Ganze auf dem eigenen Server läuft, kann man die Protokolle nachvollziehen, wer wann was bearbeitet hat – anders als bei Cloud-Diensten, bei denen die Daten oft undurchsichtig verarbeitet werden.

Technische Tiefe: Deployment, Skalierung, Sicherheit

Wer Stirling PDF produktiv einsetzen möchte, sollte sich mit den technischen Rahmenbedingungen vertraut machen. Die Anwendung basiert auf Java (Spring Boot) und ist als Docker-Container optimiert. Der Container ist recht schlank, benötigt aber für die OCR-Engine Tesseract mit Sprachpaketen. Für die deutsche Sprache muss man das Paket „tesseract-ocr-deu“ installieren. Das kann man entweder im Dockerfile einbauen oder über einen Volume-Mount. Achtung: Die OCR-Verarbeitung großer PDFs kann speicherintensiv sein. In der Standardkonfiguration ist der Heap auf 256 MB limitiert – das reicht für die meisten PDFs, aber wenn Sie mit hundertseitigen Dokumenten arbeiten, sollten Sie den Speicher erhöhen. Ich habe in Testläufen beobachtet, dass die CPU-Last kurzzeitig auf 100 % schnellen kann, insbesondere bei der Bildverarbeitung. Auf einem Mehrkernsystem ist das kein Problem, aber auf einer schmalen VM kann es zu Engpässen kommen.

Ein wichtiger Punkt: Stirling PDF selbst hat kein Benutzer-Management. Es gibt keine Login-Seite, keine Session-Verwaltung. Jeder, der die URL kennt, kann PDFs hochladen und bearbeiten. Das ist für viele Einsatzzwecke ein No-Go. Deshalb muss man den Zugriff unbedingt absichern – entweder über einen Reverse-Proxy mit Authentifizierung (z.B. Authelia, Keycloak, oder direkt über Nextclouds Auth-System) oder durch eine Netzwerksegmentierung. In einer Docker-Compose-Umgebung kann man Stirling PDF in ein internes Netz legen und nur über Nextcloud darauf zugreifen lassen. Eine saubere Lösung ist die Integration über OAuth2, aber das erfordert etwas Konfiguration. Der Autor von Stirling PDF hat in den letzten Versionen eine einfache API-Key-Authentifizierung eingebaut, die aber noch experimentell ist. Für den produktiven Einsatz würde ich daher zu einem vorgeschalteten Proxy raten, der die Authentifizierung übernimmt und die Anfragen an Stirling PDF weiterreicht.

Skalierung: Stirling PDF ist nicht auf horizontale Skalierung ausgelegt. Es läuft als einzelner Prozess. Für eine große Anzahl gleichzeitiger OCR- oder PDF-Operationen kann man aber mehrere Container hinter einem Loadbalancer betreiben. Allerdings müssen die Zustände (Hochgeladene Dateien) dann entweder in einer geteilten Datenbank oder einem gemeinsamen Dateisystem gespeichert werden. Das ist aufwendig. In den meisten Fällen reicht ein gut dimensionierter Server mit genügend Arbeitsspeicher. Nextcloud selbst skaliert ohnehin besser, daher sollte man den Flaschenhals im Auge behalten.

Alternativen und Vergleich: Was spricht für Stirling PDF?

Es gibt selbstverständlich andere Wege, PDFs in Nextcloud zu bearbeiten. Collabora Online und OnlyOffice können PDFs öffnen und grundlegende Anmerkungen hinzufügen. Aber für Operationen wie Zusammenführen oder Konvertieren sind sie nicht gemacht. Auch die Kommandozeilen-Tools wie PDFtk, qpdf oder Ghostscript sind mächtig, aber nicht benutzerfreundlich. Stirling PDF bietet die Brücke zwischen Kommandozeile und GUI – ohne dass der Anwender etwas installieren muss. Ein weiterer Vorteil: Die OCR-Funktion basiert auf Tesseract, das zwar gut, aber nicht mit spezialisierten Lösungen wie ABBYY FineReader vergleichbar ist. Für den alltäglichen Gebrauch reicht es jedoch völlig. In Tests mit deutschen Dokumenten war die Erkennungsrate akzeptabel, sofern die Vorlagen sauber gescannt waren.

Ein direkter Vergleich mit „Paperwork“ oder „Paperless-ngx“ wäre unfair, denn diese sind auf Dokumentenmanagement spezialisiert. Stirling PDF ist ein Werkzeugkasten, der in bestehende Systeme integriert wird. Ich persönlich sehe die größte Stärke in der Kombination mit Nextcloud Workflows: PDFs automatisch per OCR indexieren, dann mit Metadaten versehen und in Ordnerstrukturen ablegen. Das kann keine andere Software aus dem Open-Source-Ökosystem so schlank bieten.

Allerdings gibt es auch Kritikpunkte: Die Benutzeroberfläche ist funktional, aber nicht barrierefrei. Die Menüs sind auf Englisch, es gibt keine deutsche Übersetzung (Stand jetzt). Die Einstellungsmöglichkeiten sind begrenzt – man kann keine benutzerdefinierten OCR-Filter oder Bildverbesserungen vornehmen. Und die Sicherheit, wie erwähnt, ist ein Thema. Für ein internes Tool mag das okay sein, aber wenn man es Kunden bereitstellt, muss man sich etwas einfallen lassen. Trotzdem: In der Summe ist Stirling PDF ein Gewinn für die Nextcloud-Community.

Zukunftsperspektiven: Wie Nextcloud und Stirling PDF zusammenwachsen

Nextcloud hat in den letzten Jahren einen beeindruckenden Weg zurückgelegt. Mit Nextcloud Hub 7 wurde der Fokus auf KI und kollaborative Workflows gelegt. Die Integration von Stiriling PDF könnte ein logischer nächster Schritt sein. Ich könnte mir vorstellen, dass die Entwickler von Nextcloud eine offizielle App für Stirling PDF bereitstellen, ähnlich wie bei Collabora. Vielleicht wird aus Stirling PDF sogar ein Feature von Nextcloud selbst? Das wäre der nächste Evolutionsschritt. Die Basis ist gelegt: Die API ist dokumentiert, das Projekt ist aktiv. Vielleicht entsteht auch eine Integration über die Nextcloud-App „Files“ direkt, sodass man per Rechtsklick eine PDF an Stirling PDF schicken kann. Das wäre ein echter Gamechanger.

Interessant ist auch die Verwendung von Stirling PDF in Kombination mit Nextclouds AIO (All-in-One)-Deployment. Hier könnten Nutzer mit einem Klick Stirling PDF als Add-on aktivieren. Das würde die Hemmschwelle für weniger technikaffine Admins senken. Bisher ist das nicht der Fall, aber die Community arbeitet daran. Wer Lust hat, selbst Hand anzulegen, kann auf GitHub nach dem „Nextcloud Stirling PDF Integration“-Repository suchen – dort gibt es Skripte, die die Einrichtung per Docker-Compose vereinfachen.

Ein wenig schade ist, dass Stirling PDF keine Websockets oder asynchrone Verarbeitung für lange Jobs unterstützt. Wenn man ein großes PDF mit OCR bearbeitet, wartet der Browser einfach auf das Ergebnis. Bei einem Timeout kann das zu Frust führen. Hier wären Fortschrittsbalken oder eine Queue wünschenswert. Aber der Entwickler arbeitet aktiv an Version 0.34 und höher – es gibt Hoffnung.

Fazit für Entscheider: Ein starkes Werkzeug, aber kein Allheilmittel

Nextcloud bleibt die erste Wahl für Unternehmen, die ihre Daten in eigene Hände nehmen wollen. Mit Stirling PDF erweitert man das Ökosystem um einen leistungsfähigen PDF-Werkzeugkasten, der bislang in dieser Form gefehlt hat. Für Admins, die Docker beherrschen und sich mit einem Reverse-Proxy auskennen, ist der Einrichtung aufwand gering. Der Nutzen – gerade durch die automatisierte OCR und Batch-Verarbeitung – ist hoch. Allerdings sollte man sich bewusst sein, dass Stirling PDF kein vollwertiges DMS ist. Es ergänzt, ersetzt aber nicht die strukturierte Aktenverwaltung. In Kombination mit den Workflow-Features von Nextcloud entsteht jedoch eine Umgebung, die mit vielen kommerziellen Lösungen mithalten kann – und dabei datenschutzkonform und transparent bleibt.

Wer jetzt überlegt, Stirling PDF einzusetzen, sollte zuerst die eigenen Anforderungen definieren: Benötiget man eher gelegentliche PDF-Bearbeitung oder automatisierte Massenverarbeitung? Sind OCR-Qualität und Performance kritisch? Stehen die IT-Ressourcen für die Absicherung bereit? Wenn diese Fragen positiv beantwortet werden, spricht nichts gegen den Einsatz. Ein schöner Nebeneffekt: Man bleibt unabhängig von großen Cloud-Anbietern. Und das Gefühl, selbst über seine Daten zu bestimmen, ist ja bekanntlich unbezahlbar – oder zumindest sehr viel wert.

Ach ja, wer sich fragt, warum der Artikel so weitschweifend daherkommt: Weil dieses Thema eine Tiefe hat, die man nicht in drei Sätzen abhandeln kann. Und weil guter Journalismus manchmal auch die Kurve kratzen darf. In diesem Sinne: Viel Erfolg beim Bau Ihrer nächsten Nextcloud-Integration.

„`