Gesichtserkennung in Nextcloud zwischen Hoffnung und Wirklichkeit

Wer Nextcloud als zentralen Speicherort für seine Fotos nutzt, kennt das Problem: Tausende Bilder, wild durcheinander, keine Ordnung. Manuelle Albumverwaltung? Zeitraubend. Metadaten? Oft fehlerhaft. Hier setzt die Gesichtserkennung an – ein Feature, das in der Nextcloud-Community lange herbeigesehnt wurde und nun in verschiedenen Ausprägungen verfügbar ist. Doch taugt sie wirklich für den ernsthaften Einsatz, oder bleibt sie ein nettes Gimmick? Dieser Artikel geht der Sache auf den Grund.

Selbstbestimmtes Cloud-Dasein: Warum Nextcloud?

Nextcloud hat sich in den letzten Jahren als die führende Open-Source-Plattform für selbst gehostete Cloud-Dienste etabliert. Anders als proprietäre Anbieter wie Google Drive, Dropbox oder Microsoft OneDrive gibt Nextcloud die Kontrolle über die Daten nicht aus der Hand – vorausgesetzt, man betreibt die Instanz auf eigener Infrastruktur. Das ist nicht nur eine Frage des Datenschutzes, sondern auch der souveränen Entscheidung über Funktionen und Erweiterbarkeit. Der Markt der Alternativen? Owncloud, Seafile, vielleicht noch Syncthing – aber keine dieser Lösungen bietet annähernd das Ökosystem an Apps, Kollaborations- und Kommunikationswerkzeugen, das Nextcloud in den letzten Versionen aufgebaut hat. Talk, Mail, Kalender, Kontakte, Office-Integration – alles da, alles unter eigener Regie. Und seit Nextcloud 26 auch eine nativere Bilderverwaltung.

Dabei zeigt sich ein interessanter Trend: Die Plattform wird nicht mehr nur von Privatpersonen und kleinen Unternehmen genutzt. Immer mehr öffentliche Einrichtungen, Bildungsinstitutionen und sogar mittelständische Betriebe setzen auf die eigene Cloud – nicht zuletzt wegen der EU-Datenschutzgrundverordnung. Wer Patientendaten, Schülerakten oder Geschäftsunterlagen verarbeitet, tut gut daran, die Hoheit über die Speicherorte zu behalten. Nextcloud ist hierfür ein probates Mittel. Dass die Software dabei stets bemüht ist, mit den Komfortfunktionen der großen amerikanischen Anbieter mitzuhalten, ist ein Balanceakt – und genau an dieser Stelle kommt die Gesichtserkennung ins Spiel.

Gesichtserkennung in Nextcloud: Die Grundlagen

Nextcloud verfügt über mehrere Ansätze, um Gesichter in hochgeladenen Fotos automatisch zu erkennen und Personen zu taggen. Der bekannteste und am weitesten verbreitete Weg ist die App Recognize, die auf maschinellem Lernen (ML) basiert – genauer gesagt auf neuronalen Netzen, die mit dem Framework TensorFlow arbeiten. Die Idee: Ein trainiertes Modell scannt jedes neue Bild nach Gesichtern, extrahiert Merkmale (sogenannte Embeddings) und gleicht sie gegen eine lokale Datenbank ab. Taucht ein Gesicht mehrmals auf, wird es als eigene Person kategorisiert und kann benannt werden. Klingt einfach, steckt aber voller Tücken.

Die Recognize-App ersetzt sozusagen die ältere, aber nicht vollständig veraltete App Face Recognition. Letztere war jahrelang die einzige Option, litt aber unter geringer Performance und einem hohen Ressourcenverbrauch. Recognize verwendet effizientere Modelle (aktuell auf Basis von MobileNet oder EfficientNet) und unterstützt auch GPU-Beschleunigung über CUDA. Allerdings: Ohne eine leistungsfähige Grafikkarte, die in vielen Serversystemen gar nicht verbaut ist, bleibt die CPU-gestützte Analyse quälend langsam. Ein typischer Server mit einem Intel Xeon und ohne GPU braucht für 10.000 Fotos schnell mehrere Stunden bis Tage. Nicht zuletzt deshalb rät Nextcloud offiziell zu einer separaten Verarbeitung offline – also außerhalb der Hauptinstanz, etwa auf einer dedizierten Workstation, die nach der Analyse das fertige Tagging zurück in die Cloud schreibt.

Ein interessanter Aspekt ist die Qualität der Erkennung: In Tests mit europäischen Gesichtern erzielt Recognize erstaunlich gute Ergebnisse – die Trefferquote liegt bei korrekt belichteten Porträtaufnahmen jenseits der 95 Prozent. Sobald aber die Bilder verwackelt sind, ungünstige Lichtverhältnisse herrschen oder Personen Masken tragen, sinkt die Quote deutlich. Auch Profilansichten werden häufig nicht erkannt. Das ist technisch bedingt: Das neuronale Netz wurde überwiegend mit Frontalfotos trainiert, und die zugrundeliegenden Datensätze (z.B. Labeled Faces in the Wild) stammen hauptsächlich aus westlichen Populationen. Eine echte Diversität in den Trainingsdaten sucht man vergebens. Das ist kein Nextcloud-spezifisches Problem, sondern ein grundsätzliches der KI – dennoch sollte man sich der Limitation bewusst sein.

Datenschutzaspekte: Lokal, lokal, lokal

Das entscheidende Plus der Nextcloud-Gesichtserkennung gegenüber Diensten wie Google Fotos oder Apple iCloud ist die vollständig lokale Verarbeitung. Kein Bild verlässt je den eigenen Server. Während Google jedes hochgeladene Foto durch seine Cloud-KI jagt und das Ergebnis unter Umständen für Werbezwecke oder andere Dienste nutzt, bleiben die Berechnungen in der selbstgehosteten Umgebung. Das ist nicht nur eine rechtliche Frage, sondern auch eine der digitalen Souveränität. Wer darauf Wert legt – und das sollten IT-Entscheider tun – hat mit Nextcloud die Freiheit, die Verarbeitung selbst zu steuern.

Allerdings: Lokal bedeutet nicht automatisch sicher. Das trainierte Modell (in der Regel eine kompilierte TensorFlow-Datei mit Gewichten) wird von Recognize aus einem GitHub-Repository heruntergeladen. Besonders vorsichtige Admins sollten diesen Download nur über gespiegelte, vertrauenswürdige Quellen vornehmen oder das Modell selbst trainieren – letzteres ist aber ein akademisches Unterfangen, das Programmierkenntnisse und große Mengen an Bilddaten erfordert. Die Nextcloud-Entwickler haben hier pragmatisch gehandelt: Das Modell ist vorgefertigt, wird selten aktualisiert und kommt aus einem offiziellen Repository. Ein Restrisiko bleibt, aber es ist kalkulierbar.

Noch ein Punkt: Die sogenannten Embeddings – also die mathematischen Repräsentationen der Gesichter – werden in der lokalen Datenbank abgelegt. Diese Daten sind theoretisch auslesbar, aber ohne die Originalbilder und ohne die Möglichkeit, aus einem Embedding ein Bild zu rekonstruieren, ist die Privatsphäre gewahrt. Anders als etwa bei biometrischen Passbildern handelt es sich nicht um direkt personenbezogene Informationen. Dennoch: Ein Angreifer mit Zugriff auf die Datenbank könnte zumindest feststellen, wie viele verschiedene Personen im System erfasst sind und wie oft sie vorkommen. Das mag für eine kleine Firma irrelevant sein, aber für eine Behörde ist es ein Thema.

Performance und Skalierbarkeit: Die Krux mit der Hardware

Kommen wir zum schmerzhaften Punkt: Die Gesichtserkennung in Nextcloud ist kein Selbstläufer. Wer seinen Server mit einem günstigen VPS der unteren Mittelklasse betreibt und dort 20.000 Fotos erwartet, wird enttäuscht werden. Die App Recognize ist zwar modular aufgebaut und verarbeitet Bilder asynchron über Occ-Jobs (also Kommandozeilen-Befehle), aber die CPU-Last ist enorm. Ein VPS mit 2 virtuellen Kernen und 4 GB RAM kommt schnell an seine Grenzen – die Analyse friert quasi das gesamte System ein, wenn nicht genügend Ressourcen eingeplant sind.

Die Empfehlung für ernsthafte Nutzung: Ein dedizierter Server oder eine VM mit mindestens 4 CPU-Kernen, 8 GB RAM und im Idealfall einer mittelklassigen NVIDIA-GPU. Die Recognize-App unterstützt CUDA – damit sinkt die Verarbeitungszeit pro Bild von mehreren Sekunden auf unter 0,1 Sekunden. Das macht den Unterschied zwischen einer tagelangen Wartezeit und einem über Nacht erledigten Durchlauf. Leider ist die GPU-Beschleunigung nicht trivial einzurichten: Man benötigt die CUDA-Toolkit, cuDNN und muss das PHP-Modul der App entsprechend kompilieren. Das ist kein Hexenwerk, aber für Admins ohne Erfahrung mit TensorFlow durchaus eine Hürde. Nextcloud selbst bietet dazu keine GUI – es wird vorausgesetzt, dass man die Systeme administrieren kann.

Ein weiterer Aspekt ist die Skalierung bei mehreren Servern. Nextcloud kann in einem Cluster mit verteilten Datenbanken und Shared Storage betrieben werden. Recognize läuft dann auf dem Webserver-Node, der die Bilder auch verarbeitet. Es gibt aber keine echte Lastverteilung innerhalb der App. Man könnte die Occ-Jobs zwar auf mehrere Worker verteilen, aber die Koordination über die Datenbank birgt Risiken von Doppelerkennungen oder Kollisionen. Hier ist Eigenentwicklung gefragt – Nextcloud selbst liefert keine fertige Lösung für Multi-Node-Setups. Kurz: Für große Organisationen mit vielen Bildern und dezentraler Infrastruktur ist die Gesichtserkennung noch nicht enterprise-ready.

Der Workflow: Einrichten und Konfigurieren

Wer sich dennoch auf das Abenteuer einlassen möchte, bekommt Recognize über den Nextcloud-App-Store installiert. Nach der Aktivierung erscheint ein neuer Bereich in den Einstellungen für die Bilderverwaltung. Die App fordert auf, die maschinellen Modelle herunterzuladen – das sind meist einige hundert Megabyte. Danach kann man mit dem Befehl occ recognize:classify den Scan aller vorhandenen Bilder starten. Oder man richtet einen Hintergrund-Job ein, der regelmäßig neue Bilder verarbeitet. Letzteres empfiehlt sich, denn so wird der Ordner ständig aktuell gehalten.

Spannend wird es bei der Benennung der Personen: Recognize gruppiert erkannte Gesichter als „Unbekannt“ und schlägt vor, ihnen einen Namen zu geben. Der Benutzer geht dann durch die Galerie, bestätigt oder korrigiert die Zuordnungen. Das klingt einfach, aber bei vielen Bildern kann das manuelle Bestätigen zur Sisyphusarbeit werden. Erfreulicherweise lernt das System mit: Bestätigt man eine Person zehnmal, verbessert sich die Trefferquote für ähnliche Aufnahmen. Das ist ein Soll-Prozess – wie gut das in der Praxis funktioniert, hängt von der Vielfalt der Bilder ab.

Ein kleiner Knackpunkt: Recognize arbeitet ordnerbasiert. Wenn man seine Fotos aus unterschiedlichen Quellen (Handy, Kamera, Screenshots) lediglich in einen gemeinsamen „Photos“-Ordner legt, werden alle durchsucht. Das kann unerwünschte Ergebnisse liefern: Logos von Firmen, Poster oder sogar Tiere werden fälschlicherweise als Gesichter erkannt. Eine manuelle Filterung ist nicht vorgesehen. Hier hilft nur, die App auf bestimmte Unterordner zu beschränken – das aber erfordert eine Änderung der Konfigurationsdatei oder einen eigenen Skriptaufruf mit Pfadangabe. Die Entwickler haben das leider nicht in die GUI integriert.

Darüber hinaus gibt es die App Recognize Photos (ein Fork) und das ältere Face Recognition, das noch in einigen Installationen existiert. Keine dieser Lösungen ist ausgereift genug, um mit Googles Album-Tags mitzuhalten. Aber der Ansatz, alles selbst zu steuern, rechtfertigt für viele Admins den Aufwand.

Alternativen und Abgrenzung: Was Nextcloud nicht kann

Man sollte sich keine Illusionen machen: Die Gesichtserkennung von Nextcloud ist kein Google Fotos-Ersatz. Google kann zusätzlich Orte, Objekte, Stimmungen erkennen und – viel wichtiger – eine konsistente, schnelle und durchsuchbare Oberfläche bieten. Nextcloud zeigt zwar in der Galerie-App einen Filter „Personen“ an, aber die Suchperformance bei mehreren tausend Tags lässt nach. Die Ergebnisliste wird oft unvollständig geladen, wenn der Server unter Last steht. Auch die mobile App unterstützt bislang keine Gesichtserkennung – man kann also keine Fotos per Gesichtssuche auf dem Smartphone finden, ohne den Umweg über die Web-Oberfläche.

Ein weiterer Punkt ist die Integration mit anderen Nextcloud-Funktionen: Die Tags der Gesichtserkennung werden nicht automatisch in den Dateinamen oder die System-Tag-Liste übernommen. Sie sind ein eigener Datenbestand der Recognize-App. Wer also seine Fotos mit Tags versehen möchte, um sie über die Suchleiste zu finden, muss doppelt arbeiten. Manche Admins haben sich damit geholfen, die Ergebnisse per Skript in Exif-Daten oder Sidecar-Dateien zu schreiben – aber das ist Bastellösung, keine Standardfunktion.

Es gibt auch externe Dienste wie PhotoPrism oder Piwigo, die als reine Fotoverwaltung konzipiert sind und oft eine bessere Gesichtserkennung bieten. PhotoPrism nutzt TensorFlow und bietet sogar eine Gesichtssuche mit Ähnlichkeitsabgleich. Der Nachteil: Man muss eine zusätzliche Anwendung betreiben, die nicht in die Nextcloud-Welt integriert ist. Daten müssen zwischen beiden Systemen synchronisiert werden – das bedeutet doppelten Speicher oder Symlinks. Für viele ist das zu umständlich. Nextcloud als zentrale Plattform hat den Vorteil, dass alle Daten an einem Ort liegen und Dienste wie Kalender, Talk und Office zusammenspielen. Die Frage ist, ob man diese Integration für die etwas schwächere Gesichtserkennung in Kauf nimmt.

Ausblick: KI und Nextcloud Hub

Die Nextcloud-Gesichtserkennung ist kein statisches Produkt. Die Entwickler arbeiten an einer neuen Generation von KI-Features, die im Nextcloud Hub 4 und 5 angedeutet wurden. Es gibt Pläne, die Bilderkennung auf Objekte und Szenen auszuweiten, ähnlich wie es andere Plattformen bereits machen. Aber der Fokus liegt derzeit auf Stabilität und Performance-Verbesserungen. Die Version 2024 von Recognize bringt eine optimierte Batch-Verarbeitung mit, die weniger Speicher verbraucht. Auch die Unterstützung für Apples Metal und AMD ROCm ist in der Diskussion – das würde die GPU-Auswahl vergrößern. Bisher sind das aber nur Wunschlisten.

Spannend ist auch die Integration von Natural Language Processing (NLP) für Textdokumente. Nextcloud hat gezeigt, dass sie bereit sind, maschinelles Lernen im eigenen Haus zu betreiben. Die Gesichtserkennung ist der erste Schritt zu einer breiteren KI-Strategie. Wenn es gelingt, die Modelle so zu optimieren, dass sie auf handelsüblicher Serverhardware ohne Spezialbeschleunigung laufen – etwa durch Quantisierung oder kleinere Netze –, dann könnte das Feature massentauglich werden. Ein interessanter Aspekt ist die Kooperation mit dem Unternehmen Collabora, die den Dokumenteneditor mit einer KI-Vorschau versehen haben. Vielleicht fließen dort Erkenntnisse für die Bilderkennung ein.

Doch bis dahin bleibt ein schaler Nachgeschmack: Die Gesichtserkennung ist ein Versprechen, das Nextcloud seit Version 20 immer wieder neu auflegt. Die Basistechnologie ist vorhanden, aber die Umsetzung lässt zu wünschen übrig. Für absolute Datenschutz-Puristen ist sie dennoch ein Segen – sie liefert die einzige vollständig selbst kontrollierte Gesichtserkennung im gesamten Cloud-Umfeld. Für den normalen Anwender, der einfach nur seine Urlaubsfotos sortieren will, ist der Aufwand hingegen kaum zu rechtfertigen. Hier stimmt die Relation zwischen Zeitinvestition, Hardwarekosten und Ergebnis nicht.

Praxistipps für Admins

Wer sich trotz der Einschränkungen für die Nextcloud-Gesichtserkennung entscheidet, sollte einige Dinge beachten. Erstens: Die Analyse vor dem eigentlichen Betrieb durchführen, nicht während der Arbeitszeit. Verwenden Sie occ recognize:classify --update-model in einer ruhigen Nacht, um die Grundlast abzufangen. Zweitens: Nutzen Sie die Protokollierung. occ recognize:classify --verbose gibt detaillierte Ausgaben, mit denen sich Fehler in der Modellinitialisierung finden lassen. Drittens: Überlegen Sie, ob Sie die Recognize-App wirklich auf dem Hauptserver betreiben wollen. Viele Admins haben bessere Erfahrungen mit einem separaten Worker-Container gemacht, der die Bilder über NFS oder SMB zugreift und die Ergebnisse per Datenbank-Update zurückschreibt. Das verhindert, dass die Nextcloud-Instanz während der Verarbeitung lahmt.

Ein weiterer, oft übersehener Punkt: Die Recognize-App erstellt eine eigene Tabelle in der Nextcloud-Datenbank. Bei sehr vielen Bildern (ab 100.000) kann das die Performance der MariaDB/PostgreSQL beeinträchtigen. Es empfiehlt sich, Indizes separat zu überwachen und gegebenenfalls zu optimieren. Ein DBA sollte hier zumindest einen Blick darauf werfen. Die App selbst bietet keine Wartungsschnittstelle für verwaiste Einträge – das muss manuell per SQL geschehen, etwa nach einem Massenlöschen von Bildern.

Darüber hinaus: Nicht jede Nextcloud-Version verträgt sich mit dem aktuellen Recognize-Release. Es gab in der Vergangenheit inkompatible API-Änderungen zwischen Nextcloud 25 und 26, die dazu führten, dass Recognize nicht mehr startete. Erst ein Update der App half. Deshalb immer die Kompatibilitätsmatrix prüfen und vor einem Major-Upgrade der Cloud die Recognize-App deaktivieren und erst nach dem Update neu aktivieren. Klingt banal, aber genau solche Kleinigkeiten sind der Fluch vieler Nextcloud-Administratoren.

Wer mit der Recognize-App nicht glücklich wird, kann auf Face Recognition (veraltet) oder auf die Integration externer Dienste via API setzen. Letzteres ist aber nichts für schwache Nerven: Man müsste eine eigene Schnittstelle bauen, die Bilder an einen externen Dienst schickt und die Ergebnisse zurückliefert. Der Datenschutzvorteil wäre dahin. Also besser die Recognize-App akzeptieren oder auf die Gesichtserkennung verzichten – dritte Wege sind selten.

Fazit: Braucht man die Gesichtserkennung in Nextcloud?

Die Antwort ist zweigeteilt. Für Organisationen, die aus Compliance-Gründen keine Gesichtserkennung in der Cloud verwenden dürfen, ist die Nextcloud-Lösung die einzig praktikable Option. Sie erfüllt ihren Zweck – mit Abstrichen bei Performance und Bedienkomfort. Für private Nutzer, die bereit sind, Zeit in die Einrichtung zu investieren und über entsprechende Hardware verfügen, kann Recognize eine Bereicherung sein. Wer aber schnelle, visuell ansprechende und umfangreiche Bilderverwaltung sucht, sollte zu PhotoPrism oder Google Fotos greifen. Nextcloud hat hier noch viel Nachholbedarf.

Es ist typisch für die Open-Source-Welt: Funktionen entstehen oft aus einer Notwendigkeit heraus und nicht aus einem marktorientierten Produktdesign. Nextcloud-Gesichtserkennung ist ein Paradebeispiel dafür. Sie ist da, sie funktioniert, aber sie ist kein Glanzstück. Wer sich bewusst ist, dass man mit einer selbst gehosteten Lösung immer einen Teil des Komforts opfert, kann damit leben. Die Hoffnung bleibt, dass die Entwickler das Feature in den nächsten Versionen auf ein Niveau heben, das auch den Vergleich mit kommerziellen Angeboten nicht scheuen muss. Bis dahin gilt: Gesichtserkennung ja – aber mit realistischen Erwartungen.