Demokratisierung Generativer KI –
Stable Diffusion von der
Entwicklung in die Praxis

Nominiert für den Deutschen Zukunftspreis 2024

 
Generative Künstliche Intelligenz hat einen Punkt erreicht, an dem nur noch große Technologieunternehmen KI-Modelle entwickeln und betreiben können, da nur sie über die erforderlichen Rechenressourcen verfügen. Das Ziel des nominierten Teams war es, die daraus resultierenden Abhängigkeiten zu lösen und KI-Modelle zu schaffen, die genauso leistungsfähig sind, aber deutlich weniger Rechenleistung benötigen – und damit generative KI zu demokratisieren.

Mit dem innovativen und leistungsfähigen KI-Modell "Stable Diffusion" ist es nun möglich, komplexe KI-Anwendungen auf herkömmlicher Nutzerhardware oder sogar auf einem gewöhnlichen Smartphone auszuführen.

Deutscher Zukunftspreis 2024: Team II (Foto: Ansgar Pudenz/DZP)
Deutscher Zukunftspreis 2024: Team II (Foto: Ansgar Pudenz/DZP)
©
Foto: Ansgar Puden/DZP
  • Prof. Dr. Björn Ommer, Ludwig-Maximilian-Universität München
    (Sprecher des Teams)
  • Dr.-Ing. Anna Lukasson-Herzig, nyris GmbH, Düsseldorf

 
Generative KI lernt die semantischen Details einer Szene, indem sie darauf abzielt, Inhalte wie Bilder zu synthetisieren. Ziel ist es, lokale Details eines Bildes und das große Ganze, den bedeutungsvollen Kontext, so gut wie möglich zu erkennen. Damit eine KI in der Lage ist, diese Zusammenhänge aus Trainingsdaten zu lernen, muss sie in der Regel sehr groß sein, also aus einem großen künstlichen neuronalen Netz bestehen. Aber genau das ist der Haken. Ein solches künstliches neuronales Netz benötigt in der Anwendung leistungsstarke, teure Rechenkapazitäten.

Um die Speicher- und Rechenkosten zu minimieren, wurde ein innovativer Ansatz gefunden: Anstatt Bilder direkt als eine Menge von Pixeln zu beschreiben, wurde zunächst eine neue, effiziente Bildbeschreibungssprache für lokale Bildregionen erlernt. Was macht das Bild eines Hundes aus? Ohren, Augen und das Fell an den verschiedenen Körperteilen sollten miteinander übereinstimmen. Es ist jedoch nicht notwendig zu wissen, wie jedes einzelne Haar im Fell gekrümmt ist, um ein gutes Bild eines Hundes zu erstellen. Dennoch können wir erkennen, ob das Fell kurz oder lang, glatt oder gelockt ist. Lokale Details werden effizient beschrieben, dann wird der weiträumige Kontext erfasst. Stable Diffusion sieht nicht nur die Bäume, sondern auch den Wald.

"Stable Diffusion" lernt dann eine robuste Darstellung von Objekten oder Szenen, indem es dem Bild zunächst Rauschen hinzufügt und es dann rekonstruiert. Dieses Rauschen wird in vielen kleinen Schritten entfernt, die nach und nach immer mehr Bilddetails zum Vorschein bringen. Die KI muss also eine robuste Repräsentation der Bildsemantik erlernen, um den globalen Kontext zu erfassen und damit das Original so gut wie möglich zu rekonstruieren.

Dieser Prozess führt auch zu dem Namen des Modells: stabile Diffusion. Der Name basiert auf dem physikalischen Prozess der Diffusion. Wenn man einen Tintentropfen in ein Glas Wasser gibt, ist es zunächst ein scharf abgegrenzter Tropfen, der im Wasser schwimmt. Doch dann löst sich der Tropfen auf, seine Umrisse verschwimmen, bis er schließlich strukturlos und völlig gleichmäßig das Wasser einfärbt. Der Grund dafür ist die ungerichtete Bewegung der einzelnen Farb- und Wasserteilchen, die Diffusion.

Deutscher Zukunftspreis 2024: Computerchips (Foto: Ansgar Pudenz/DZP)
Deutscher Zukunftspreis 2024: Computerchips (Foto: Ansgar Pudenz/DZP)
©
Foto: Ansgar Puden/DZP

Nimmt man nun ein Bild, das aus Pixeln besteht, und beginnt, die Pixel leicht zufällig zu bewegen, handelt es sich um eine Art digitalen Diffusionsprozess. Je öfter man die Pixel bewegt, desto unschärfer wird das Bild, bis es nur noch ein Rauschen ist.

Bei der stabilen Diffusion kehrt sich der Prozess bei der Bilderzeugung um. Man beginnt mit einem Bild aus reinem Rauschen, dann wird das Bild Schritt für Schritt verändert und es entstehen Strukturen, aus denen die gewünschten semantischen Einheiten und schließlich das gewünschte Bild entstehen. Ein umgekehrter Diffusionsprozess, der in einem stabilen Zustand endet.

Dadurch, dass die generative KI kompakt und effizient ist, wurde sie zu einem Katalysator für unzählige Anwendungen, weshalb es den Entwicklern wichtig war, die Software frei und offen für alle zugänglich zu machen. Nur so kann die Nutzung der generativen KI demokratisiert werden.

Die nyris GmbH, mit Sitz in Düsseldorf und Berlin, hat mit "Stable Diffusion" ein erfolgreiches Geschäftsmodell entwickelt. Das folgende Szenario: Eine komplexe technische Anlage hat einen Fehler. Das technische Personal kann ein defektes Bauteil lokalisieren und sogar fotografieren. Doch woher kommt dieses Bauteil? Es muss nun mühsam in großen Ersatzteilkatalogen gesucht und identifiziert werden. Die nyris Technologie schafft hier Abhilfe. In wenigen Sekunden kann anhand eines Fotos das richtige Bauteil identifiziert werden – auch wenn das Foto oft unter schlechten Lichtverhältnissen aufgenommen wurde und meist nicht einmal das gesamte Bauteil zeigt.

Das spart Zeit und Kosten bei der Reparatur. Für diese Technologie musste eine visuelle Suchmaschine mit Bildern aller Ersatzteile trainiert werden. Das Problem ist, dass es die Bilder der Ersatzteile nicht gibt, zumindest nicht in ausreichender Menge. Es gibt viele Bilder von Katzen. Bilder von spezifischen technischen Ersatzteilen gibt es nicht. An dieser Stelle kam Stable Diffusion ins Spiel: Mit Hilfe von Stable Diffusion wurden aus CAD-Daten, also technischen Zeichnungen der Ersatzteile, große Mengen fotorealistischer Bilder in unterschiedlichen Lichtverhältnissen generiert, mit denen die visuelle Suchmaschine trainiert wurde.

Die nyris GmbH hat gezeigt, dass es möglich ist, generative KI einzusetzen, auch wenn nur sehr wenige Stammdaten vorhanden sind, um entsprechende Systeme zu trainieren. Die Entwicklung dieser Technologie verschafft nyris eine führende Position auf dem Markt.

Das nyris-Team und die Entwickler am LMU-Lehrstuhl in München arbeiten eng zusammen, um "Stable Diffusion" weiterzuentwickeln und neue Anwendungen zu schaffen. Langfristiges Ziel ist es, die Möglichkeiten der generativen KI zu erweitern und vor allem die Kommunikation zwischen Mensch und Maschine effizienter zu gestalten. Hier liegt ein großes Potenzial für unser aller Zukunft, das es zu nutzen gilt.

Das Projekt wurde vom Bundesministerium für Bildung und Forschung vorgeschlagen.