Tafel IX: Sprache und Träumen

18.2.2026
Täglich können wir beobachten, wie Bilder, die mithilfe Künstlicher Intelligenz generiert wurden, auch auf unseren Umgang mit der Fotografie einwirken. Von der Produktion bis zum Gebrauch wandeln sich die fotografischen Praktiken – und mit ihnen auch das Verständnis davon, was eine Fotografie zeigt und ist. Im Rahmen des Seminars »The Pencil of Nature, 1844–2026«, geleitet von Steffen Siegel, haben Studierende im B.A. Fotografie im Wintersemester 2025/2026 diese Fragen diskutiert. Ganz nach dem Vorbild von William Henry Fox Talbots berühmten Fotobuch haben sie eine eigene Tafel entworfen, die sich mit den Herausforderungen der Künstlichen Intelligenz auseinandersetzt. Marla Koether studiert seit 2022 im B.A. Fotografie an der Folkwang Universität der Künste. Hier ist ihr Beitrag.
Mit der CFG (Classifier-Free Guidance)-Skala lässt sich im Generierungsprozess Einfluss darauf nehmen, in welchem Ausmaß sich die KI an die Bildbeschreibung hält. Somit kann aktiv in das eingegriffen werden, was sonst in Diffusionsmodellen ein separater Bildklassifikator übernimmt und technisch verborgen bleibt.
Einstellen lässt sich der Wert zwischen 1 und 30. Je höher, desto mehr entspricht das generierte Bild dem Prompt. Ein zu empfehlender Bereich liegt zwischen 7 und 10, da dieser in der Regel ein Gleichgewicht zwischen Abweichung und Treue zu der Eingabeaufforderung darstellt. Die Beobachtungen zeigen, dass ein zu hoher Wert ebenfalls nicht mehr der Eingabe entspricht. Zudem lässt sich feststellten, dass selbst innerhalb der empfohlenen Werte keine vollständige Kontrolle über das Bildergebnis entsteht und willkürliche Ergebnisse möglich sind.
Neues wird in der generativen KI geschaffen, doch nie ohne die schon vorhandenen Grundlagen. Zudem scheint ein Spielraum dieser technischen Parameter für die Bildgenerierung nötig zu sein, da die Bildergebnisse sonst zu extremen Darstellung führen. Dieses Abweichen lässt sich intuitiv als Kreativität und Träumen beschreiben. Ist dies eine paradoxe Beobachtung? Immerhin sind Kreativität, Lösungsfindung und Neuerschaffung dem menschlichen Wesen zugeordnet.
Die fotografische Technik wird kontinuierlich weiterentwickelt, bis sie präzise, technisch perfekte und wahrheitsgetreue Abbildungen ohne ungewollte Elemente ermöglicht. Im Gegensatz zu dieser Genauigkeit wird das »Herumspinnen« von der KI erwartet und ist explizit bei einer knappen Eingabe erwünscht. Selten wird im Prompt eine gewünschte Form konsequent bis ins letzte Detail beschrieben, die Textbeschreibung ist nur stichpunktartig. Somit wird bei der Texteingabe, meist absichtlich, ein Teil des »Denkens« der KI überlassen.
Dadurch findet eine Verlagerung von Vorstellung und Entscheidung statt: Es muss keine ausformulierte Vorstellung im Vorhinein bestehen. Mit der Erzeugung von Bildvorschlägen können diese zunächst betrachtet werden. Erst danach erfolgt die Bewertung, ob das Ergebnis passend ist. In diesem Möglichkeitsraum können dann zusätzlich durch Sprache – ungebunden an Ort, Zeit oder Gegenstand – gezielt Bildteile verändert werden. In gewisser Weise illustriert das Bild die Sprache.