Prompting für Fortgeschrittene - Prompt-Engineering

Sebastian Bauer
2. Aug. 2025
19 Min. Lesezeit

Einführung: Warum gutes Prompting entscheidend ist – auch für Fortgeschrittene

Selbst fortgeschrittene Anwender:innen von KI-Tools wissen: Die Grundregel lautet: Gute Prompts = gute Ergebnisse. Je präziser und durchdachter wir unsere Eingaben (Prompts) gestalten, desto besser versteht die KI unsere Absicht und liefert relevante Antworten.

Fortgeschritten heißt nicht, dass man sich auf Standard-Prompts ausruhen kann - im Gegenteil: Gerade wenn man regelmäßig mit Text- und Bild-KIs arbeitet, entscheidet die Feinabstimmung der Prompts über mittelmäßige oder herausragende Ergebnisse.

Warum lohnt es sich also, weiter an den Prompt-Fähigkeiten zu feilen? Erstens können wir mit strategischem Prompting den Output deutlich optimieren – die KI liefert z.B. ausführlichere, zielgenauere oder kreativere Resultate, was den Bedarf an Nachbearbeitung verringert.

Zweitens erschließen fortgeschrittene Techniken wie Rollen, Chain-of-Thought oder mehrstufige Prompts ganz neue Anwendungsmöglichkeiten. Und drittens: Die KI-Modelle werden immer leistungsfähiger; um ihr volles Potenzial auszuschöpfen, müssen wir lernen, sie gezielt zu steuern. Gutes Prompting ist also ein Skill, der sich auszahlt – im Berufsalltag ebenso wie beim privaten Tüfteln mit den neuesten KI-Spielereien.

Im Folgenden steigen wir tiefer ein: Von fortgeschrittenen Strategien für Text-KIs (ChatGPT, Gemini etc.) über ausgefeilte Bild-/Video-/Musik-Prompts bis hin zu Toolspezifika. Los geht’s mit den Textmodellen.

Strategien für Text-KIs (z. B. ChatGPT, Gemini)

Fortgeschrittenes Prompting bei Sprachmodellen bedeutet vor allem: bessere Strukturierung und Kontext für die KI schaffen. Hier sind zentrale Techniken, die erfahrende Nutzer:innen anwenden:

Prompt-Strukturierung: Aufbau ist alles

Ein guter Prompt besteht oft aus mehreren Bausteinen, die in sinnvoller Reihenfolge angeordnet sind. Typische Elemente sind z.B. Kontext oder zusätzliche Infos, Beispiele, eine Rollenanweisung, die eigentliche Aufgabe (Directive) sowie ggf. gewünschtes Ausgabeformat. Fortgeschrittene bauen Prompts gezielt so auf, dass die KI alle nötigen Hinweise bekommt, bevor die Aufgabe gestellt wird. Eine empfohlene Reihenfolge lautet etwa: Beispiele/Kontext → Rolle → Aufforderung → Format. Dadurch verarbeitet das Modell zuerst Hintergrund und Persona und fokussiert sich dann auf die konkrete Anweisung.

Wichtig ist vor allem, klar und unzweideutig zu formulieren. Statt vager Bitten („Schreibe etwas über X“) also lieber präzise sagen, was gefordert ist („Gib mir eine kurze Zusammenfassung von Artikel X in drei Spiegelstrichen“). Wenn ein bestimmtes Format gewünscht ist – etwa eine Liste, Tabelle oder bestimmter Tonfall – sollte dies explizit im Prompt stehen.

Zum Beispiel: „Antworte in einem Satz auf die folgende Frage:“ oder „Gib die Ausgabe als JSON-Objekt formatiert zurück.“ Solche Formatvorgaben stellen sicher, dass die KI nicht am Ziel vorbeiredet. Insgesamt gilt: Je besser strukturiert (und vollständiger) der Prompt, desto weniger muss man die Antwort nachträglich manuell anpassen.

Rollenvergabe: Die KI in die richtige Persona versetzen

Eine sehr wirkungsvolle Technik ist es, dem Modell eine Rolle oder Persona zuzuweisen. Indem wir mit „Du bist ein…“-Anweisungen einen Kontext schaffen, ändern wir Stil, Wissen und Perspektive der KI-Antwort. Zum Beispiel führt „Du bist ein erfahrener Arzt. Basierend auf den folgenden Symptomen, stelle eine Diagnose…“ dazu, dass die Antwort medizinisch fundierter und fachsprachlicher ausfällt. Genauso kann „Handle als kreativer Werbetexter…“ die KI veranlassen, im Marketing-Jargon und mit mehr Wortwitz zu formulieren.

Für fortgeschrittene Nutzer:innen ist Rollenvergabe fast schon Standard, um Ton und Detailgrad zu steuern. Die KI lässt sich so zum Fachexperten, Übersetzer, Interviewer, Lehrer usw. machen. Dieser Kontext wirkt wie ein Filter: Das Modell wählt aus seinem Wissen das aus, was zur Rolle passt, und formatiert die Antwort entsprechend. Besonders bei spezialisierten Aufgaben (etwa Programmierfragen, juristischen Einschätzungen oder wissenschaftlichen Erklärungen) lohnt es sich, das Modell in die passende Expertenrolle zu bringen – man bekommt präzisere und relevantere Ausgaben.

Tipp: Man kann auch Stilrollen vergeben („Du bist ein Stand-up-Comedian…“ für humorvolle Antworten) oder kombinieren („Du bist ein britischer Historiker und sollst in lockerem Ton…“). Wichtig ist, die Rolle am Anfang des Prompts klar zu definieren, damit der Rest der Eingabe davon geprägt wird.

Chain-of-Thought-Prompting: Schrittweises Denken fördern

Viele LLMs neigen dazu, eine Frage sofort direkt zu beantworten. Chain-of-Thought (CoT)-Prompting ermuntert die KI hingegen, ihren Denkprozess offenzulegen und Schritt für Schritt zu lösen, bevor die finale Antwort kommt. Einfach gesagt, bitten wir das Modell, zuerst alle Überlegungen aufzuschreiben und dann zum Ergebnis zu gelangen (ähnlich wie man es von Mathe-Lösungswegen kennt).

Praktisch erreicht man das, indem man an den Prompt z.B. anfügt: „Denke Schritt für Schritt.“ oder „Zeige deinen Lösungsweg.“ – erstaunlicherweise genügen solche Hinweise oft, um detailliertere, logischere Ausgaben zu bekommen. Forschungen haben gezeigt, dass selbst ein einfacher Zusatz wie „Löse in einzelnen Schritten“ die Performance bei komplexen Aufgaben deutlich steigert.

Ein Beispiel verdeutlicht den Unterschied:

Ohne Chain-of-Thought: Prompt: „Was kostet es, einen 15 m² Raum zu streichen?“
Antwort: „Etwa 150–300 €.“
Mit Chain-of-Thought: Prompt: „Was kostet es, einen 15 m² Raum zu streichen? Denke Schritt für Schritt.“
Antwort: *„Lass mich das schrittweise durchrechnen:
1. Wandfläche berechnen: 15 m² Boden bedeutet ca. 45–50 m² Wandfläche…
2. Materialkosten: 2–3 Liter Farbe (25–45 €) + Grundierung (15 €) + Zubehör (20 €)
3. Arbeitszeit: 1–2 Tage Eigenarbeit oder 200–400 € Handwerker
4. Gesamtkosten: 60–80 € (Eigenarbeit) oder 260–480 € (mit Handwerker).“

Wie man sieht, liefert die KI mit CoT-Anweisung eine ausführliche Herleitung statt nur einem groben Schätzwert. Für anspruchsvolle Probleme (Rechenaufgaben, logische Rätsel, Planungsfragen etc.) ist dieses „Denke laut“-Prinzip Gold wert – es erhöht die Nachvollziehbarkeit und oft auch die Genauigkeit der Ergebnisse. Fortgeschrittene Nutzer setzen CoT daher gezielt ein, wenn sie merken, dass das Modell sonst zu kurz denkt oder Fehler macht. Übrigens: Man kann Chain-of-Thought auch in Kombination mit Beispielen nutzen (siehe nächster Punkt), oder dem Modell sogar eine vorgegebene Denkschritt-Struktur aufzwingen (Manual CoT). Experimentiere ruhig damit, z.B. „1. Analysiere das Problem, 2. Überlege Optionen, 3. triff eine Entscheidung“ – du wirst sehen, wie die KI diesen Ablauf übernimmt.

Few-Shot vs. Zero-Shot: Beispiele geben für bessere Ergebnisse

Zero-Shot bedeutet, der KI wird eine Aufgabe gestellt, ohne dass sie zuvor Beispiele gesehen hat – das Modell muss also aus dem Stand reagieren. Few-Shot hingegen heißt, wir geben ein paar Beispiel-Interaktionen im Prompt vor, damit das Modell daraus lernt, was wir erwarten. Insbesondere bei komplexeren oder speziell formatierten Aufgaben kann Few-Shot-Prompting drastisch helfen.

Der Unterschied lässt sich leicht zeigen. Angenommen, wir möchten aus Nutzer-Feedback die wichtigsten Infos extrahieren.

Zero-Shot Prompt: „Extrahiere die wichtigsten Informationen aus diesem Produktfeedback.“→ Die KI müsste selbst erraten, wie die Ausgabe strukturiert sein soll, und könnte z.B. einfach einen Fließtext antworten.
Few-Shot Prompt: Wir liefern erst Beispiele: „Extrahiere die wichtigsten Informationen aus Produktfeedback:
Feedback: \"Die App stürzt ständig ab... ansonsten gefällt mir das Design.\"Extraktion: - Problem: App-Absturz beim Foto-Upload- Positiv: Gutes Design
--- (weiteres Beispiel) ---
Neues Feedback: \"Die neue Suchfunktion findet nichts... Der Checkout funktioniert aber super.\"Extraktion: ???“*
Jetzt versteht die KI das Format und wird die Lücken analog ausfüllen (Problem/Positiv etc.).

In der Praxis bewirkt Few-Shot also Mustererkennung durch Kontext: Das Modell sieht in den Beispielen, wie Eingabe und gewünschte Ausgabe aussehen, und ahmt dies nach. Studien mit GPT-3 zeigten schon 2020, dass wenige Beispiele die Qualität auf vielen NLP-Aufgaben dramatisch verbessern können – bei modernen Modellen wie GPT-4, Claude oder Gemini ist das noch ausgeprägter. Man erreicht höhere Präzision, weil das Modell Format und Stil aus den Beispielen übernimmt, und hat mehr Kontrolle (man kann in Beispielen Sonderfälle vormachen, um Fehlverhalten zu vermeiden).

Tipp: Wähle Beispiele sorgfältig aus, die verschiedene Facetten der Aufgabe abdecken (Diversität) und dem Schwierigkeitsgrad entsprechen, den du erwartest. Oft reichen 2–5 Beispiele, um einen guten Effekt zu erzielen – mehr kann helfen, aber verbraucht natürlich auch Prompt-Token. Beachte auch, dass die Beispiele vor der eigentlichen Frage/Aufforderung stehen sollten. Few-Shot-Prompting kostet zwar etwas mehr Prompt-Platz, aber dafür erspart es oft iterative Rückfragen oder Korrekturen.

Kontextmanagement im Chat-Verlauf: Das Gespräch auf Kurs halten

Gerade in längeren Chat-Sessions mit KI-Modellen stoßen selbst Profis an eine Grenze: das Kontextfenster. Jedes Modell kann nur eine bestimmte Anzahl Token (Worte bzw. Fragmente) im Blick behalten. Bei GPT-4 sind es je nach Version z.B. 8.000 bis 32.000 Token, bei anderen Modellen teils weniger. Fortgeschrittene Nutzer:innen managen daher aktiv den Verlauf, um relevante Infos präsent zu halten, ohne das Limit zu sprengen.

Ein paar erprobte Strategien:

Wesentliches rekapitulieren: Wenn der Chat schon lang ist, fass wichtige Punkte in eigenen Worten zusammen und gib diese Zusammenfassung der KI als neuen Kontext. So bleibt nichts Wichtiges auf der Strecke, selbst wenn der frühere Verlauf irgendwann abgeschnitten wird.
Themenwechsel = neuer Chat: Starte bei ganz neuen Aufgaben lieber eine frische Sitzung. Sonst schleppt das Modell unnötigen Ballast mit, der die Antworten verwässern kann. Fortgeschrittene öffnen oft parallele Chats für unterschiedliche Themen oder Projekte.
Anker setzen: Man kann der KI zwischendurch sagen: „Merke dir Folgendes…“ – garantieren kann man nicht, dass sie es ewig erinnert, aber es erhöht die Priorität dieser Info im Modellgedächtnis. In entscheidenden Fällen hilft es auch, Schlüsselinformationen in jeder Anfrage erneut kurz zu erwähnen („Zur Erinnerung: X ist bereits passiert…“).
Tokenverbrauch prüfen: Wenn man mit API oder Entwickler-Tools arbeitet, lohnt es sich, die Tokenanzahl des Verlaufs zu überwachen. Überschreitet man z.B. 4000 Tokens, könnte man ältere Teile zusammenfassen (ggf. mit einer zweiten KI). In normalen Chat-UIs geht das zwar nicht automatisch, aber ein Gefühl dafür zu haben, wann der Kontext zu groß wird, gehört zum Profi-Wissen.

KI-Frameworks wie LangChain bieten Funktionen, um Chat-Verläufe intelligent zu kürzen oder in eine Langzeit-“Memory” auszulagern. Doch auch ohne Programmierung können erfahrene Nutzer durch bewusste Kontextführung viel erreichen: Immer relevant bleiben, Unnötiges weglassen, bei Bedarf den Reset-Knopf drücken. So bleibt die KI fokussiert und man umgeht Situationen, wo das Modell plötzlich halluziniert, weil der Chat-Verlauf zu groß/unübersichtlich wurde.

Beispiel: Prompt-Optimierung in der Praxis

Abschließend zu diesem Kapitel noch ein kompaktes Vorher/Nachher-Beispiel, das mehrere der obigen Techniken kombiniert:

Vorher (naiver Prompt): „Erkläre einem Laien die Quantenphysik.“

Antwort: Eine ziemlich trockene, abstrakte Erklärung, eher verwirrend als erhellend.

Nachher (optimierter Prompt): „Du bist Wissenschaftskommunikator und nutzt kreative Vergleiche. Erkläre Schritt für Schritt in max. 5 Sätzen, was Quantenphysik ist, in einfachen Worten – so, dass es ein Laie versteht.“

Antwort: Eine klare, greifbare Erklärung der Quantenphysik, in der jedes Prinzip mit einem alltäglichen Vergleich veranschaulicht wird. Kürzer, verständlicher und ansprechend im Ton.

Man sieht: Durch Rollenvergabe (Wissenschaftskommunikator), Chain-of-Thought (Schritt für Schritt), Längen- und Stilangabe (max. 5 Sätze, einfachen Worten) hat sich die Qualität drastisch verbessert. Genau solche Verwandlungen erreichen fortgeschrittene Prompt-Tüftler täglich – und die gezeigten Strategien sind das Handwerkszeug dafür.

Strategien für Bild-/Video-/Musik-KI (z. B. DALL·E, Midjourney, Kaiber AI, Suno)

Generative KI ist nicht auf Text beschränkt – auch bei Bildern, Videos oder Musik spielt geschicktes Prompting eine entscheidende Rolle. Hier gelten teils eigene „Sprachen“ und Kniffe, um der KI die visuelle bzw. auditive Vision zu vermitteln. Schauen wir uns an, wie man für Bilder, Videos und Musik effektive Prompts formuliert.

Bild-Prompting: Tipps für Midjourney, DALL·E & Co.

Visuelle Modelle reagieren besonders auf Bildsprache – also Worte, die klare Bilder evozieren. Als fortgeschrittener User sollte man Prompts so malen, als würde man einer Person eine Szene beschreiben.

Einige Tipps:

Konkret statt vage: Allgemeine Adjektive vermeiden. Besser präzise Details nennen – Farben, Formen, Materialien, Stimmung. Nicht: „ein schönes Haus im Wald“. Besser: „rustikales Blockhaus aus dunklem Holz im dichten Tannenwald, im goldenen Abendlicht“. Spezifische Begriffe wie "smaragdgrünes Kleid" anstelle von "schönes grünes Kleid" ergeben deutlich passendere Farben. Zahlen nutzen, wo sinnvoll: statt "mehrere Katzen" lieber "drei Perserkatzen" – so gibt es keine Verwechslungsgefahr.
Struktur: Subjekt → Setting → Stil → Technik: Die Wort-Reihenfolge im Prompt beeinflusst das Ergebnis. Midjourney etwa gewichtet die ersten Begriffe am stärksten. Ein bewährtes Muster: Zuerst Hauptmotiv nennen (Wer oder was?), dann Umgebung oder Ort (Wo?), dann gewünschter Stil oder Epoche (Wie? z.B. „im Stil eines Renaissance-Gemäldes“), und zuletzt technische Details (Licht, Perspektive, Kamera). Beispiel nach diesem Schema: „Victorianischer Detektiv – in einer nebligen Gasse – im Film-Noir-Stil – dramatisches Chiaroscuro-Licht, Weitwinkelperspektive“. So führt man die Bild-KI logisch durch die Vision, und nichts Wichtiges fehlt.
Visuelle Sprache & Referenzen nutzen: Entwickle ein Vokabular für typische Bildbeschreibungen. Begriffe aus Kunst und Fotografie wirken Wunder: Statt „sehr detailliert“ schreibe z.B. „ultrarealistisch, 8K-Auflösung, HDR“; statt „cooles Bild“ eher „cinematisches Porträt, Bokeh-Hintergrund, kontrastreich“. Stil-Referenzen sind erlaubt: „im Stil von Studio Ghibli“ oder „surrealistisch wie bei Salvador Dalí“ (solange das jeweilige Tool Namen zulässt). Das fasst komplexe Ästhetik in wenige Worte. Auch Fototechnik-Stichworte bringen den Look voran: Begriffe wie „Tilt-Shift-Objektiv“, „Langzeitbelichtung“, „f1.4, 50 mm Linse“ oder „Makrofotografie“ sorgen für professionelle Effekte.
Prompt Layering & Gewichtung: Fortgeschrittene steuern Bild-KIs mit Mehr-Prompten und Gewichten. In Midjourney kann man z.B. einzelne Prompt-Teile mit :: gewichten. Beispiel: Berglandschaft::2 Nebel::0.5 Sonnenstrahlen::1.5 priorisiert die Berge stark, fügt sanften Nebel und moderate Lichtstrahlen hinzu. Solche gewichteten Prompts erhöhen die Prompt-Treue deutlich (in internen Tests um ~63 %). Ebenso kann man unerwünschte Elemente mit negativer Gewichtung unterdrücken, z.B. --no Baum oder Regen::-0.7 (je nach Syntax des Tools). Tipp: Liste komplexe Szenen als durchdachte Stichwortkette auf, gern in Gruppen: Zuerst Hauptfigur, dann Umgebung, dann Details. So entsteht ein visueller „Stufenbau“, den die KI konsistenter umsetzt.
Parameter ausschöpfen: Speziell Midjourney bietet zahlreiche Parameter-Optionen, mit denen Profis die Ausgabe feinjustieren. Beispiele:
- --stylize <0–1000>: Wie stark soll MJ eigene künstlerische Interpretation einbringen? Niedrige Werte (~50–100) zwingen photorealistische, promptgenaue Ergebnisse, hohe Werte (~600+) erlauben surreal-artistische Abweichungen.
- --ar <Breite:Höhe>: Seitenverhältnis festlegen. 16:9 für breite Kinomotive, 2:3 Hochformat für Porträts, 1:1 Quadrat für Instagram usw.. Das Format beeinflusst die Bildwirkung erheblich – also bewusst wählen, was zur Idee passt.
- --seed <Zahl>: Startzufallswert setzen. Damit kann man gezielt reproduzierbare Ergebnisse erzielen und Variationen kontrollieren. Nützlich, um z.B. eine Bildserie mit konsistentem Look zu erzeugen oder kleine Änderungen an einer Komposition zu testen.
- --quality (--q): Rechenaufwand bzw. Detailgrad bestimmen. Hohe Quality-Werte geben mehr Details, brauchen aber länger. Für schnelle Konzeptskizzen kann man --fast Modus oder geringere Quality nehmen, für finale Bilder --high/Standard.
- Weitere erwähnenswerte Parameter sind u.a. --chaos (Variation vs. Konsistenz steuern), --iw (Image Weight für Bild-Prompts), --v (Modell-Version wählen, z.B. ältere v5 für bestimmten Stil) etc. – ein ganzer Werkzeugkasten für Fine-Tuning. Fortgeschrittene probieren hier oft systematisch aus, um genau den gewünschten Look zu erzielen.
Referenzbilder einbinden: Ein mächtiger Ansatz ist, eigene Bild-Uploads als Input zu verwenden. Viele Bild-KIs (Midjourney, Stable Diffusion basierte Tools, DALL·E via Editor) erlauben, ein Bild vorzugeben, das dann fortgeführt oder stilistisch verwendet wird. In Midjourney kann man z.B. ein Foto und einen Prompt kombinieren, dazu --iw setzen, um den Einfluss des Bildes festzulegen. So lassen sich erstaunliche Effekte erzielen: etwa ein reales Porträt im Stil eines bestimmten Gemäldes, oder die Komposition eines Fotos beibehalten, aber das Umfeld verändern. Fortgeschrittene nutzen das auch, um einen konsistenten Charakter oder ein Branding-Element in mehreren KI-Bildern zu erhalten (immer wieder dasselbe Referenzbild einbauen). Wichtig: Das Ausgangsbild sollte zum gewünschten Resultat passen (z.B. ähnliche Perspektive/Beleuchtung, wenn man es stilisiert haben will).

Zusammengefasst: Je genauer und bewusster du visuelle Vorstellungen in Worte und Parameter gießt, desto besser „versteht“ die Bild-KI deine Idee. Anfänger tippen vielleicht einen Satz ein und hoffen auf Magie – Fortgeschrittene schreiben Mini-Drehbücher mit sensorischer Sprache, klarer Struktur und nutzen die technischen Stellschrauben. Dieser Aufwand spiegelt sich direkt in der Qualität der generierten Kunstwerke wider.

Video-Prompting (z. B. Kling AI)

Video- und Animations-KIs wie Kling ermöglichen es, aus Text und Bildern kleine Animations-Clips oder Musikvideos zu generieren. Das Prompting dafür umfasst neben der inhaltlichen Beschreibung auch zeitliche und visuelle Steuerung. Einige Anhaltspunkte für bessere Video-Prompts:

Ausgangsmaterial wählen: Kling arbeitet meist so, dass man ein Bild und (optional) einen Audiotrack als Basis hochlädt. Fortgeschrittene achten darauf, ein passendes Startbild zu nehmen – z.B. ein Artwork oder Foto, das der gewünschten Szene nahekommt – denn dieses Bild wird dann zum Leben erweckt. Wenn kein eigenes Bild vorliegt, beschreibt man im Prompt das Schlüsselsujet des Videos sehr prägnant (z.B. „eine neonbeleuchtete Cyberpunk-Stadt bei Nacht, fliegende Autos am Himmel“). Hier gilt wieder: Klar, aber knapp – Kling empfiehlt, den Text nicht zu überfrachten, da die Hauptelemente zählen.
Stil und Ästhetik festlegen: Ähnlich wie bei Bildern kann man auch für Videos den Look bestimmen. Kling bietet teils eine Galerie vorgefertigter Stile (z.B. „Cyberpunk Sketch“, „Vintage Watercolor“). Fortgeschrittene können aber auch manuell Stichworte eingeben, um den visuellen Stil zu lenken – etwa „Anime-Stil, leuchtende Farben, 2D-Comic-Look“ oder „realistischer Filmstil, körnige 16mm-Optik“. Diese Angaben beeinflussen Farbpalette, Detailgrad und Atmosphäre des Videos erheblich. Pro-Tipp: Wer unsicher ist, probiert verschiedene Stilstichworte mit ganz kurzen Test-Clips aus (siehe unten).
Bewegung und Kamera angeben: Anders als bei einem einzelnen Bild kommt bei Videos die Dimension der Bewegung hinzu. Tools wie Kling erlauben es, bestimmte Kamerafahrten oder Bewegungsrichtungen auszuwählen (z.B. Zoom, Schwenk, Rotation etc.) Überlege dir, was zur Szene passt: Ein langsamer Zoom-in erzeugt Spannung und Fokussierung, ein Panorama-Schwenk zeigt Umgebung, eine Rotation kann Dynamik oder Surrealität reinbringen. Fortgeschrittene wählen bis zu vier solcher Bewegungsarten aus, um das Video abwechslungsreich aber thematisch passend zu gestalten. Vermeide widersprüchliche Kombis (nicht gleichzeitig „zoom rein“ und „zoom raus“ – das geht technisch nicht).
Beat und Intensität abstimmen: Wenn ein Musikstück hinterlegt ist, kann die KI die Visuals auf den Beat reagieren lassen (audio reactivity). Man kann einstellen, wie stark die Animation auf die Musik reagieren soll. Ein hoher Wert bewirkt, dass z.B. bei jedem Bassschlag das Bild zuckt oder wechselt; ein niedriger Wert lässt das Bild eher gleichmäßig fließen. Überlege: Soll das Video wild auf den Rhythmus cutten (dann Reaktivität hoch, Intensität hoch) oder eher eine ruhige Stimmung halten (dann niedrige Werte)? Auch „Intensity“-Parameter steuert die Heftigkeit der Bewegungen generell – von subtilen Schwenks bis wilden Kameraschüttlern. Fortgeschrittene tasten sich hier ans Optimum heran, um weder Langeweile noch visuelle Reizüberflutung zu erzeugen.
Länge und Abschnittsweise arbeiten: Kling synchronisiert die Videolänge mit dem Audiotrack (bis max. ~10 Sekunden). Für längere Songs oder komplexe Videos kann man auch in Abschnitten denken: z.B. erst einen 10-Sekunden Teil rendern, dann nächsten oder das Lied splitten und verschiedene Prompts für Intro, Refrain etc. nutzen, die man später schneidet. Einige fortgeschrittene Nutzer erstellen so Szene-für-Szene individuell gestaltete Sequenzen (etwa unterschiedliche Stimmungen pro Songteil).
Trial & Error minimieren: Video-Rendering ist rechenintensiv, daher testet man Ideen besser zunächst in Kurzclips. Ein heißer Tipp: Lade nur einen 5–8 Sekunden Schnipsel deines Songs hoch und erstelle damit einen Vorschau-Clip. So kannst du schnell prüfen, ob Promptbeschreibung, Stil und Bewegungen zusammenpassen, ohne gleich viele Minuten zu generieren. Sobald das Ergebnis überzeugt, lässt du den ganzen Track durchlaufen. Dieses iterative Vorgehen spart Credits und Zeit, wie auch Kling selbst vorschlägt.

Unterm Strich ähnelt gutes Video-Prompting einem Regie-Briefing: Du legst fest, was zu sehen ist (Inhalt), wie es aussieht (Stil/Optik) und wie es sich bewegt (Kamera/Tempo). Fortgeschrittene nutzen die verfügbaren Steuerparameter voll aus und denken in Szenen. So entstehen mit Tools wie Kling eindrucksvolle Clips – von animierten Bildergalerien bis zu kompletten KI-Musikvideos – die ohne durchdachte Prompts so nicht möglich wären.

Musik-Prompting (z. B. Suno AI)

KI kann nicht nur Bilder zum Leben erwecken, sondern auch eigenständig Musik komponieren. Ein prominentes Beispiel ist Suno AI, das in Sekunden komplette Songs (inkl. Gesang) generiert. Hier gelten wiederum eigene Prompt-Grundlagen, da es um Genres, Stimmungen und ggf. Lyrics geht:

Thema/Lyrics vorgeben: Überlege zuerst, worüber der Song sein soll. Bei Suno kann man entweder ein Themen-Stichwort eingeben (z.B. „Sommernacht am Strand“) oder eigene Liedzeilen/Lyrics vorgeben. Fortgeschrittene, die Texte schreiben können, haben hier einen Vorteil: Mit eigenen Versen steuert man den Inhalt des Songs genau. Ansonsten reicht auch ein kurzes Stichwort oder eine Stimmung, die die KI dann lyrisch selbst ausarbeitet.
Stil/Genre wählen: Genauso wichtig ist die Angabe des musikalischen Stils oder Genres. Suno erwartet im Prompt typischerweise zwei Dinge: Thema und Stil. Letzteres umfasst Genre, Tempo, Instrumentierung und Gesangsart. Man kann z.B. schreiben: „im Stil eines 80er-Jahre Pop-Rock Songs, upbeat Tempo, mit weiblichem Lead-Gesang“. Die KI orientiert sich daran und erzeugt passenden Sound. Da direkte Künstlernamen nicht erlaubt sind (man kann also nicht einfach „klingt wie Coldplay“ schreiben), hilft es, Charakteristika berühmter Künstler zu umschreiben. Beispielsweise statt „wie Bruno Mars“ könnte man eingeben: „funkiger Pop, grooviger Rhythmus, männlicher souliger Gesang, tanzbar“, was ungefähr auf Bruno Mars hinausläuft. Oder „atmosphärischer Alt-Rock mit Ambient-Klängen, emotionale Klaviermelodien, männlicher Gesang“ für einen Coldplay-Vibe. Eine von Experten zusammengestellte Liste ordnet vielen bekannten Acts solche Stil-Beschreibungen zu – sehr hilfreich, um den richtigen Genre-Mix zu treffen.
Vokal-Tags und Besonderheiten: Suno kann offenbar verschiedene Stimmen und Stile erzeugen, von rappenden männlichen Vocals bis zu sanften weiblichen Hintergrundchören. Deshalb lohnt es sich, im Prompt auf solche Elemente einzugehen. Keywords wie "male vocals", "female vocals", "choir harmonies", "rap verse", "operatic vocals" etc. (ggf. ins Deutsche übersetzen, je nachdem was das System annimmt) können das Ergebnis stark beeinflussen. Ebenso kann man Stimmungen festlegen: „emotional and soulful“, „dark and heavy“, „uplifting and anthemic“ – alles, was man auch einem menschlichen Komponisten als Vorgabe geben würde. Je detaillierter der Stil umrissen ist, desto gezielter kann die KI komponieren.
Experimentieren und iterieren: Musik ist sehr subjektiv, und oft muss man etwas ausprobieren, um den gewünschten Sound zu treffen. Fortgeschrittene Nutzer gehen daher iterativ vor: Erst einen kurzen Prompt eingeben und den 30-Sekunden Song bewerten. Wenn z.B. der Genre-Mix noch nicht passt, justiert man die Beschreibung (etwa „weniger Elektronik, mehr akustische Instrumente“) und generiert neu. Manche Tools, eventuell auch Suno, erlauben Regenerierung mit Variation, d.h. man kann den gleichen Prompt mehrmals laufen lassen und erhält unterschiedliche Songs – dann den besten auswählen. Tipp: Denkbar ist auch, mehrere KI-Songs zu erzeugen und später manuell in einem Musikprogramm zusammenzuführen (z.B. Strophe von Version A + Refrain von Version B). Solche fortgeschrittenen Workflows sprengen zwar das reine Prompting, zeigen aber, wie kreative Nutzer mit KI-Musik umgehen.

Ein praktisches Beispiel für einen gelungenen Suno-Prompt könnte so aussehen: „Thema: Roadtrip durch Kalifornien. Stil: Eingängiger Indie-Rock mit 2000er-Jahre Vibes, E-Gitarren-Riffs, männlicher Hauptgesang, treibendes Schlagzeug, fröhliche Energie.“ Daraus könnte die KI einen upbeat Song generieren, der an Bands wie die Killers oder Vampire Weekend erinnert – ohne sie namentlich erwähnen zu müssen. Die Kunst besteht darin, die Essenz eines Stils in Worte zu fassen. Fortgeschrittene hören viel Musik und achten auf Beschreibungen, um ihr Prompt-Vokabular zu erweitern (z.B. wissen sie, dass „four-on-the-floor beat“ auf Disco hindeutet, oder „lush strings“ eine balladeske Orchester-Untermalung suggeriert).

Unterm Strich gilt bei Musik-Prompts: Thema festlegen, Sound klar umreißen, und nicht zu knapp sein. Ein einzelnes Wort wie „Rock“ wäre viel zu unbestimmt – besser eine Kombination: Subgenre, Tempo, Stimmung, Gesangstyp. So dirigierst du die KI wie einen Musikproduzenten. Und wenn der erste Wurf nicht perfekt ist, justiere und versuche es erneut, auch menschliche Musiker brauchen Iterationen.

Toolspezifische Tipps: Was bei welchem Modell besonders gut funktioniert

Jedes KI-Modell hat seine Eigenheiten – was beim einen hervorragend klappt, kann beim anderen kaum Wirkung zeigen. Als fortgeschrittene:r Nutzer:in lohnt es sich zu wissen, welches Tool in welchem Bereich glänzt und wie man seine Prompts je nach Modell anpasst. Im Folgenden einige konkrete Tipps zu häufig genutzten Modellen:

ChatGPT (GPT-4) vs. Google Gemini

OpenAIs ChatGPT (insb. GPT-4) und Googles Gemini sind beide fortschrittliche Sprach-KIs, aber mit leicht unterschiedlichem Profil. Allgemein gilt: Für reine Textaufgaben und Recherche ist ChatGPT meist stärker, für kreativ-gestalterische Aufgaben mit mehreren Modi punktet Gemini. ChatGPT (v.a. GPT-4) zeichnet sich durch sehr detailliertes Verständnis und analytische Tiefe aus – es eignet sich hervorragend, um lange Texte zusammenzufassen, komplexe Fragen zu beantworten oder Code zu erklären. Google Gemini hingegen betont Multimodalität: Es kann neben Text auch mit Bildern umgehen und bietet z.B. von Haus aus Sprachfunktionen (direkte Sprachgespräche). Außerdem hat Gemini den Vorteil, auf aktuelle Web-Informationen zuzugreifen (integrierte Google-Suche), während ChatGPT ohne Plugins auf seinen Trainingsstand begrenzt ist.

Was bedeutet das fürs Prompting? Bei ChatGPT kann man sich darauf verlassen, dass es lange Kontexte gut verdaut und präzise Texte produziert – also ruhig anspruchsvolle, umfangreiche Prompts stellen, Quellen angeben etc. Gemini dagegen kann man direkt nach tagesaktuellen Dingen fragen oder bitten, ein Bild zu beschreiben/auszugeben (falls das Feature aktiv ist), was ChatGPT so nicht kann. Beispiel: „Suche die neuesten Nachrichten zu KI-Regularien und gib eine Zusammenfassung.“ – Eine Aufgabe, bei der Gemini seinen Webzugriff ausspielen kann, während ChatGPT ohne Browsing hier passen müsste. Umgekehrt, wenn du einen langen Bericht analysieren lassen willst, hat ChatGPT den Ruf, sehr strukturiert und ausführlich zu antworten (da GPT-4 dafür optimiert wurde).

In Sachen Kreativität berichten Nutzer, dass Gemini bei freieren, künstlerischen Aufgaben (Story schreiben, Witze generieren, Bilder malen) teils flüssiger und unzensierter wirkt, während ChatGPT manchmal vorsichtiger agiert. Prompts à la „Erfinde eine Fantasy-Welt mit neuen Regeln“ könnten von Gemini mit sehr ausgefallenen Ideen beantwortet werden, während ChatGPT sachlicher bleibt – wobei sich das auch mit passender Rollenvergabe steuern lässt.

Ein weiterer Punkt sind Limitationen: ChatGPT (in der Plus-Version) hat ein festes Nachrichten-Limit pro Zeiteinheit, Gemini scheint hier großzügiger zu sein und erlaubt endloses Chatten ohne Blockade. Wenn du also iterativ mit der KI arbeiten möchtest (viele Rückfragen, Nachbesserungen), ist das bei Gemini eventuell weniger eingeschränkt.

Tipp: Probiere bei wichtigen Projekten ruhig beide aus – und variiere die Prompts leicht je nach Stärke. Ein Prompt für ChatGPT könnte mehr technische Tiefe und Struktur aufweisen, während du Gemini etwas „freier laufen lassen“ könntest, um kreative Ansätze zu bekommen. Geminis Antworten können dann mit ChatGPT weiterverarbeitet werden (oder umgekehrt). Fortgeschrittenes Arbeiten heißt oft auch, die Kooperation von Modellen zu nutzen: Das richtige Werkzeug für den jeweiligen Teilaufgabe.

Kurz gesagt: ChatGPT = Text-Profi und Recherche-Ass, Gemini = kreativer Allrounder mit aktuellen Infos. Passe deine Prompts entsprechend an – dann holst du aus beiden das Beste heraus.

Midjourney vs. DALL·E (Bild-KIs)

Midjourney und DALL·E sind zwei der bekanntesten Bildgeneratoren, doch sie haben unterschiedliche Stärken. Midjourney ist berühmt für seine hochqualitativen, ästhetisch ansprechenden Outputs – es erzeugt oft sehr realistische oder stilvolle Bilder mit erstaunlicher Konsistenz. Allerdings verlangt es dem User auch mehr ab: Ohne etwas Prompt-Engineering-Know-how geht bei Midjourney wenig; die Ergebnisse werden deutlich besser, wenn man die beschriebenen Parameter und Techniken nutzt. DALL·E 3 (bzw. GPT-4’s Bildmodus) hingegen glänzt durch Benutzerfreundlichkeit und Einbettung in ChatGPT. Es versteht natürliche Sprachbeschreibungen sehr gut und kann komplizierte Anweisungen direkt umsetzen, ohne dass man jeden Stilparameter kennen muss. Zudem bietet DALL·E Features wie Inpainting (gezieltes Bearbeiten von Bildbereichen per Prompt) und ist für ChatGPT-Plus-Nutzer zunächst kostenlos nutzbar.

Praktisch heißt das: Wenn du maximale Kontrolle über den Bildlook willst und bereit bist, Zeit in Prompt-Tuning zu stecken, ist Midjourney oft unschlagbar. Du kannst dort den Output durch Version-/Variantenwahl und Parameter so lange feilen, bis alles passt – sei es ein bestimmter Kunststil, eine bestimmte Komposition oder Auflösung. Midjourney liefert bei erfahrenem Prompting prompttreue, hochauflösende und stimmige Bilder, ideal für kreative Projekte, Concept Art, Fantasy-Szenen etc. Beachte aber: Midjourney läuft außerhalb von ChatGPT (etwa auf Discord oder Web) und hat kein eigentliches „Dialog“-Interface für Rückfragen – jede Änderung erfordert einen neuen Prompt oder Variationsbefehl.

DALL·E dagegen eignet sich hervorragend, wenn du schnell zu einem Ergebnis kommen willst oder lieber interaktiv arbeitest. Durch die Integration in ChatGPT kannst du in natürlicher Sprache iterieren: "Mach den Himmel etwas blauer und füge einen Vogel hinzu" – solche Folgeprompts sind mit DALL·E möglich, wodurch man auch ohne Fachwissen zum Ziel kommt. Für Einsteiger und Anwendungsfälle wie schnelles Prototyping ist das super. Außerdem ist DALL·E in manchen Bereichen regelrecht überlegen: z.B. wenn es um Text im Bild geht (Schriftzüge, Logos) oder das Einhalten komplexer Beschreibungen. Midjourney hat historisch Mühe mit lesbarer Schrift in Bildern, während DALL·E 3 erstaunlich korrekt Text generieren konnte (etwa ein Schild mit gewünschtem Wortlaut) – ein Pluspunkt, falls man so etwas braucht. DALL·E’s KI wirkt insgesamt wie ein folgsamer Assistent, der genau umsetzt, was beschrieben wurde, selbst wenn es fantasielos ist.

Ein wichtiger Unterschied sind auch die Inhaltsrichtlinien: OpenAIs DALL·E hat relativ strikte Regeln (z.B. keine realistischen Gesichter bekannter Personen, keine Gewalt, kein Nacktheit etc.), was manchmal kreative Ideen blockiert oder zu unerwünschtem Herausretuschieren führt. Midjourney hat ebenfalls Regeln, ist aber in einigen Aspekten etwas liberaler, was erlaubt ist (z.B. Fantasy-Gewalt, surrealer Horror – solange es nicht gegen die Richtlinien verstößt). Fortgeschrittene sollten das im Hinterkopf haben: Nicht jeder Prompt, der in Midjourney funktioniert, wird in DALL·E erlaubt sein und umgekehrt. Gegebenenfalls muss man Inhalte anders umschreiben oder das passende Tool wählen.

Bottom Line: Midjourney spielt seine Stärke bei Qualität, Detailtreue und künstlerischer Kontrolle aus – ideal für visuell Anspruchsvolle, die wissen was sie tun. DALL·E ist top für Benutzerfreundlichkeit, schnelle Iteration und textgeleitete Anpassungen – perfekt, wenn es unkompliziert und kooperativ sein soll. Der fortgeschrittene Anwender wird je nach Projekt entscheiden: Für das Hochglanz-Fantasy-Artwork eher Midjourney mit ausgeklügeltem Prompt; für die schnelle Illustration einer Idee oder CI-konforme Varianten lieber DALL·E mit ein paar Chat-Kommandos. Und warum nicht beide nutzen? – Oft kann man einen von Midjourney generierten Entwurf in DALL·E importieren und dort weiter verfeinern, oder umgekehrt.

Fazit: Die Kunst liegt im Detail – Warum sich gutes Prompting lohnt

Ob Text, Bild oder Ton – in allen Bereichen haben wir gesehen, dass die feinen Prompt-Details den Ausschlag geben. Fortgeschrittenes Prompting ist wie das Stimmen eines Instruments: Mit Übung hörst du die falschen Töne heraus (sprich: mittelmäßige Outputs) und weißt, an welchen Schrauben du drehen musst, um daraus etwas Großartiges zu machen. Jeder zusätzliche Kontext, jedes geschickt platzierte Beispiel, jede präzisere Formulierung kann die KI-Antwort ein großes Stück verbessern. Die Investition in diesen Skill spart am Ende Zeit und Nerven, denn die KI liefert auf Anhieb Ergebnisse, die näher an der Zielvorstellung sind, wodurch mühsame Korrekturschleifen entfallen.

Manchmal sind es wirklich winzige Änderungen, die die Magie ausmachen: Ein „Denke Schritt für Schritt“ im Prompt, ein spezifischer Kamera-Winkel im Bildprompt, oder die Wahl des richtigen Genres bei einem Musikprompt. Prompting ist damit eine Kunst für sich. Und wie bei jeder Kunst gilt: Man lernt nie aus. Die Modelle entwickeln sich weiter, und mit ihnen entstehen neue Techniken (z.B. Meta-Prompting, Prompt-Chaining über mehrere Modelle etc.). Für fortgeschrittene Nutzer:innen heißt das aber vor allem etwas Positives: Es bleibt spannend! Jeder Tag bietet Gelegenheit, kreative neue Ansätze auszuprobieren und die Grenzen dessen, was KI für uns erzeugen kann, weiter zu verschieben.

Abschließend lässt sich sagen: Gutes Prompting ist der Schlüssel, um KI-Werkzeuge wirklich meisterhaft zu nutzen – es lohnt sich also, diesen Schlüssel zu schmieden und immer weiter zu verfeinern. Viel Spaß beim Experimentieren und prompten – die KI-Welt steht dir offen, du musst nur die richtigen Worte finden.

Prompting für Fortgeschrittene - Prompt-Engineering

Einführung: Warum gutes Prompting entscheidend ist – auch für Fortgeschrittene