KI & Technologie

Multimodale KI

KI-Systeme, die verschiedene Eingabeformen wie Text, Bild, Sprache und Video gleichzeitig verarbeiten können.

Definition

Multimodale KI bezeichnet KI-Systeme, die mehrere Datentypen gleichzeitig verarbeiten, verknüpfen und verstehen können – etwa Text, Bilder, Audio, Video oder auch Code. Im Unterschied zu rein textbasierten Modellen können multimodale Modelle Inhalte über verschiedene Sinne hinweg „zusammendenken“: Sie analysieren zum Beispiel ein Bild, beantworten dazu Fragen in Textform, erzeugen Bildbeschreibungen oder verbinden gesprochene Sprache mit eingeblendeten Grafiken. Moderne Modelle wie GPT-4o oder Google Gemini sind multimodal und erlauben etwa das Hochladen eines Fotos mit der Frage „Was siehst du?“ oder das detaillierte Analysieren eines Diagramms, inklusive Erklärungen, Zusammenfassungen oder Umwandlung in andere Darstellungsformen.

💡 Beispiel

Eine Lehrkraft fotografiert eine handschriftliche Schülerlösung und lädt das Bild in ein multimodales KI-Tool. Die KI erkennt die Handschrift, versteht die Matheaufgabe, analysiert den Rechenweg und erklärt Schritt für Schritt, an welcher Stelle sich ein Fehler eingeschlichen hat und wie die Schülerin oder der Schüler korrekt weiterrechnen müsste.

Weiterführend

Kostenloser Grundkurs

KI von Grund auf verstehen. In 6 Schritten

KI-Tools entdecken

Über 1000 geprüfte Tools mit DSGVO-Ampel

Zuletzt aktualisiert: 16. März 2026

Zurück zum KI-ABC

Multimodale KI

Definition

💡 Beispiel

Verwandte Begriffe

Weiterführend