Multimodale KI
KI-Systeme, die verschiedene Eingabeformen wie Text, Bild, Sprache und Video gleichzeitig verarbeiten können.
Definition
Multimodale KI bezeichnet KI-Systeme, die mehrere Datentypen gleichzeitig verarbeiten, verknüpfen und verstehen können – etwa Text, Bilder, Audio, Video oder auch Code. Im Unterschied zu rein textbasierten Modellen können multimodale Modelle Inhalte über verschiedene Sinne hinweg „zusammendenken“: Sie analysieren zum Beispiel ein Bild, beantworten dazu Fragen in Textform, erzeugen Bildbeschreibungen oder verbinden gesprochene Sprache mit eingeblendeten Grafiken. Moderne Modelle wie GPT-4o oder Google Gemini sind multimodal und erlauben etwa das Hochladen eines Fotos mit der Frage „Was siehst du?“ oder das detaillierte Analysieren eines Diagramms, inklusive Erklärungen, Zusammenfassungen oder Umwandlung in andere Darstellungsformen.
💡 Beispiel
Eine Lehrkraft fotografiert eine handschriftliche Schülerlösung und lädt das Bild in ein multimodales KI-Tool. Die KI erkennt die Handschrift, versteht die Matheaufgabe, analysiert den Rechenweg und erklärt Schritt für Schritt, an welcher Stelle sich ein Fehler eingeschlichen hat und wie die Schülerin oder der Schüler korrekt weiterrechnen müsste.
