Guckt mal hier, KI-Kontextfenster sind irreführendGuckt mal hier, KI-Kontextfenster sind irreführend

Im Browser lesen | 10.04.2025

Tach,

Keno, Lukas und vier weitere Kolleginnen und Kollegen sind am vergangenen Wochenende als 3003-Staffel beim Hannover Marathon an den Start und später dann auch gemeinsam ins Ziel gegangen. 6:35 als durchschnittlicher Team-Pace, schreibt mir Lukas – als ob ich damit was anfangen könnte!

Zum Glück habe ich mehr Ahnung von KI-Leistung als solcher im Sport: Im „Hype“ werfe ich deshalb einen Blick auf die neusten Llama-Modelle von Meta. Die weisen zwar keine großen Performance-Sprünge vor, protzen dafür aber mit riesigen Kontextfenstern, also der Menge an Daten, die sie auf einmal verarbeiten können. Warum ich dieses Token-Wettrennen der Hersteller für relativ ziellos halte, lest ihr im nächsten Abschnitt.

Hab eine schöne Restwoche,

Jonathan
von c't 3003

In dieser Ausgabe

●

Aktueller Hype: KI-Kontextfenster sind irreführend

●

Aus der Community: Eure Kommentare zu unseren Videos

●

Im nächsten Video: Bessere Notizen mit Notion und Open-Source-Alternative Anytype

Der Hype heute ⚡

KI-Kontextfenster sind irreführend

Meta hat mit Scout und Maverick die ersten beiden Modelle seiner neuen Llama-4-Generation vorgestellt. Die multimodalen Sprachmodelle verstehen Text und Bilder und setzen erstmals auf eine sogenannte Mixture-of-Experts-Struktur (MoE), bei der nur ein Teil der Parameter pro Anfrage aktiviert wird. Beide Modelle verfügen über jeweils 17 Milliarden aktive Parameter, unterscheiden sich aber in der Anzahl der Experten: Scout nutzt 16, Maverick verteilt seine Kapazitäten auf 128 Experten.

Für besonders viel Diskussion haben aber Metas Aussagen zu den Kontextfenstern der neuen Modelle gesorgt. Scout soll bis zu zehn Millionen Token verarbeiten können - das entspricht etwa fünf Millionen Wörtern. Maverick wirbt mit einer Million Token-Kontextlänge. Zum Vergleich: Aktuelle Modelle wie GPT-4o (128.000 Token) oder Claude 3.7 Sonnet (200.000 Token) haben deutlich kleinere Kontextfenster.

Diese beeindruckenden Zahlen relativieren sich jedoch bei genauerer Betrachtung: Beide Modelle wurden sowohl im Pre-Training als auch im Post-Training nur mit einer Kontextlänge von 256.000 Token trainiert. Die deutlich größeren beworbenen Kontextfenster basieren lediglich auf einer mathematischen Längengeneralisierung.

Unabhängige Tests zeigen entsprechende Schwächen: Bei komplexen Verständnisaufgaben erreicht Maverick nur 28,1 Prozent Genauigkeit, Scout sogar nur 15,6 Prozent. Zum Vergleich: Googles Gemini 2.5 Pro kommt auf 90,6 Prozent. Scout versagt bereits bei 128.000 Token, während auch Maverick Dokumente nicht in der angekündigten Größenordnung konsistent auswerten kann.

Im Benchmark von Fiction.Live bei verschiedenen Kontextlängen sinkt die Leistung beider Llama-4-Modelle drastisch. (Quelle: Fiction.Live)

Das Ding ist: Sprachmodelle aller Hersteller haben damit zu kämpfen und bislang hat sich noch kein wirklicher Durchbruch gezeigt, der den Nutzen riesiger Kontextfenster bei Sprachmodellen beweisen würde. Parallel haben sich daher Konzepte wie Retrieval Augmented Generation (RAG) entwickelt, die Informationen in leichter verdaubaren Häppchen verstauen und dem Sprachmodell modular zur Verfügung stellen.

Ob wir überhaupt Kontextfenster über dem aktuellen Schnitt von 128.000 Token brauchen, wird daher immer wieder in Frage gestellt. Zwar hat RAG seine ganz eigenen Herausforderungen, aber sind wir mal ehrlich: Es ergibt doch viel mehr Sinn, Informationen sorgfältig strukturiert in Vektordatenbanken abzuspeichern, als jedes Mal potenziell bis zu zehn Millionen Token in den LLM-Hals zu schütten.

Meine Vermutung ist, dass Meta bei der Performance keine großartigen Fortschritte vorweisen konnte, aber wusste, wie es mit dem Kontextfenster eine andere prominente Kennzahl aufpolieren konnte. Google hat es mit seinem Kontextfenster von Gemini 1.5 mit einer Million schon vorgemacht – warum nicht einfach einen draufsetzen?

Wir können uns die Innovation sowieso erstmal nur aus der Ferne anschauen: Die Llama-4-Modelle stehen Unternehmen mit EU-Sitz sowie EU-Bürgern vorerst nicht zur Verfügung – was nicht ganz überraschend kommt, kamen schließlich auch die Modelle der vorherigen Generation erst mit erheblicher Verspätung und in Meta AI (siehe Newsletter letzte Woche) um grundlegende Funktionen beschnitten. Meta verweist auf „regulatorische Unsicherheiten“ im Zusammenhang mit dem EU-AI-Act.

Was sonst noch wichtig ist

Starlink-Antenne zum Nulltarif – aber nur mit Jahresvertrag

heise online

Auf der Titanic brannte bis zum Ende das Licht

heise online

Asus, Lenovo und Co.: Notebook-Hersteller setzen Lieferungen in die USA aus

heise online

Nerd-Trend "Digitaler Garten": Die eigene Website als persönliches Wissensarchiv

heise+ exklusiv

Koalitionsvertrag: Wirtschaft hoffnungsvoll, Entsetzen bei Bürgerrechtlern

heise online

US-Zollchaos geht weiter: Trump pausiert neue Zölle, Euphorie an der Börse

heise online

Samsungs KI-Kugelroboter Ballie kommt im Sommer mit Google Gemini auf den Markt

heise online

OpenAI schreibt wirtschaftliche Blaupause für die EU

heise online

Forscher entwickeln 3D-Hologramme zum Anfassen und Bewegen

heise online

Library of Congress: Start-Sound von Windows 95 "für alle Zeiten erhaltenswert"

heise online

Aus der 3003-Community 🚀

Eure Kommentare zum neuen Thermomix

Im letzten 3003-Video haben wir einen ersten Blick auf den neuen Thermomix TM7 geworfen – weniger aus Profi-Koch-Sicht, dafür umso mehr aus technischer Perspektive. Und das kam an. Die Kommentarspalte war randvoll – mit Lob, Kritik, Nachfragen und Running Gags.

Besonders viel Aufmerksamkeit bekam – wie könnte es anders sein – die klassische Tech-Frage: „Läuft da auch Doom drauf?“ Was auf den ersten Blick wie ein Gag klingt, wurde schnell zur Debatte über das Betriebssystem, mögliche Hacks und die generelle Offenheit des Geräts. Ein Zuschauer bringt es auf den Punkt: „Die Frage ist eher: ab wann läuft da Doom drauf.“
Andere hatten kreative Ideen für weitere Benchmarks: Fruit Ninja, Minecraft mit Shadern oder gleich GTA VI.

Doch jenseits der Tech-Witze wurde auch ernsthaft diskutiert. Einige lobten, dass wir den TM7 nicht aus der üblichen “Haushaltsgeräte”-Brille betrachtet haben. Statt nur Rezepte gab’s UI-Eindrücke und Touchscreen-Performance. Gleichzeitig wurde viel differenziertes Feedback geteilt – etwa zur Alltagstauglichkeit, zum Preis-Leistungs-Verhältnis und zur langfristigen Nutzung. „Ich hab’s ausprobiert und wieder verkauft – das Abwaschen nervt bei komplexeren Gerichten einfach.“ Andere hielten dagegen: „Mit kleinen Kindern spart mir das Ding unglaublich viel Zeit und Stress.“

Und auch der Wunsch nach einem Langzeittest klang durch viele Kommentare hindurch: Wird der TM7 nach dem ersten Hype wirklich regelmäßig genutzt – oder wandert er bald neben den Sandwichtoaster ins Küchengeräte-Nirvana? Wir bleiben dran. Vielleicht ja wirklich mit Doom.

Werde Teil des Tech-Teams!

Unterstütze c’t und mach mit deinem Abo unseren kritischen Tech-Journalismus möglich. Teste c’t zum Sonderpreis mit 30 Prozent Rabatt!

Angebot entdecken

Newsletter teilen

Ab Freitag bei YouTube 🎥

Notion-Alternative Anytype

Chaotische Notizen, verstreute To-Dos und ständig auf der Suche nach der einen wichtigen Idee? Damit könnte ab Freitag Schluss sein.

In unserem nächsten Video zeigen wir euch eine Open-Source-Alternative zu Notion: Anytype. Das Tool funktioniert ähnlich, aber speichert eure Daten wahlweise lokal, arbeitet offline und verschlüsselt eure Inhalte Ende-zu-Ende. Wir bauen ein praktisches Dashboard mit To-Dos, Notizen und einer Büchersammlung. Dabei erklären wir die wichtigsten Unterschiede zu Notion und zeigen, wie ihr das Tool so einrichtet, dass ihr es tatsächlich täglich nutzt.

Zum YouTube-Kanal

Jetzt dem Kanal folgen und kein Video mehr verpassen

Hast du noch etwas auf dem Herzen?

Fragen, Kritik oder Lob? Schreib uns eine Nachricht oder bewerte diesen Newsletter in unserem Survey

Newsletter bewerten

E-Mail schreiben

Wir hören uns!
Jonathan, Lukas & Keno

Du willst die c't-App? Dann lad sie dir doch einfach runter

Newsletter

c't D.digital

Das Briefing zur Digitalisierung in Deutschland – sei Teil der Debatte!

►

Hier abonnieren

Newsletter

c't Tech-Check

Neue Hardware, neue Tools – was sich lohnt und was nicht.

►

Hier abonnieren

Newsletter

c't exklusiv

Jeden zweiten Donnerstag erhältst du einen kompakten Überblick über die neue Ausgabe

►

Hier abonnieren

Newsletter

Open Source Spotlight

Die Pflichtlektüre für Freunde quelloffener Software: Entdecke innovative Open-Source-Anwendungen.

►

Hier abonnieren

Bleib mit uns auf dem Laufenden

Impressum

Dieser Newsletter wird im Multipart-Format verschickt. Wenn du ihn lieber in reiner Textform lesen möchtest, musst du dafür nur die Anzeige deines E-Mail-Programms umstellen.

Du bist unter folgender Adresse eingetragen: 3003@newsletter.ct.de - 23713446. Du kannst dich jederzeit von diesem Newsletter abmelden - sag uns bitte vorab in unserer Umfrage zum Newsletter, was dich zum Abmelden bewogen hat.

Verantwortlich für dieses Angebot gemäß § 5 TMG / § 18 MStV:

Heise Medien GmbH & Co. KG
Karl-Wiechert-Allee 10
30625 Hannover

Postfach 61 04 07
30604 Hannover

Telefon: +49 [0]511 5352-0
Fax: +49 [0]511 5352-129
E-Mail: webmaster@heise.de

Persönlich haftende Gesellschafterin:
Heise Medien Geschäftsführung GmbH
Amtsgericht Hannover HRB 60405

Geschäftsführung:
Ansgar Heise, Beate Gerold
Mitglieder der Geschäftsleitung: Jörg Mühle,
Falko Ossmann
Herausgeber: Christian Heise, Ansgar Heise, Christian Persson

Handelsregistereintrag:
Amtsgericht Hannover HRA 26709
Umsatzsteueridentifikationsnummer:
DE 813 501 887

Inhaltlich verantwortlich gemäß § 18 Abs. 2 MStV: Torsten Beeck (Chefredakteur)

Alle Rechte vorbehalten. Jegliche Vervielfältigung oder Weiterverbreitung in jedem Medium als Ganzes oder in Teilen bedarf der schriftlichen Zustimmung des Verlags.

Copyright © 2025 Heise Medien GmbH & Co. KG

Es gilt die Datenschutzerklärung der Heise Medien GmbH & Co. KG.