 |
|
|
|
Keno, Lukas und vier weitere Kolleginnen und Kollegen sind am vergangenen Wochenende als 3003-Staffel beim Hannover Marathon an den Start und später dann auch gemeinsam ins Ziel gegangen. 6:35 als durchschnittlicher Team-Pace, schreibt mir Lukas – als ob ich damit was anfangen könnte! Zum Glück habe ich mehr Ahnung von KI-Leistung als solcher im Sport: Im „Hype“ werfe ich deshalb einen Blick auf die neusten Llama-Modelle von Meta. Die weisen zwar keine großen Performance-Sprünge vor, protzen dafür aber mit riesigen Kontextfenstern, also der Menge an Daten, die sie auf einmal verarbeiten können. Warum ich dieses Token-Wettrennen der Hersteller für relativ ziellos halte, lest ihr im nächsten Abschnitt. | | | |
Hab eine schöne Restwoche, Jonathan von c't 3003 | | | | |
---|
| |
In dieser Ausgabe
|
|
| ● | Aktueller Hype: KI-Kontextfenster sind irreführend |
| ● | Aus der Community: Eure Kommentare zu unseren Videos |
| ● | Im nächsten Video: Bessere Notizen mit Notion und Open-Source-Alternative Anytype | | | | | | |
|
|
|
|
|
|
|
KI-Kontextfenster sind irreführend | | | |
Meta hat mit Scout und Maverick die ersten beiden Modelle seiner neuen Llama-4-Generation vorgestellt. Die multimodalen Sprachmodelle verstehen Text und Bilder und setzen erstmals auf eine sogenannte Mixture-of-Experts-Struktur (MoE), bei der nur ein Teil der Parameter pro Anfrage aktiviert wird. Beide Modelle verfügen über jeweils 17 Milliarden aktive Parameter, unterscheiden sich aber in der Anzahl der Experten: Scout nutzt 16, Maverick verteilt seine Kapazitäten auf 128 Experten. Für besonders viel Diskussion haben aber Metas Aussagen zu den Kontextfenstern der neuen Modelle gesorgt. Scout soll bis zu zehn Millionen Token verarbeiten können - das entspricht etwa fünf Millionen Wörtern. Maverick wirbt mit einer Million Token-Kontextlänge. Zum Vergleich: Aktuelle Modelle wie GPT-4o (128.000 Token) oder Claude 3.7 Sonnet (200.000 Token) haben deutlich kleinere Kontextfenster. Diese beeindruckenden Zahlen relativieren sich jedoch bei genauerer Betrachtung: Beide Modelle wurden sowohl im Pre-Training als auch im Post-Training nur mit einer Kontextlänge von 256.000 Token trainiert. Die deutlich größeren beworbenen Kontextfenster basieren lediglich auf einer mathematischen Längengeneralisierung. Unabhängige Tests zeigen entsprechende Schwächen: Bei komplexen Verständnisaufgaben erreicht Maverick nur 28,1 Prozent Genauigkeit, Scout sogar nur 15,6 Prozent. Zum Vergleich: Googles Gemini 2.5 Pro kommt auf 90,6 Prozent. Scout versagt bereits bei 128.000 Token, während auch Maverick Dokumente nicht in der angekündigten Größenordnung konsistent auswerten kann. | | | |
|
Im Benchmark von Fiction.Live bei verschiedenen Kontextlängen sinkt die Leistung beider Llama-4-Modelle drastisch. (Quelle: Fiction.Live) | | | |
Das Ding ist: Sprachmodelle aller Hersteller haben damit zu kämpfen und bislang hat sich noch kein wirklicher Durchbruch gezeigt, der den Nutzen riesiger Kontextfenster bei Sprachmodellen beweisen würde. Parallel haben sich daher Konzepte wie Retrieval Augmented Generation (RAG) entwickelt, die Informationen in leichter verdaubaren Häppchen verstauen und dem Sprachmodell modular zur Verfügung stellen. Ob wir überhaupt Kontextfenster über dem aktuellen Schnitt von 128.000 Token brauchen, wird daher immer wieder in Frage gestellt. Zwar hat RAG seine ganz eigenen Herausforderungen, aber sind wir mal ehrlich: Es ergibt doch viel mehr Sinn, Informationen sorgfältig strukturiert in Vektordatenbanken abzuspeichern, als jedes Mal potenziell bis zu zehn Millionen Token in den LLM-Hals zu schütten. Meine Vermutung ist, dass Meta bei der Performance keine großartigen Fortschritte vorweisen konnte, aber wusste, wie es mit dem Kontextfenster eine andere prominente Kennzahl aufpolieren konnte. Google hat es mit seinem Kontextfenster von Gemini 1.5 mit einer Million schon vorgemacht – warum nicht einfach einen draufsetzen? Wir können uns die Innovation sowieso erstmal nur aus der Ferne anschauen: Die Llama-4-Modelle stehen Unternehmen mit EU-Sitz sowie EU-Bürgern vorerst nicht zur Verfügung – was nicht ganz überraschend kommt, kamen schließlich auch die Modelle der vorherigen Generation erst mit erheblicher Verspätung und in Meta AI (siehe Newsletter letzte Woche) um grundlegende Funktionen beschnitten. Meta verweist auf „regulatorische Unsicherheiten“ im Zusammenhang mit dem EU-AI-Act. | | | |
|
Was sonst noch wichtig ist | | | |
|
 |  | heise online |
|
 |  | heise online |
|
 |  | heise online |
|
 |  | heise+ exklusiv |
|
 |  | heise online |
|
 |  | heise online |
|
 |  | heise online |
|
 |  | heise online |
|
 |  | heise online |
|
 |  | heise online |
|
| | | |
|
|
|
Eure Kommentare zum neuen Thermomix | | | |
Im letzten 3003-Video haben wir einen ersten Blick auf den neuen Thermomix TM7 geworfen – weniger aus Profi-Koch-Sicht, dafür umso mehr aus technischer Perspektive. Und das kam an. Die Kommentarspalte war randvoll – mit Lob, Kritik, Nachfragen und Running Gags. Besonders viel Aufmerksamkeit bekam – wie könnte es anders sein – die klassische Tech-Frage: „Läuft da auch Doom drauf?“ Was auf den ersten Blick wie ein Gag klingt, wurde schnell zur Debatte über das Betriebssystem, mögliche Hacks und die generelle Offenheit des Geräts. Ein Zuschauer bringt es auf den Punkt: „Die Frage ist eher: ab wann läuft da Doom drauf.“ Andere hatten kreative Ideen für weitere Benchmarks: Fruit Ninja, Minecraft mit Shadern oder gleich GTA VI. Doch jenseits der Tech-Witze wurde auch ernsthaft diskutiert. Einige lobten, dass wir den TM7 nicht aus der üblichen “Haushaltsgeräte”-Brille betrachtet haben. Statt nur Rezepte gab’s UI-Eindrücke und Touchscreen-Performance. Gleichzeitig wurde viel differenziertes Feedback geteilt – etwa zur Alltagstauglichkeit, zum Preis-Leistungs-Verhältnis und zur langfristigen Nutzung. „Ich hab’s ausprobiert und wieder verkauft – das Abwaschen nervt bei komplexeren Gerichten einfach.“ Andere hielten dagegen: „Mit kleinen Kindern spart mir das Ding unglaublich viel Zeit und Stress.“ Und auch der Wunsch nach einem Langzeittest klang durch viele Kommentare hindurch: Wird der TM7 nach dem ersten Hype wirklich regelmäßig genutzt – oder wandert er bald neben den Sandwichtoaster ins Küchengeräte-Nirvana? Wir bleiben dran. Vielleicht ja wirklich mit Doom. | | | |
|
|
Werde Teil des Tech-Teams! | | | |
|
Unterstütze c’t und mach mit deinem Abo unseren kritischen Tech-Journalismus möglich. Teste c’t zum Sonderpreis mit 30 Prozent Rabatt! | | | |
---|
| |
| | |
|
|
|
|
|
Notion-Alternative Anytype | | | |
Chaotische Notizen, verstreute To-Dos und ständig auf der Suche nach der einen wichtigen Idee? Damit könnte ab Freitag Schluss sein. In unserem nächsten Video zeigen wir euch eine Open-Source-Alternative zu Notion: Anytype. Das Tool funktioniert ähnlich, aber speichert eure Daten wahlweise lokal, arbeitet offline und verschlüsselt eure Inhalte Ende-zu-Ende. Wir bauen ein praktisches Dashboard mit To-Dos, Notizen und einer Büchersammlung. Dabei erklären wir die wichtigsten Unterschiede zu Notion und zeigen, wie ihr das Tool so einrichtet, dass ihr es tatsächlich täglich nutzt. | | | |
|
Jetzt dem Kanal folgen und kein Video mehr verpassen | | | |
|
Hast du noch etwas auf dem Herzen? | | | |
Fragen, Kritik oder Lob? Schreib uns eine Nachricht oder bewerte diesen Newsletter in unserem Survey | | | |
| | |
Wir hören uns! Jonathan, Lukas & Keno | | | |
|
|
Du willst die c't-App? Dann lad sie dir doch einfach runter | | | |
| | |
|
|
Newsletter
|
c't D.digital
|
Das Briefing zur Digitalisierung in Deutschland – sei Teil der Debatte!
|
| | | | | |
|
|
Newsletter
|
c't Tech-Check
|
Neue Hardware, neue Tools – was sich lohnt und was nicht.
|
| | | | | |
|
|
Newsletter
|
c't exklusiv
|
Jeden zweiten Donnerstag erhältst du einen kompakten Überblick über die neue Ausgabe
|
| | | | | |
|
|
Newsletter
|
Open Source Spotlight
|
Die Pflichtlektüre für Freunde quelloffener Software: Entdecke innovative Open-Source-Anwendungen.
|
| | | | | |
|
|
Bleib mit uns auf dem Laufenden | | | |
|
|
Impressum Dieser Newsletter wird im Multipart-Format verschickt. Wenn du ihn lieber in reiner Textform lesen möchtest, musst du dafür nur die Anzeige deines E-Mail-Programms umstellen. Du bist unter folgender Adresse eingetragen: 3003@newsletter.ct.de - 23713446. Du kannst dich jederzeit von diesem Newsletter abmelden - sag uns bitte vorab in unserer Umfrage zum Newsletter, was dich zum Abmelden bewogen hat. Verantwortlich für dieses Angebot gemäß § 5 TMG / § 18 MStV: | | | | |
Heise Medien GmbH & Co. KG Karl-Wiechert-Allee 10 30625 Hannover Postfach 61 04 07 30604 Hannover Telefon: +49 [0]511 5352-0 Fax: +49 [0]511 5352-129 E-Mail: webmaster@heise.de Persönlich haftende Gesellschafterin: Heise Medien Geschäftsführung GmbH Amtsgericht Hannover HRB 60405 | | | |
Geschäftsführung: Ansgar Heise, Beate Gerold Mitglieder der Geschäftsleitung: Jörg Mühle, Falko Ossmann Herausgeber: Christian Heise, Ansgar Heise, Christian Persson Handelsregistereintrag: Amtsgericht Hannover HRA 26709 Umsatzsteueridentifikationsnummer: DE 813 501 887 Inhaltlich verantwortlich gemäß § 18 Abs. 2 MStV: Torsten Beeck (Chefredakteur) | | | |
---|
| |
Alle Rechte vorbehalten. Jegliche Vervielfältigung oder Weiterverbreitung in jedem Medium als Ganzes oder in Teilen bedarf der schriftlichen Zustimmung des Verlags. Copyright © 2025 Heise Medien GmbH & Co. KG Es gilt die Datenschutzerklärung der Heise Medien GmbH & Co. KG. | | | | | | |