DeepSeek erforscht neue Wege des maschinellen Lernens
DeepSeek erforscht neue Wege des maschinellen Lernens, Foto: Pexels / Lizenz: Pexels

Die chinesische Forschungsfirma DeepSeek sorgt erneut für Aufmerksamkeit. Fast ein Jahr nach ihrer ersten großen Ankündigung zeigen neue Analysen, wie ihre KI-Modelle mathematische und programmiertechnische Aufgaben mit überraschender Präzision lösen. Besonders bemerkenswert ist, dass DeepSeek diese Ergebnisse bei deutlich geringeren Trainingskosten erzielt hat. Das Unternehmen setzt dabei auf ein Lernverfahren, das an menschliche Versuch-und-Irrtum-Prozesse erinnert.

Inhaltsverzeichnis:

DeepSeek R1 und R1-Zero verändern das KI-Training

Die Modelle R1-Zero und R1 wurden vollständig oder überwiegend durch „Reinforcement Learning“ trainiert. Dabei erhält das System eine Belohnung, wenn es eine Aufgabe richtig löst. Anstatt jeden Zwischenschritt durch Menschen bewerten zu lassen, reagiert das Modell nur auf Erfolg oder Misserfolg. Diese Methode spart Zeit und Rechenleistung.

  • R1-Zero wurde auf Mathematik- und Programmieraufgaben getestet
  • Das Modell erhielt eine Belohnung von 1 für korrekte Antworten
  • Fehlerhafte Lösungen erhielten keinen Punkt

Der entscheidende Vorteil: Das Training benötigt deutlich weniger Rechenressourcen als herkömmliche Verfahren. Das Grundmodell V3 Base diente als Ausgangspunkt, da es bereits eine hohe Genauigkeit aufwies. Laut dem Informatiker Subbarao Kambhampati von der Arizona State University war dies die Voraussetzung, dass die Belohnungsstruktur überhaupt wirksam wurde.

Weitere Einblicke zu KI-Training und datenbasiertem Lernen finden sich unter Leben mit KI.

Subbarao Kambhampati und die Analyse der Lernprozesse

Kambhampati, der die Veröffentlichung in Nature vom 17. September begutachtete, betonte, dass die Forschung zwar offen, aber noch nicht vollständig verstanden sei. DeepSeek gestattete erstmals externen Forschenden, die Modelle zu überprüfen – ein seltener Schritt in der KI-Industrie. Das Unternehmen „zeigte im Grunde seine Karten“, sagte Kambhampati.

Die Forscher wollten herausfinden, ob das Modell tatsächlich „denkt“ oder nur Muster erkennt. R1-Zero schien bei komplexeren Aufgaben mehr sogenannte „Denktokens“ zu produzieren – einzelne Zeichen oder Symbole, die beim Problemlösen entstehen. Je schwieriger die Aufgabe, desto länger der Denkprozess. Ob diese Tokens jedoch echte Rückschlüsse auf logisches Denken zulassen, bleibt unklar.

Mehr zur Funktionsweise von KI-Systemen und ihrer psychologischen Wirkung im Netz gibt es hier.

Warum Reinforcement Learning weniger kostet

Das Training großer Sprachmodelle ist normalerweise teuer, da Millionen von Beispielen von Menschen markiert werden müssen. Beim Verstärkungslernen entfällt dieser Schritt. Stattdessen gibt es nur Feedback über die Richtigkeit des Ergebnisses. Emma Jordan von der University of Pittsburgh erklärt, dass dies insbesondere bei Aufgaben mit klar überprüfbaren Antworten – wie Mathematik oder Code – effektiv ist.

DeepSeek kombinierte zwei Belohnungstypen: Genauigkeit und Format.

  1. Genauigkeits-Belohnung: Das Modell wurde belohnt, wenn das Ergebnis mit der richtigen Lösung übereinstimmte.
  2. Format-Belohnung: Die KI sollte zusätzlich beschreiben, wie sie zur Lösung kam, um nachvollziehbare Antworten zu erzeugen.

Dieses zweistufige Verfahren führte zur Entwicklung des verbesserten Modells R1. Bei seiner Bewertung übertraf R1-Zero laut Nature sogar menschliche Teilnehmer in Benchmark-Tests. Dennoch traten Probleme auf: Zweisprachige Trainingsdaten führten zeitweise zu vermischten Ausgaben in Englisch und Chinesisch.

Wer mehr über Effizienzmethoden bei maschinellem Lernen lesen möchte, findet weiterführende Informationen unter SEO und KI – die neue Suchrevolution.

Grenzen der Nachvollziehbarkeit und offene Fragen

Noch ist unklar, ob DeepSeek-Modelle tatsächlich „Schlussfolgerungen“ ziehen oder nur Wahrscheinlichkeiten gewichten. Kambhampati weist darauf hin, dass Benchmark-Ergebnisse keine Garantie für echtes logisches Denken bieten. Modelle könnten während des Trainings bereits korrekte Antworten aus öffentlichen Datensätzen „gelernt“ haben.

Forscher hoffen, durch weitere Tests herauszufinden, welche Trainingsmechanismen tatsächlich zum Wissenserwerb beitragen. Auch Jordan betont, dass das Verständnis der inneren Funktionsweise entscheidend sei, um Risiken durch übermäßiges Vertrauen in KI-Systeme zu vermeiden.

Trotz der offenen Fragen gilt DeepSeek heute als Beispiel für den Fortschritt durch effiziente Lernverfahren. Die Kombination aus Offenheit, wissenschaftlicher Prüfung und technischer Innovation macht das Projekt zu einem der spannendsten Ansätze in der KI-Forschung.

Quelle: Science News

FAQ

Was ist DeepSeek?

DeepSeek ist ein chinesisches Unternehmen für künstliche Intelligenz, das große Sprachmodelle entwickelt, die durch Reinforcement Learning trainiert werden. Es wurde bekannt, weil seine Modelle komplexe Mathematik- und Programmieraufgaben mit hoher Genauigkeit lösen können.

Wie funktioniert das Reinforcement Learning bei DeepSeek?

Beim Reinforcement Learning erhält das Modell eine Belohnung, wenn es eine Aufgabe richtig löst. Es wird nicht bei jedem Schritt überwacht, sondern nur am Ergebnis bewertet. Dadurch lernt die KI selbstständig durch Versuch und Irrtum.

Was unterscheidet R1-Zero von R1?

R1-Zero war das erste Modell, das ausschließlich durch Reinforcement Learning trainiert wurde. R1 wurde danach entwickelt und enthält zusätzliche Belohnungen für Sprachkonsistenz und Ergebnisformat, wodurch die Ausgabe strukturierter und klarer wurde.

Warum ist das Training mit Reinforcement Learning kostengünstiger?

Da kein menschliches Labeling großer Datenmengen erforderlich ist, spart das Training viel Rechenleistung und Arbeitszeit. Das Modell lernt anhand seiner eigenen Ergebnisse, was den gesamten Prozess effizienter macht.

Welche Rolle spielt das V3 Base Modell?

V3 Base war das Ausgangsmodell, auf dem DeepSeek seine neuen KI-Systeme aufgebaut hat. Es besaß bereits hohe Genauigkeit und diente als Grundlage für die Entwicklung von R1-Zero und R1.

Wie schneiden DeepSeek-Modelle im Vergleich zu OpenAI ab?

Laut veröffentlichten Benchmarks erreichen DeepSeek-Modelle ähnliche oder sogar bessere Ergebnisse als einige OpenAI-Modelle bei mathematischen und programmiertechnischen Aufgaben, allerdings zu deutlich geringeren Trainingskosten.

Welche Kritik äußern Forscher an DeepSeek?

Forscher wie Subbarao Kambhampati betonen, dass noch unklar ist, ob die Modelle wirklich „denken“ oder nur Muster erkennen. Es besteht die Möglichkeit, dass einige Antworten auf bereits bekannte Trainingsdaten zurückgehen.

Warum ist die Veröffentlichung in Nature wichtig?

Die Veröffentlichung in der Fachzeitschrift Nature zeigt, dass DeepSeek seine Forschungsergebnisse offenlegt und wissenschaftlich überprüfen lässt. Das ist in der KI-Branche ungewöhnlich und erhöht die Glaubwürdigkeit der Resultate.

Was sind sogenannte Denktokens?

Denktokens sind Zeichen, Wörter oder Symbole, die das Modell während des Lösungsprozesses erzeugt. Ihre Menge variiert je nach Schwierigkeitsgrad der Aufgabe, doch ihr tatsächlicher Zusammenhang mit logischem Denken bleibt ungeklärt.

Welche Zukunft sehen Forscher für diese Methode?

Forscher gehen davon aus, dass Reinforcement Learning eine zentrale Rolle bei zukünftigen KI-Entwicklungen spielen wird. Es könnte den Trainingsaufwand weiter senken und Modelle hervorbringen, die besser mit komplexen Problemen umgehen können.