31 January 2026, 00:01

PURGE: Neue Methode löscht sensible Daten aus KI-Modellen – ohne Leistungsverlust

Eine Schwarz-Weiß-Radierung eines Mannes, der von einer Gruppe von Menschen weggeführt wird, mit einer Wand im Hintergrund und Text unten.

PURGE: Neue Methode löscht sensible Daten aus KI-Modellen – ohne Leistungsverlust

Forschende haben eine neue Methode namens PURGE entwickelt, um sensible oder urheberrechtlich geschützte Daten aus großen Sprachmodellen (Large Language Models, LLMs) zu entfernen. Im Gegensatz zu älteren Verfahren vermeidet dieser Ansatz ein vollständiges Neutraining des Modells und stellt gleichzeitig sicher, dass das System spezifische Informationen zuverlässig "vergisst". Die Methode bewahrt dabei den Großteil der ursprünglichen Leistungsfähigkeit des Modells und bietet so eine effizientere und verlässlichere Lösung.

PURGE behandelt das "Verlernen" als messbare Aufgabe und nutzt dafür ein Framework namens Group Relative Policy Optimization. Dieses System bestraft unerwünschte Konzepte mit einem intrinsischen Belohnungssignal und lenkt das Modell so an, ungewollte Daten zu vergessen, während seine allgemeinen Fähigkeiten erhalten bleiben. Die Studie belegt, dass diese Methode die Wahrscheinlichkeit für das Auftreten verbotener Tokens verringert – mit theoretischen Garantien, die einen geometrischen Rückgang ihrer Auftretenswahrscheinlichkeit zeigen.

Tests mit dem Real World Knowledge Unlearning (RWKU)-Benchmark liefern überzeugende Ergebnisse: PURGE erreicht eine 11-prozentige Effektivität beim Verlernen, während 98 % der ursprünglichen Nutzbarkeit des Modells erhalten bleiben. Im Vergleich zu bestehenden Methoden reduziert es den Token-Verbrauch pro Zielobjekt um das bis zu 46-Fache. Gleichzeitig verbessert sich die Flüssigkeit des Sprachausgabe um 5,48 %, und die robuste Widerstandsfähigkeit gegen adversariale Angriffe steigt um 12,02 %.

Ältere Methoden zum "Verlernen" leiden oft unter Datenlecks, Leistungsverlusten oder sind auf teure externe Belohnungsmodelle angewiesen. PURGE überwindet diese Probleme, indem es das Verlernen direkt in den Optimierungsprozess des Modells integriert. Dadurch wird die gezielte Entfernung von Wissen genauso präzise wie die Verbesserung von Denkaufgaben – ein neuer Standard für Sicherheit und Effizienz in der KI-Entwicklung.

Die Forschung stellt einen fundierten Rahmen vor, der theoretische Garantien mit praktischen Fortschritten verbindet. Die Fähigkeit von PURGE, das Verlernen nachweisbar zu bestätigen, den Ressourcenverbrauch zu senken und gleichzeitig eine hohe Leistungsfähigkeit zu erhalten, weist den Weg für zukünftige Arbeiten. Dieser Durchbruch könnte zu sichereren und einsatzbereiteren Sprachmodellen für reale Anwendungen führen.

Ein detailliertes architektonisches Zeichnung des Rosenhof-Krankenhauses in Hamburg, Deutschland, mit zahlreichen Drähten und Texten, die den Aufbau beschreiben, einschließend Räume, Flure und andere Merkmale.

Bundesländer blockieren Milliarden-Kürzungen im Gesundheitswesen – heute entscheidet der Bundesrat

Krankenhäuser am Limit, Länder in Aufruhr: Die geplante Milliarden-Kürzung spaltet die Politik. Wird der Bundesrat heute den Vermittlungsausschuss einschalten?

Eine schwarze Fläche mit einem kleinen Glasfläschchen, das mit weißen Pillen gefüllt ist, neben einem Stück Papier mit der Aufschrift "Vallonia Pulchella, F.F. Müller, Deutschland, Umgebung von Magdeburg, 1931".

Apotheken protestieren bundesweit am 23. März 2026 für bessere Finanzierung und Arbeitsbedingungen

Die Geduld der Apotheker ist am Ende: Nach jahrelangen leeren Versprechen geht der Sektor auf die Barrikaden. Werden die Proteste die Politik zum Handeln zwingen?