Der „Qualitäts-Regler“ für KI: Warum wir Large Language Models so einfach komprimieren sollten wie Bilder

Wie sich Sprachmodelle flexibel verkleinern lassen ohne sie neu zu trainieren und warum ein einfacher Qualitätsregler für KI Effizienz und Kontrolle bringt.

von

Patrick Putzky

Für Bilder und Videos existieren bereits benutzerfreundliche Lösungen zur Reduzierung des Speicherbedarfs. Das Prinzip ist bekannt: Wenn die Datei für den E-Mail-Anhang oder den Smartphone-Speicher zu groß ist, senken wir die Qualität geringfügig. Ein einfacher Schieberegler ermöglicht es uns, in Sekundenschnelle ein optimales Verhältnis zwischen Dateigröße und visueller Qualität zu finden, das unseren Anforderungen gerecht wird.

Doch wechselt man von der Welt der Medien zu modernen KI-Modellen, verschwindet diese Leichtigkeit plötzlich. Large Language Models (LLMs) benötigen oft enormen Speicherplatz. Sie kleiner und effizienter zu machen, war bisher kein flexibler Prozess, sondern eine technische Sackgasse.

Unser Forschungsteam bei Merantix Momentum hat sich gefragt: Warum können wir KI-Modelle nicht genauso intuitiv komprimieren wie Bilddateien?

Die Antwort darauf ist unsere neue Methode ACIP (Any Compression via Iterative Pruning), die wir kürzlich im Fachjournal Transactions on Machine Learning Research veröffentlicht haben.

Das Problem: Komprimierung als Einbahnstraße

Bisher gleicht die Verkleinerung eines KI-Modells eher einer starren Fertigung als einer flexiblen Anpassung. Entwickler*innen müssen sich vorab festlegen: „Ich möchte das Modell auf genau 50 % seiner Größe reduzieren.“ Daraufhin startet ein aufwendiger Berechnungsprozess.

Stellt man am Ende fest, dass das Modell nun doch zu viel an Genauigkeit eingebüßt hat und 60 % der Größe ideal gewesen wären, gibt es keinen Weg zurück. Der gesamte Prozess muss von vorne beginnen. Es fehlt die Möglichkeit, dynamisch den „Sweet Spot“ zwischen Speicherbedarf und Leistung zu finden.

Die Lösung: Einmal rechnen, frei wählen

Mit ACIP ändern wir diese Dynamik grundlegend. Unsere Methode entkoppelt die aufwendige Analyse von der eigentlichen Auswahl der Modellgröße.

Man kann sich das wie eine detaillierte Landkarte vorstellen, die unser Algorithmus einmalig erstellt. Wir nennen dies eine „Score Map“. Diese Karte verzeichnet, welche Parameter im neuronalen Netz entscheidend für das Wissen des Modells und welche vernachlässigbar sind.

Ist diese Karte einmal berechnet, geben wir die Kontrolle zurück an die Nutzenden. Wir bauen quasi den aus der Bildbearbeitung bekannten Regler für Sprachmodelle. Das Besondere: Das Modell muss dafür nicht neu trainiert werden. Die Anpassung an die gewünschte Größe geschieht praktisch sofort.

Wie funktioniert das?

Wir nutzen mathematische Verfahren, um die Strukturen des Modells global zu bewerten. Wir identifizieren iterativ diejenigen Verbindungen innerhalb der Architektur, die für das Gesamtergebnis am wenigsten relevant sind.

Anders als bei bisherigen Methoden, die für jede Zielgröße eine eigene Berechnung starten, sortieren wir alle Verbindungen im Modell nach ihrer Wichtigkeit. Das Ergebnis ist ein Modell, das genau weiß, auf welche Informationen es verzichten kann, wenn der Speicherplatz eng wird – ähnlich wie erfahrene Redakteur*innen, die einen Text kürzen, ohne den Kern der Aussage zu verlieren.

Warum ist das wichtig?

Diese Flexibilität ist ein entscheidender Schritt, um den Einsatz von LLMs effizienter zu gestalten.

Speichereffizienz: Unternehmen müssen nicht mehr dutzende Versionen eines Modells für verschiedene Hardware-Umgebungen vorhalten. Ein einziger Durchlauf genügt, um jede beliebige Größe abzuleiten.
Anpassungsfähigkeit: Nutzer*innen können selbst entscheiden, wie viel Speicherressourcen sie bereitstellen wollen, ohne technische Hürden.
Planbarkeit: Entwickler*innen sehen sofort, ab welchem Kompressionsgrad die Leistung eines Modells signifikant abnimmt, anstatt im Dunkeln zu tappen.

Wir haben ACIP erfolgreich auf bekannte offene Modelle wie LLaMa, Mistral und Qwen angewendet. Die Ergebnisse zeigen, dass wir den Speicherbedarf der Modelle massiv verringern können, wobei die Leistungskurve sanft und vorhersehbar verläuft.

Mehr erfahren

Wir glauben, dass Effizienz der Schlüssel ist, um generative KI breitflächig nutzbar zu machen. ACIP ist unser Beitrag dazu, diese Werkzeuge handlicher und ressourcenschonender zu gestalten.

Zu den Modellen auf Hugging Face: Hugging Face Collection
Zur Projektseite: acip.merantix-momentum.com
Zum Paper: Transactions in Machine Learning Research

Jetzt beim Merantix Momentum Newsletter anmelden.

Vom Engpass zum Durchbruch: Warum KI entscheidend für den Fortschritt in Gesundheitswesen und Pharma ist

Steigende Kosten, Fachkräftemangel und Datenflut bringen das Gesundheitswesen und die Pharmaindustrie an ihre Grenzen. Warum Künstliche Intelligenz jetzt der Schlüssel ist, um Versorgung, Forschung und Entwicklung auf ein neues Level zu heben.

Verwaltung neu gedacht: Der AI Innovation Space für echte Prozess- beschleunigung

Deutschland setzt neue Maßstäbe in der Digitalisierung der Verwaltung. Im AI Innovation Hub erleben Sie, wie agentische KI komplexe Verwaltungsverfahren Ende-zu-Ende unterstützen, Entscheidungsprozesse beschleunigt und Behörden spürbar entlastet. Sehen Sie selbst, wie diese Innovation praxisnah funktioniert und welche konkreten Vorteile sie auch für Ihre Institution bringen kann – interaktiv, anschaulich und direkt übertragbar.

Artikel

Warum Compliance-Verantwortliche sich KI nicht länger leisten können zu ignorieren

Compliance-Teams in der Schweiz stehen vor einer Flut an Vorschriften. Erfahren Sie, wie KI Banken, Versicherungen und Kanzleien entlastet – und Compliance smarter macht.

Artikel

AI-Driven Compound Optimization in the Large Molecule Space

Ein Experteninterview über die KI-gestützte Optimierung von Wirkstoffen im Bereich großer Moleküle.

Artikel

AI Readiness in the Industrial Sector - Do’s and Don’ts

Zu unserer ersten Ausgabe der Reihe "The AI Interview" zum Thema AI Readiness in the Industrial Sector.

Der „Qualitäts-Regler“ für KI: Warum wir Large Language Models so einfach komprimieren sollten wie Bilder

Unser Forschungsteam bei Merantix Momentum hat sich gefragt: Warum können wir KI-Modelle nicht genauso intuitiv komprimieren wie Bilddateien?

Die Antwort darauf ist unsere neue Methode ACIP (Any Compression via Iterative Pruning), die wir kürzlich im Fachjournal Transactions on Machine Learning Research veröffentlicht haben.

Das Problem: Komprimierung als Einbahnstraße

Die Lösung: Einmal rechnen, frei wählen

Mit ACIP ändern wir diese Dynamik grundlegend. Unsere Methode entkoppelt die aufwendige Analyse von der eigentlichen Auswahl der Modellgröße.

Wie funktioniert das?

Warum ist das wichtig?

Diese Flexibilität ist ein entscheidender Schritt, um den Einsatz von LLMs effizienter zu gestalten.

Speichereffizienz: Unternehmen müssen nicht mehr dutzende Versionen eines Modells für verschiedene Hardware-Umgebungen vorhalten. Ein einziger Durchlauf genügt, um jede beliebige Größe abzuleiten.
Anpassungsfähigkeit: Nutzer*innen können selbst entscheiden, wie viel Speicherressourcen sie bereitstellen wollen, ohne technische Hürden.
Planbarkeit: Entwickler*innen sehen sofort, ab welchem Kompressionsgrad die Leistung eines Modells signifikant abnimmt, anstatt im Dunkeln zu tappen.

Mehr erfahren

Wir glauben, dass Effizienz der Schlüssel ist, um generative KI breitflächig nutzbar zu machen. ACIP ist unser Beitrag dazu, diese Werkzeuge handlicher und ressourcenschonender zu gestalten.