Der „Qualitäts-Regler“ für KI: Warum wir Large Language Models so einfach komprimieren sollten wie Bilder

Wie sich Sprachmodelle flexibel verkleinern lassen ohne sie neu zu trainieren und warum ein einfacher Qualitätsregler für KI Effizienz und Kontrolle bringt.
von
Patrick Putzky

Für Bilder und Videos existieren bereits benutzerfreundliche Lösungen zur Reduzierung des Speicherbedarfs. Das Prinzip ist bekannt: Wenn die Datei für den E-Mail-Anhang oder den Smartphone-Speicher zu groß ist, senken wir die Qualität geringfügig. Ein einfacher Schieberegler ermöglicht es uns, in Sekundenschnelle ein optimales Verhältnis zwischen Dateigröße und visueller Qualität zu finden, das unseren Anforderungen gerecht wird.

Doch wechselt man von der Welt der Medien zu modernen KI-Modellen, verschwindet diese Leichtigkeit plötzlich. Large Language Models (LLMs) benötigen oft enormen Speicherplatz. Sie kleiner und effizienter zu machen, war bisher kein flexibler Prozess, sondern eine technische Sackgasse.

Unser Forschungsteam bei Merantix Momentum hat sich gefragt: Warum können wir KI-Modelle nicht genauso intuitiv komprimieren wie Bilddateien?

Die Antwort darauf ist unsere neue Methode ACIP (Any Compression via Iterative Pruning), die wir kürzlich im Fachjournal Transactions on Machine Learning Research veröffentlicht haben.

Das Problem: Komprimierung als Einbahnstraße

Bisher gleicht die Verkleinerung eines KI-Modells eher einer starren Fertigung als einer flexiblen Anpassung. Entwickler*innen müssen sich vorab festlegen: „Ich möchte das Modell auf genau 50 % seiner Größe reduzieren.“ Daraufhin startet ein aufwendiger Berechnungsprozess.

Stellt man am Ende fest, dass das Modell nun doch zu viel an Genauigkeit eingebüßt hat und 60 % der Größe ideal gewesen wären, gibt es keinen Weg zurück. Der gesamte Prozess muss von vorne beginnen. Es fehlt die Möglichkeit, dynamisch den „Sweet Spot“ zwischen Speicherbedarf und Leistung zu finden.

Die Lösung: Einmal rechnen, frei wählen

Mit ACIP ändern wir diese Dynamik grundlegend. Unsere Methode entkoppelt die aufwendige Analyse von der eigentlichen Auswahl der Modellgröße.

Man kann sich das wie eine detaillierte Landkarte vorstellen, die unser Algorithmus einmalig erstellt. Wir nennen dies eine „Score Map“. Diese Karte verzeichnet, welche Parameter im neuronalen Netz entscheidend für das Wissen des Modells und welche vernachlässigbar sind.

Ist diese Karte einmal berechnet, geben wir die Kontrolle zurück an die Nutzenden. Wir bauen quasi den aus der Bildbearbeitung bekannten Regler für Sprachmodelle. Das Besondere: Das Modell muss dafür nicht neu trainiert werden. Die Anpassung an die gewünschte Größe geschieht praktisch sofort.

Wie funktioniert das?

Wir nutzen mathematische Verfahren, um die Strukturen des Modells global zu bewerten. Wir identifizieren iterativ diejenigen Verbindungen innerhalb der Architektur, die für das Gesamtergebnis am wenigsten relevant sind.

Anders als bei bisherigen Methoden, die für jede Zielgröße eine eigene Berechnung starten, sortieren wir alle Verbindungen im Modell nach ihrer Wichtigkeit. Das Ergebnis ist ein Modell, das genau weiß, auf welche Informationen es verzichten kann, wenn der Speicherplatz eng wird – ähnlich wie erfahrene Redakteur*innen, die einen Text kürzen, ohne den Kern der Aussage zu verlieren.

Warum ist das wichtig?

Diese Flexibilität ist ein entscheidender Schritt, um den Einsatz von LLMs effizienter zu gestalten.

  1. Speichereffizienz: Unternehmen müssen nicht mehr dutzende Versionen eines Modells für verschiedene Hardware-Umgebungen vorhalten. Ein einziger Durchlauf genügt, um jede beliebige Größe abzuleiten.
  2. Anpassungsfähigkeit: Nutzer*innen können selbst entscheiden, wie viel Speicherressourcen sie bereitstellen wollen, ohne technische Hürden.
  3. Planbarkeit: Entwickler*innen sehen sofort, ab welchem Kompressionsgrad die Leistung eines Modells signifikant abnimmt, anstatt im Dunkeln zu tappen.

Wir haben ACIP erfolgreich auf bekannte offene Modelle wie LLaMa, Mistral und Qwen angewendet. Die Ergebnisse zeigen, dass wir den Speicherbedarf der Modelle massiv verringern können, wobei die Leistungskurve sanft und vorhersehbar verläuft.

Mehr erfahren

Wir glauben, dass Effizienz der Schlüssel ist, um generative KI breitflächig nutzbar zu machen. ACIP ist unser Beitrag dazu, diese Werkzeuge handlicher und ressourcenschonender zu gestalten.

Jetzt beim Merantix Momentum Newsletter anmelden.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Weitere Artikel

Die neuesten Branchennachrichten, Interviews, Technologien und Ressourcen.

Unsere Veröffentlichungen

Entdecken Sie die neuesten Veröffentlichungen unseres Forschungsteams und mehr

KI als Schlüssel zur Verwaltungsmodernisierung: Ein praktisches Stufenmodell für die öffentliche Verwaltung

Ein praxisnahes Stufenmodell erklärt, wie KI zum zentralen Treiber für Effizienz, Kulturwandel und Handlungsfähigkeit in der Verwaltung wird.

Die AI-Native Enterprise aufbauen: Eine kulturelle und operative Transformation von innen

Wie Unternehmen KI nicht nur einführen, sondern Kultur, Governance und Arbeitsweisen ganzheitlich zu AI-nativen Organisationen transformieren.

Clyravision: Ein ganzes Forensik-Team in einem System

Clyravision: Das intelligente Forensik-System, das manipulierte Bilder nicht nur erkennt, sondern genau erklärt, wie und warum sie verändert wurden – für mehr Transparenz und Vertrauen in der digitalen Welt.

Unsere Veröffentlichungen

Entdecken Sie die neuesten Veröffentlichungen unseres Forschungsteams und mehr

Der „Qualitäts-Regler“ für KI: Warum wir Large Language Models so einfach komprimieren sollten wie Bilder

Für Bilder und Videos existieren bereits benutzerfreundliche Lösungen zur Reduzierung des Speicherbedarfs. Das Prinzip ist bekannt: Wenn die Datei für den E-Mail-Anhang oder den Smartphone-Speicher zu groß ist, senken wir die Qualität geringfügig. Ein einfacher Schieberegler ermöglicht es uns, in Sekundenschnelle ein optimales Verhältnis zwischen Dateigröße und visueller Qualität zu finden, das unseren Anforderungen gerecht wird.

Doch wechselt man von der Welt der Medien zu modernen KI-Modellen, verschwindet diese Leichtigkeit plötzlich. Large Language Models (LLMs) benötigen oft enormen Speicherplatz. Sie kleiner und effizienter zu machen, war bisher kein flexibler Prozess, sondern eine technische Sackgasse.

Unser Forschungsteam bei Merantix Momentum hat sich gefragt: Warum können wir KI-Modelle nicht genauso intuitiv komprimieren wie Bilddateien?

Die Antwort darauf ist unsere neue Methode ACIP (Any Compression via Iterative Pruning), die wir kürzlich im Fachjournal Transactions on Machine Learning Research veröffentlicht haben.

Das Problem: Komprimierung als Einbahnstraße

Bisher gleicht die Verkleinerung eines KI-Modells eher einer starren Fertigung als einer flexiblen Anpassung. Entwickler*innen müssen sich vorab festlegen: „Ich möchte das Modell auf genau 50 % seiner Größe reduzieren.“ Daraufhin startet ein aufwendiger Berechnungsprozess.

Stellt man am Ende fest, dass das Modell nun doch zu viel an Genauigkeit eingebüßt hat und 60 % der Größe ideal gewesen wären, gibt es keinen Weg zurück. Der gesamte Prozess muss von vorne beginnen. Es fehlt die Möglichkeit, dynamisch den „Sweet Spot“ zwischen Speicherbedarf und Leistung zu finden.

Die Lösung: Einmal rechnen, frei wählen

Mit ACIP ändern wir diese Dynamik grundlegend. Unsere Methode entkoppelt die aufwendige Analyse von der eigentlichen Auswahl der Modellgröße.

Man kann sich das wie eine detaillierte Landkarte vorstellen, die unser Algorithmus einmalig erstellt. Wir nennen dies eine „Score Map“. Diese Karte verzeichnet, welche Parameter im neuronalen Netz entscheidend für das Wissen des Modells und welche vernachlässigbar sind.

Ist diese Karte einmal berechnet, geben wir die Kontrolle zurück an die Nutzenden. Wir bauen quasi den aus der Bildbearbeitung bekannten Regler für Sprachmodelle. Das Besondere: Das Modell muss dafür nicht neu trainiert werden. Die Anpassung an die gewünschte Größe geschieht praktisch sofort.

Wie funktioniert das?

Wir nutzen mathematische Verfahren, um die Strukturen des Modells global zu bewerten. Wir identifizieren iterativ diejenigen Verbindungen innerhalb der Architektur, die für das Gesamtergebnis am wenigsten relevant sind.

Anders als bei bisherigen Methoden, die für jede Zielgröße eine eigene Berechnung starten, sortieren wir alle Verbindungen im Modell nach ihrer Wichtigkeit. Das Ergebnis ist ein Modell, das genau weiß, auf welche Informationen es verzichten kann, wenn der Speicherplatz eng wird – ähnlich wie erfahrene Redakteur*innen, die einen Text kürzen, ohne den Kern der Aussage zu verlieren.

Warum ist das wichtig?

Diese Flexibilität ist ein entscheidender Schritt, um den Einsatz von LLMs effizienter zu gestalten.

  1. Speichereffizienz: Unternehmen müssen nicht mehr dutzende Versionen eines Modells für verschiedene Hardware-Umgebungen vorhalten. Ein einziger Durchlauf genügt, um jede beliebige Größe abzuleiten.
  2. Anpassungsfähigkeit: Nutzer*innen können selbst entscheiden, wie viel Speicherressourcen sie bereitstellen wollen, ohne technische Hürden.
  3. Planbarkeit: Entwickler*innen sehen sofort, ab welchem Kompressionsgrad die Leistung eines Modells signifikant abnimmt, anstatt im Dunkeln zu tappen.

Wir haben ACIP erfolgreich auf bekannte offene Modelle wie LLaMa, Mistral und Qwen angewendet. Die Ergebnisse zeigen, dass wir den Speicherbedarf der Modelle massiv verringern können, wobei die Leistungskurve sanft und vorhersehbar verläuft.

Mehr erfahren

Wir glauben, dass Effizienz der Schlüssel ist, um generative KI breitflächig nutzbar zu machen. ACIP ist unser Beitrag dazu, diese Werkzeuge handlicher und ressourcenschonender zu gestalten.

Oops! Da ist etwas schiefgelaufen.
Oops! Da ist etwas schiefgelaufen.
Oops! Da ist etwas schiefgelaufen.
Oops! Da ist etwas schiefgelaufen.
Oops! Da ist etwas schiefgelaufen.

Mehr Whitepaper entdecken

Datengetrieben zum Medikament von Morgen

Chancen und Hindernisse der KI in einer GxP Welt.

Artificial Intelligence for Private Equity Portfolios

Wertsteigerung für Ihr gesamtes Portfolio

Towards Tabular Foundation Models

Über den Status Quo, Herausforderungen und Chancen

Towards Tabular Foundation Models

Über den Status Quo, Herausforderungen und Chancen

Artificial Intelligence for Private Equity Portfolios

Wertsteigerung für Ihr gesamtes Portfolio

Datengetrieben zum Medikament von Morgen

Chancen und Hindernisse der KI in einer GxP Welt.

Jetzt im Merantix Momentum Newsletter anmelden.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.