Ein Deep Dive zu Tabular In-Context Learning
.png)
Von Orr Shahar / Machine learning Engineer
Die Zukunft von Tabellen im Test
In der sich schnell entwickelnden Landschaft des Machine Learning sind Deep Learning und Transformer-Modelle zum Goldstandard für Sprache und Bildverarbeitung geworden. Doch über viele Jahre hinweg blieb die Welt der tabellarischen Daten weitgehend außen vor, obwohl sie das Rückgrat zahlreicher Branchen wie dem Finanzwesen oder der Produktion bilden. Boosting-Algorithmen wie XGBoost und Random Forests dominierten diesen Bereich dank ihrer Effizienz und starken Performance.
In letzter Zeit ist jedoch ein neuer Ansatz entstanden, der diese Dominanz herausfordert: In-Context Learning (ICL) für tabellarische Daten. Wir bei Merantix Momentum haben diesen Ansatz genauer untersucht, um zu prüfen, ob diese Modelle tatsächlich den Status quo herausfordern und eine bessere KI-Lösung für moderne Datenprobleme bieten können.
Dafür haben wir drei prominente In-Context-Modelle analysiert, ihre Architekturen und Eigenschaften verglichen und sie gegen etablierte Benchmarks getestet. Unser Ziel war es, konkrete Use Cases sowie den Ressourcenbedarf zu identifizieren,damit Unternehmen diese neuen Entwicklungen optimal nutzen können.
Hintergrund: In-Context Tabular Models
Während Transformer bei sequentiellen Daten sehr stark sind, schränkt die unabhängige Struktur von Spalten in tabellarischen Daten die Effektivität klassischer Attention-Mechanismen ein.
Neue Forschung im Bereich KI adressiert dieses Problem mit Tabular ICL-Modellen, die einen Teil der gelabelten Trainingsdaten als „Kontextfenster“ nutzen. Jede zu prognostizierende Einheit “achtet“ dabei auf diese Beispiele und leitet daraus die Vorhersage ab.
Diese Modelle werden auf einer Vielzahl von Datensätzen vortrainiert und lernen dabei Muster und Strukturen in tabellarischen Daten. Dadurch können sie direkt während der Inferenz auf neue Datensätze angewendet werden – ohne zusätzliches Training.
Die Autoren versprechen dadurch eine sehr schnelle und leistungsfähige Anwendung.
Die Modelle im Überblick
- TabPFN-2.5: Dieses von Prior Labs entwickelte Modell gilt als Pionier des ICL-Ansatzes. Es wurde auf synthetischen Daten trainiert, um generelle Muster als Prior für reale Datensätze zu lernen, und wechselt zwischen Row- und Column-Attention.
- ConTextTab: Dieses Modell von SAP ist “semantics-aware“. Es nutzt ein LLM, um die Bedeutung von Spaltennamen wie “Credit Score“ oder “Age“ zu verstehen. Das macht es besonders stark, wenn semantische Informationen eine große Rolle spielen.
- TabICLV2: Ein akademisches Modell der ICML 2025, das ebenfalls auf synthetischen Daten trainiert wurde. Es nutzt distributionsbewusste Embeddings und reduziert frühzeitig die Dimensionalität, wodurch es besonders gut mit hochdimensionalen Datensätzen umgehen kann.
Das Experiment: Theorie trifft Praxis
Zur Evaluation haben wir über OpenML diverse Datensätze aus unterschiedlichen Bereichen verwendet, die von Kreditrisiken bis hin zu Zulassungsentscheidungen im Bildungssektor reichen. Um differenzierte Ergebnisse zu erhalten, haben wir diese in sechs Kategorien („Buckets“) eingeteilt, basierend auf ihrer Größe und Dimensionalität.
Ergebnisse: Wann ICL gewinnt – und wann nicht
Unsere Ergebnisse zeigen einen klaren „Sweet Spot“ für In-Context Learning:
- Kleine Datensätze: Für Datensätze mit weniger als 5.000 Zeilen sind ICL-Modelle (insbesondere TabPFN und TabICL) klar überlegen. Sie erzielen konstant die beste Performance und schlagen klassische Boosting-Methoden. Zusätzlich sind sie deutlich schneller, wenn man Trainings- und Tuningzeiten der Boosting-Modelle berücksichtigt.
- Übergangsbereich: Zwischen 30.000 und 50.000 Zeilen wird der Wettbewerb enger. Es gibt keinen klaren Gewinner mehr, wobei ICL-Modelle vor allem bei hochdimensionalen und sparsamen Daten ihre Robustheit ausspielen.
- Skalierungsgrenze: Ab etwa 100.000 Zeilen gewinnen klassische Methoden wie Boosting wieder deutlich, sowohl in der Performance als auch in Geschwindigkeit. Besonders in produktiven Workflows mit kontinuierlicher Nutzung sind Boosting-Modelle während der Inferenz deutlich effizienter.
Fazit
Die Implementierung von ICL-Modellen ist vergleichsweise einfach: Sie kommen mit fertigen Libraries und benötigen im Gegensatz zu Boosting-Methoden keine aufwendige Feature Engineering Pipeline. Sie sind ein echtes „Plug-and-Play“-Werkzeug für tabellarische Daten, das sogar Textdaten verarbeiten kann. Allerdings gibt es Einschränkungen: Sie sind primär für GPU-Umgebungen optimiert und können auf CPUs selbst bei kleinen Datensätzen langsam sein.Ein weiterer wichtiger Punkt ist das Kostenmodell: Boosting-Modelle haben Trainings- und Tuningkosten (einmalig), sind danach aber extrem effizient in der Inferenz. ICL-Modelle sind genau umgekehrt und daher in kontinuierlichen Produktionsumgebungen oft teurer.
Allerdings gibt es Einschränkungen: Die Modelle sind primär für GPU-Umgebungen optimiert und können auf CPUs selbst bei kleinen Datensätzen langsam reagieren. Auch das Kostenmodell unterscheidet sich grundlegend. Während bei Boosting-Modellen einmalige Trainings- und Tuningkosten anfallen, sind ICL-Modelle in der Inferenz teurer, was sie für kontinuierliche Produktionsumgebungen mit hohem Aufkommen weniger attraktiv macht.
Tabular In-Context Learning ist ein spannender Versuch, die langjährige Dominanz von Boosting-Algorithmen zu brechen – und in bestimmten Szenarien gelingt das bereits heute. Bei kleinen Datensätzen sind ICL-Modelle tatsächlich im Vorteil. Skalierbarkeit bleibt jedoch eine zentrale Herausforderung für zukünftige Forschung. Je größer der Datensatz, desto stärker schneiden klassische Methoden ab. Für große Datenmengen könnten Batch-Processing und Subsampling mögliche Lösungsansätze sein.
Wie bei den meisten KI-Anwendungen gilt: Die beste Lösung hängt vom Kontext ab. Tabular ICL-Modelle sind eine wertvolle Ergänzung im Werkzeugkasten – ersetzen aber nicht die Notwendigkeit, das richtige Modell für das jeweilige Problem auszuwählen. Als Experten für maßgeschneiderte KI-Lösungen verfolgen wir bei Merantix Momentum stets einen ganzheitlichen Ansatz und berücksichtigen Performance, Daten, Ressourcen und User Experience gleichermaßen. So entstehen Lösungen, die exakt auf die Bedürfnisse unserer Kunden zugeschnitten sind.
Sie möchten Ihre KI-Strategie entwickeln oder umsetzen? Kontaktieren Sie uns – wir unterstützen Sie gerne.
Jetzt beim Merantix Momentum Newsletter anmelden.
Weitere Artikel
Ein Deep Dive zu Tabular In-Context Learning
Von Orr Shahar / Machine learning Engineer
Die Zukunft von Tabellen im Test
In der sich schnell entwickelnden Landschaft des Machine Learning sind Deep Learning und Transformer-Modelle zum Goldstandard für Sprache und Bildverarbeitung geworden. Doch über viele Jahre hinweg blieb die Welt der tabellarischen Daten weitgehend außen vor, obwohl sie das Rückgrat zahlreicher Branchen wie dem Finanzwesen oder der Produktion bilden. Boosting-Algorithmen wie XGBoost und Random Forests dominierten diesen Bereich dank ihrer Effizienz und starken Performance.
In letzter Zeit ist jedoch ein neuer Ansatz entstanden, der diese Dominanz herausfordert: In-Context Learning (ICL) für tabellarische Daten. Wir bei Merantix Momentum haben diesen Ansatz genauer untersucht, um zu prüfen, ob diese Modelle tatsächlich den Status quo herausfordern und eine bessere KI-Lösung für moderne Datenprobleme bieten können.
Dafür haben wir drei prominente In-Context-Modelle analysiert, ihre Architekturen und Eigenschaften verglichen und sie gegen etablierte Benchmarks getestet. Unser Ziel war es, konkrete Use Cases sowie den Ressourcenbedarf zu identifizieren,damit Unternehmen diese neuen Entwicklungen optimal nutzen können.
Hintergrund: In-Context Tabular Models
Während Transformer bei sequentiellen Daten sehr stark sind, schränkt die unabhängige Struktur von Spalten in tabellarischen Daten die Effektivität klassischer Attention-Mechanismen ein.
Neue Forschung im Bereich KI adressiert dieses Problem mit Tabular ICL-Modellen, die einen Teil der gelabelten Trainingsdaten als „Kontextfenster“ nutzen. Jede zu prognostizierende Einheit “achtet“ dabei auf diese Beispiele und leitet daraus die Vorhersage ab.
Diese Modelle werden auf einer Vielzahl von Datensätzen vortrainiert und lernen dabei Muster und Strukturen in tabellarischen Daten. Dadurch können sie direkt während der Inferenz auf neue Datensätze angewendet werden – ohne zusätzliches Training.
Die Autoren versprechen dadurch eine sehr schnelle und leistungsfähige Anwendung.
Die Modelle im Überblick
- TabPFN-2.5: Dieses von Prior Labs entwickelte Modell gilt als Pionier des ICL-Ansatzes. Es wurde auf synthetischen Daten trainiert, um generelle Muster als Prior für reale Datensätze zu lernen, und wechselt zwischen Row- und Column-Attention.
- ConTextTab: Dieses Modell von SAP ist “semantics-aware“. Es nutzt ein LLM, um die Bedeutung von Spaltennamen wie “Credit Score“ oder “Age“ zu verstehen. Das macht es besonders stark, wenn semantische Informationen eine große Rolle spielen.
- TabICLV2: Ein akademisches Modell der ICML 2025, das ebenfalls auf synthetischen Daten trainiert wurde. Es nutzt distributionsbewusste Embeddings und reduziert frühzeitig die Dimensionalität, wodurch es besonders gut mit hochdimensionalen Datensätzen umgehen kann.
Das Experiment: Theorie trifft Praxis
Zur Evaluation haben wir über OpenML diverse Datensätze aus unterschiedlichen Bereichen verwendet, die von Kreditrisiken bis hin zu Zulassungsentscheidungen im Bildungssektor reichen. Um differenzierte Ergebnisse zu erhalten, haben wir diese in sechs Kategorien („Buckets“) eingeteilt, basierend auf ihrer Größe und Dimensionalität.
Ergebnisse: Wann ICL gewinnt – und wann nicht
Unsere Ergebnisse zeigen einen klaren „Sweet Spot“ für In-Context Learning:
- Kleine Datensätze: Für Datensätze mit weniger als 5.000 Zeilen sind ICL-Modelle (insbesondere TabPFN und TabICL) klar überlegen. Sie erzielen konstant die beste Performance und schlagen klassische Boosting-Methoden. Zusätzlich sind sie deutlich schneller, wenn man Trainings- und Tuningzeiten der Boosting-Modelle berücksichtigt.
- Übergangsbereich: Zwischen 30.000 und 50.000 Zeilen wird der Wettbewerb enger. Es gibt keinen klaren Gewinner mehr, wobei ICL-Modelle vor allem bei hochdimensionalen und sparsamen Daten ihre Robustheit ausspielen.
- Skalierungsgrenze: Ab etwa 100.000 Zeilen gewinnen klassische Methoden wie Boosting wieder deutlich, sowohl in der Performance als auch in Geschwindigkeit. Besonders in produktiven Workflows mit kontinuierlicher Nutzung sind Boosting-Modelle während der Inferenz deutlich effizienter.
Fazit
Die Implementierung von ICL-Modellen ist vergleichsweise einfach: Sie kommen mit fertigen Libraries und benötigen im Gegensatz zu Boosting-Methoden keine aufwendige Feature Engineering Pipeline. Sie sind ein echtes „Plug-and-Play“-Werkzeug für tabellarische Daten, das sogar Textdaten verarbeiten kann. Allerdings gibt es Einschränkungen: Sie sind primär für GPU-Umgebungen optimiert und können auf CPUs selbst bei kleinen Datensätzen langsam sein.Ein weiterer wichtiger Punkt ist das Kostenmodell: Boosting-Modelle haben Trainings- und Tuningkosten (einmalig), sind danach aber extrem effizient in der Inferenz. ICL-Modelle sind genau umgekehrt und daher in kontinuierlichen Produktionsumgebungen oft teurer.
Allerdings gibt es Einschränkungen: Die Modelle sind primär für GPU-Umgebungen optimiert und können auf CPUs selbst bei kleinen Datensätzen langsam reagieren. Auch das Kostenmodell unterscheidet sich grundlegend. Während bei Boosting-Modellen einmalige Trainings- und Tuningkosten anfallen, sind ICL-Modelle in der Inferenz teurer, was sie für kontinuierliche Produktionsumgebungen mit hohem Aufkommen weniger attraktiv macht.
Tabular In-Context Learning ist ein spannender Versuch, die langjährige Dominanz von Boosting-Algorithmen zu brechen – und in bestimmten Szenarien gelingt das bereits heute. Bei kleinen Datensätzen sind ICL-Modelle tatsächlich im Vorteil. Skalierbarkeit bleibt jedoch eine zentrale Herausforderung für zukünftige Forschung. Je größer der Datensatz, desto stärker schneiden klassische Methoden ab. Für große Datenmengen könnten Batch-Processing und Subsampling mögliche Lösungsansätze sein.
Wie bei den meisten KI-Anwendungen gilt: Die beste Lösung hängt vom Kontext ab. Tabular ICL-Modelle sind eine wertvolle Ergänzung im Werkzeugkasten – ersetzen aber nicht die Notwendigkeit, das richtige Modell für das jeweilige Problem auszuwählen. Als Experten für maßgeschneiderte KI-Lösungen verfolgen wir bei Merantix Momentum stets einen ganzheitlichen Ansatz und berücksichtigen Performance, Daten, Ressourcen und User Experience gleichermaßen. So entstehen Lösungen, die exakt auf die Bedürfnisse unserer Kunden zugeschnitten sind.
Sie möchten Ihre KI-Strategie entwickeln oder umsetzen? Kontaktieren Sie uns – wir unterstützen Sie gerne.

.png)



.png)


.png)