Fallstudie · Exiger

Die Unternehmen der Welt
in großem Maßstab auflösen

Wie Exiger mit Tilores einen Entity-Graphen aus 60 Millionen Unternehmens-Clustern über 110 Millionen Quelldatensätze aufgebaut hat – als Grundlage für KI-gestützte Supply-Chain-Intelligence.

Branche

KI-gestütztes Supply-Chain-Risiko, Due Diligence & Compliance

Anwendungsfall

Unternehmens-Entity-Resolution — 110M+ Datensätze zu 60M Clustern

Umfang

5,5 Milliarden zugrunde liegende Versanddatensätze, nahezu globale Abdeckung

Status

In Produktion


110M+
Quelldatensätze
erfasst und aufgelöst
60M
Kanonische Cluster
aufgelöste Unternehmen
<24h
Vollständiger Erstimport
110M Datensätze geclustert
+30pts
F1-Verbesserung
ggü. interner Baseline
100ms Abfragelatenz über 60M Cluster
23 gemeinsam abgestimmte Clustering-Regeln
5,5 Mrd. zugrunde liegende Versanddatensätze
16+ verschiedene Datenquellen

Über Exiger

Die Grundlage für alles, was sie abbilden

Exiger ist ein Marktführer im Bereich Due Diligence und Supply-Chain-Risiko-Intelligence – vertraut von mehr als 150 Fortune-500-Unternehmen und über 60 US-Bundesbehörden und 2025 als Leader im Gartner Magic Quadrant for Supplier Risk Management ausgezeichnet.

Im Kern ihrer Supply-Chain-Intelligence steckt ein täuschend schweres Problem: Um eine Lieferkette zuverlässig abzubilden, muss man zunächst genau wissen, welche Unternehmen man abbildet. Entity-Resolution – das Erkennen, dass Datensätze aus verschiedenen Quellen dasselbe reale Unternehmen meinen – ist die grundlegende Infrastruktur für alles, was Exiger tut.

“To map a supply chain really well, you need to understand which companies you are mapping to. This is where an entity resolution system is extremely crucial for our mission.”
Simon Baker
Simon Baker
SVP of AI Products & Supply Chain Intelligence, Exiger

Die Herausforderung

Eine Datenbank der Unternehmen der Welt – von Registern bis zu globalen Handelsdaten

Es gibt keine universelle Volkszählung für Unternehmen. Deshalb führt Exiger mehr als 16 verschiedene Quellen zu einem einzigen Entity-Graphen zusammen – und diese Quellen decken ein breites Spektrum ab. Am einen Ende stehen saubere, gut strukturierte rechtliche Stammdaten zu Unternehmen, ideal für Matching mit hoher Konfidenz. Am anderen Ende stehen globale Versand- und Zolldaten: ein Datenbestand von außerordentlichem Wert, um reale Handelsströme nachzuvollziehen, dessen Beschaffenheit widerspiegelt, wie er am Ursprungsort erfasst wird.

Zoll- und Versanddatensätze werden weltweit unter realen Betriebsbedingungen erfasst – handschriftliche Formulare, eingescannte Dokumente an internationalen Häfen und nachgelagerte optische Zeichenerkennung. Die so entstehenden Daten sind reichhaltig und einzigartig wertvoll, aber von Natur aus variabel: Firmennamen können eingebettete Adressfragmente, zusätzliche Tokens, Transliterationsvarianten und fehlende Attribute enthalten. Solche Datensätze zuverlässig gegen saubere Registerdaten zu matchen, ist eine andere Klasse von Problem als Standard-Entity-Matching.

Exigers früheres internes, regelbasiertes System war auf hohe Präzision ausgelegt – auf Kosten des Recalls. Geringerer Recall bedeutete Under-Clustering: Duplikate sammelten sich in der Datenbank an und erschwerten Lieferketten-Abbildungen und Due-Diligence-Suchen für Kunden. Das Ziel der Evaluation war, den Recall deutlich zu erhöhen, ohne die Präzision zu opfern.

“The names can be very challenging to work with — extraneous tokens, transliteration variants, and sometimes parts of the address embedded in the company name itself. A normal fuzzy name search, or any kind of exact name search, is just not going to match those records together.”
John Willcox
John Willcox
Data Scientist, Exiger

Warum Tilores

Die Entscheidung fiel bei den schwierigsten Daten

Exiger führte eine gründliche, zweimonatige Evaluation über mehrere Lösungen durch und bewertete Präzision, Recall, F1 und Cluster-Reinheit an einem annotierten Ground-Truth-Datensatz aus eigenen Quellen. Konkurrierende Lösungen waren stark bei adressbasierter Auflösung – aber für einen Großteil von Exigers Daten gibt es keine brauchbare Adresse oder keine eindeutige Möglichkeit zu wissen, welche zu wählen ist. Bei den Versand- und Zolldaten erwies sich tokengewichtetes Matching als ausschlaggebend.

Zwei weitere Faktoren bestätigten die Wahl. Erstens Flexibilität: Tilores bietet ein transparentes, anpassbares Regelsystem statt einer Blackbox. Zweitens die Architektur – Tilores fügte sich sauber als Entity-Schicht in Exigers bestehende AWS-Infrastruktur ein, ohne vorgelagerte Pipelines und nachgelagerte Systeme anzutasten, und ohne dass eine abgegrenzte „Sandbox" nötig war.

Warum Unternehmens-Matching schwieriger ist als Personen-Matching

Zwei Personen namens John Smith in einer Stadt sind unterscheidbar. Zwei Unternehmen namens Ideal Industries Inc. im selben Bundesstaat können tatsächlich verschiedene Organisationen ohne zuverlässiges Unterscheidungsmerkmal sein. Firmennamen werden wiederverwendet, abgekürzt, transliteriert, in größere Felder eingebettet und ihrer Rechtsform beraubt – sie in globalem Maßstab mit echtem Recall zu matchen, erfordert einen anderen technischen Ansatz.

“The other options had their strengths — a lot of them were strong on address-based entity resolution. The issue is that a lot of our entities, we just don't have an address, or we didn't know which address to pick. It doesn't really solve the problem we have, which is grouping records from different companies regardless of their addresses.”
Simon Baker
Simon Baker
SVP of AI Products & Supply Chain Intelligence, Exiger

Umsetzung

Neun Monate bis zur Produktion im großen Maßstab

Exiger ist cloud-nativ auf AWS. Eigene Spark-Pipelines leiten Datensätze aus den Quellen über die GraphQL-API in Tilores; ein Kafka-Event-Stream propagiert Cluster-Ereignisse zurück in Exigers nachgelagerte Systeme und das Data Warehouse – kontinuierlich und automatisch. Tilores fungiert als reine Entity-Schicht, sodass keine bestehende Infrastruktur umgebaut werden musste.

Bis zur Produktion vergingen knapp neun Monate iterativer, technisch anspruchsvoller Zusammenarbeit. Den Recall zu verbessern gelang früh; die schwierigere Aufgabe war, Over-Clustering zu reduzieren und dabei den gewonnenen Recall zu halten. Die finale Konfiguration umfasst 23 verschiedene Clustering-Regeln:

  • Tokengewichtetes Matching — verarbeitet variable, unvollständige Firmennamen und gewichtet häufige Begriffe ab, die Over-Clustering verursachen
  • Geografisches Distanz-Matching auf Basis von Geokoordinaten
  • ID-basiertes Matching, wo zuverlässige Identifikatoren vorliegen
  • Spezielle Regeln für chinesische Firmennamen und komplexe Diakritika
  • Fuzzy-Suche und Normalisierung gängiger Abkürzungen
  • Konsistenzregeln — weisen einen Datensatz aus einem Cluster zurück, wenn ein festgelegtes Feld (z. B. USt-IdNr.) widerspricht, selbst wenn andere Regeln gegriffen haben

Weiterführend: wie Tilores-Konsistenzregeln funktionieren und die cliquenbasierte Graph-Kompression, die aus diesem Projekt entstand (Artikel auf Englisch).

Als der Maßstab die Erwartungen übertraf

Bei Exigers Größenordnung wuchsen einige Cluster auf über 6.000 Datensätze mit Zehntausenden Matching-Kanten – mehr als alles, was Tilores zuvor begegnet war. Die Lösung, eine der komplexesten, die das Team angegangen ist, war innerhalb weniger Wochen nach Meldung des Problems in Produktion. Die daraus entstandene cliquenbasierte Graph-Kompression ist heute eine Kernfunktion für alle Tilores-Kunden.

“It's a complicated problem. We really emphasise data quality. We needed to make sure this was the best system we could find, and we never lowered our standards — we kept our bar of accuracy and we just had to make sure we met it.”
Simon Baker
Simon Baker
SVP of AI Products & Supply Chain Intelligence, Exiger

Ergebnisse

Ein aufgelöster Entity-Graph in globalem Maßstab

Der von Tilores betriebene Entity-Graph steht heute im Zentrum von Exigers Dateninfrastruktur – er löst 110 Millionen Quelldatensätze zu rund 60 Millionen kanonischen Unternehmens-Clustern auf, wobei Suchen selbst unter paralleler Last in unter 100 Millisekunden zurückkommen. Neue Datensätze werden fortlaufend bei Eingang aufgelöst, und ein vollständiger Erstimport von 110 Millionen Datensätzen ist in unter 24 Stunden abgeschlossen. Über die Zusammenarbeit hinweg stieg der gesamte paarweise F1-Score um rund 30 Punkte gegenüber dem Ausgangswert.

Die Nutzung wächst über Exigers Produktportfolio, während Teams die Entity-API integrieren. Exiger lässt zudem ML-Modelle über den Graphen laufen, um potenzielle Clustering-Probleme zu markieren und Korrekturen in Tilores zurückzuspielen – eine sich verstärkende Qualitätsschleife. Weitere Entitätstypen, darunter Produkte und Personen, werden bereits diskutiert.

“This is a very fundamental piece of data that will have downstream effects. We have AI models all over the place, and if you start off with bad initial input, you could end up with garbage in, garbage out. A lot of models will benefit from a good entity system early in the pipeline.”
Simon Baker
Simon Baker
SVP of AI Products & Supply Chain Intelligence, Exiger

In ihren eigenen Worten

Mehr als eine Lieferantenbeziehung

Durch den iterativen Charakter des Aufbaus war das Tilores-Team faktisch in Exigers Data-Science- und Engineering-Funktion eingebettet. In einem gemeinsamen Slack-Channel gestellte Fragen wurden ausführlich von erfahrenen Tilores-Ingenieuren beantwortet – einschließlich des CTO –, ganz gleich wie komplex.

“The Tilores team is one of the most professional teams I've ever worked with in my career. They really were part of our team — it felt like a family. They can have discussions at a very pedantic technical level and explain things at a business level when needed. They were a joy to work with.”
Simon Baker
Simon Baker
SVP of AI Products & Supply Chain Intelligence, Exiger
“What surprised me most was the amount of attention we received from the Tilores team during implementation. That kind of attention from a vendor — I haven't really seen it before. It's a phenomenal application, and the amount of work that gets done is a real credit to the team.”
John Willcox
John Willcox
Data Scientist, Exiger

Mit korrekter Unternehmensidentität beginnen –
bessere Intelligence darauf aufbauen

Sehen Sie, wie Tilores Unternehmensdatensätze in großem Maßstab auflöst. Verfügbar im AWS Marketplace.

Arbeiten Sie mit Lieferkettendaten? Sehen Sie sich die Lösung Supply-Chain-Intelligence an.