Die Unternehmen der Welt
in großem Maßstab auflösen
Wie Exiger mit Tilores einen Entity-Graphen aus 60 Millionen Unternehmens-Clustern über 110 Millionen Quelldatensätze aufgebaut hat – als Grundlage für KI-gestützte Supply-Chain-Intelligence.
KI-gestütztes Supply-Chain-Risiko, Due Diligence & Compliance
Unternehmens-Entity-Resolution — 110M+ Datensätze zu 60M Clustern
5,5 Milliarden zugrunde liegende Versanddatensätze, nahezu globale Abdeckung
In Produktion
Die Grundlage für alles, was sie abbilden
Exiger ist ein Marktführer im Bereich Due Diligence und Supply-Chain-Risiko-Intelligence – vertraut von mehr als 150 Fortune-500-Unternehmen und über 60 US-Bundesbehörden und 2025 als Leader im Gartner Magic Quadrant for Supplier Risk Management ausgezeichnet.
Im Kern ihrer Supply-Chain-Intelligence steckt ein täuschend schweres Problem: Um eine Lieferkette zuverlässig abzubilden, muss man zunächst genau wissen, welche Unternehmen man abbildet. Entity-Resolution – das Erkennen, dass Datensätze aus verschiedenen Quellen dasselbe reale Unternehmen meinen – ist die grundlegende Infrastruktur für alles, was Exiger tut.
“To map a supply chain really well, you need to understand which companies you are mapping to. This is where an entity resolution system is extremely crucial for our mission.”
Eine Datenbank der Unternehmen der Welt – von Registern bis zu globalen Handelsdaten
Es gibt keine universelle Volkszählung für Unternehmen. Deshalb führt Exiger mehr als 16 verschiedene Quellen zu einem einzigen Entity-Graphen zusammen – und diese Quellen decken ein breites Spektrum ab. Am einen Ende stehen saubere, gut strukturierte rechtliche Stammdaten zu Unternehmen, ideal für Matching mit hoher Konfidenz. Am anderen Ende stehen globale Versand- und Zolldaten: ein Datenbestand von außerordentlichem Wert, um reale Handelsströme nachzuvollziehen, dessen Beschaffenheit widerspiegelt, wie er am Ursprungsort erfasst wird.
Zoll- und Versanddatensätze werden weltweit unter realen Betriebsbedingungen erfasst – handschriftliche Formulare, eingescannte Dokumente an internationalen Häfen und nachgelagerte optische Zeichenerkennung. Die so entstehenden Daten sind reichhaltig und einzigartig wertvoll, aber von Natur aus variabel: Firmennamen können eingebettete Adressfragmente, zusätzliche Tokens, Transliterationsvarianten und fehlende Attribute enthalten. Solche Datensätze zuverlässig gegen saubere Registerdaten zu matchen, ist eine andere Klasse von Problem als Standard-Entity-Matching.
Exigers früheres internes, regelbasiertes System war auf hohe Präzision ausgelegt – auf Kosten des Recalls. Geringerer Recall bedeutete Under-Clustering: Duplikate sammelten sich in der Datenbank an und erschwerten Lieferketten-Abbildungen und Due-Diligence-Suchen für Kunden. Das Ziel der Evaluation war, den Recall deutlich zu erhöhen, ohne die Präzision zu opfern.
“The names can be very challenging to work with — extraneous tokens, transliteration variants, and sometimes parts of the address embedded in the company name itself. A normal fuzzy name search, or any kind of exact name search, is just not going to match those records together.”
Die Entscheidung fiel bei den schwierigsten Daten
Exiger führte eine gründliche, zweimonatige Evaluation über mehrere Lösungen durch und bewertete Präzision, Recall, F1 und Cluster-Reinheit an einem annotierten Ground-Truth-Datensatz aus eigenen Quellen. Konkurrierende Lösungen waren stark bei adressbasierter Auflösung – aber für einen Großteil von Exigers Daten gibt es keine brauchbare Adresse oder keine eindeutige Möglichkeit zu wissen, welche zu wählen ist. Bei den Versand- und Zolldaten erwies sich tokengewichtetes Matching als ausschlaggebend.
Zwei weitere Faktoren bestätigten die Wahl. Erstens Flexibilität: Tilores bietet ein transparentes, anpassbares Regelsystem statt einer Blackbox. Zweitens die Architektur – Tilores fügte sich sauber als Entity-Schicht in Exigers bestehende AWS-Infrastruktur ein, ohne vorgelagerte Pipelines und nachgelagerte Systeme anzutasten, und ohne dass eine abgegrenzte „Sandbox" nötig war.
Zwei Personen namens John Smith in einer Stadt sind unterscheidbar. Zwei Unternehmen namens Ideal Industries Inc. im selben Bundesstaat können tatsächlich verschiedene Organisationen ohne zuverlässiges Unterscheidungsmerkmal sein. Firmennamen werden wiederverwendet, abgekürzt, transliteriert, in größere Felder eingebettet und ihrer Rechtsform beraubt – sie in globalem Maßstab mit echtem Recall zu matchen, erfordert einen anderen technischen Ansatz.
“The other options had their strengths — a lot of them were strong on address-based entity resolution. The issue is that a lot of our entities, we just don't have an address, or we didn't know which address to pick. It doesn't really solve the problem we have, which is grouping records from different companies regardless of their addresses.”
Neun Monate bis zur Produktion im großen Maßstab
Exiger ist cloud-nativ auf AWS. Eigene Spark-Pipelines leiten Datensätze aus den Quellen über die GraphQL-API in Tilores; ein Kafka-Event-Stream propagiert Cluster-Ereignisse zurück in Exigers nachgelagerte Systeme und das Data Warehouse – kontinuierlich und automatisch. Tilores fungiert als reine Entity-Schicht, sodass keine bestehende Infrastruktur umgebaut werden musste.
Bis zur Produktion vergingen knapp neun Monate iterativer, technisch anspruchsvoller Zusammenarbeit. Den Recall zu verbessern gelang früh; die schwierigere Aufgabe war, Over-Clustering zu reduzieren und dabei den gewonnenen Recall zu halten. Die finale Konfiguration umfasst 23 verschiedene Clustering-Regeln:
- ▹ Tokengewichtetes Matching — verarbeitet variable, unvollständige Firmennamen und gewichtet häufige Begriffe ab, die Over-Clustering verursachen
- ▹ Geografisches Distanz-Matching auf Basis von Geokoordinaten
- ▹ ID-basiertes Matching, wo zuverlässige Identifikatoren vorliegen
- ▹ Spezielle Regeln für chinesische Firmennamen und komplexe Diakritika
- ▹ Fuzzy-Suche und Normalisierung gängiger Abkürzungen
- ▹ Konsistenzregeln — weisen einen Datensatz aus einem Cluster zurück, wenn ein festgelegtes Feld (z. B. USt-IdNr.) widerspricht, selbst wenn andere Regeln gegriffen haben
Weiterführend: wie Tilores-Konsistenzregeln funktionieren und die cliquenbasierte Graph-Kompression, die aus diesem Projekt entstand (Artikel auf Englisch).
Als der Maßstab die Erwartungen übertraf
Bei Exigers Größenordnung wuchsen einige Cluster auf über 6.000 Datensätze mit Zehntausenden Matching-Kanten – mehr als alles, was Tilores zuvor begegnet war. Die Lösung, eine der komplexesten, die das Team angegangen ist, war innerhalb weniger Wochen nach Meldung des Problems in Produktion. Die daraus entstandene cliquenbasierte Graph-Kompression ist heute eine Kernfunktion für alle Tilores-Kunden.
“It's a complicated problem. We really emphasise data quality. We needed to make sure this was the best system we could find, and we never lowered our standards — we kept our bar of accuracy and we just had to make sure we met it.”
Ein aufgelöster Entity-Graph in globalem Maßstab
Der von Tilores betriebene Entity-Graph steht heute im Zentrum von Exigers Dateninfrastruktur – er löst 110 Millionen Quelldatensätze zu rund 60 Millionen kanonischen Unternehmens-Clustern auf, wobei Suchen selbst unter paralleler Last in unter 100 Millisekunden zurückkommen. Neue Datensätze werden fortlaufend bei Eingang aufgelöst, und ein vollständiger Erstimport von 110 Millionen Datensätzen ist in unter 24 Stunden abgeschlossen. Über die Zusammenarbeit hinweg stieg der gesamte paarweise F1-Score um rund 30 Punkte gegenüber dem Ausgangswert.
Die Nutzung wächst über Exigers Produktportfolio, während Teams die Entity-API integrieren. Exiger lässt zudem ML-Modelle über den Graphen laufen, um potenzielle Clustering-Probleme zu markieren und Korrekturen in Tilores zurückzuspielen – eine sich verstärkende Qualitätsschleife. Weitere Entitätstypen, darunter Produkte und Personen, werden bereits diskutiert.
“This is a very fundamental piece of data that will have downstream effects. We have AI models all over the place, and if you start off with bad initial input, you could end up with garbage in, garbage out. A lot of models will benefit from a good entity system early in the pipeline.”
Mehr als eine Lieferantenbeziehung
Durch den iterativen Charakter des Aufbaus war das Tilores-Team faktisch in Exigers Data-Science- und Engineering-Funktion eingebettet. In einem gemeinsamen Slack-Channel gestellte Fragen wurden ausführlich von erfahrenen Tilores-Ingenieuren beantwortet – einschließlich des CTO –, ganz gleich wie komplex.
“The Tilores team is one of the most professional teams I've ever worked with in my career. They really were part of our team — it felt like a family. They can have discussions at a very pedantic technical level and explain things at a business level when needed. They were a joy to work with.”
“What surprised me most was the amount of attention we received from the Tilores team during implementation. That kind of attention from a vendor — I haven't really seen it before. It's a phenomenal application, and the amount of work that gets done is a real credit to the team.”
Mit korrekter Unternehmensidentität beginnen –
bessere Intelligence darauf aufbauen
Sehen Sie, wie Tilores Unternehmensdatensätze in großem Maßstab auflöst. Verfügbar im AWS Marketplace.
Arbeiten Sie mit Lieferkettendaten? Sehen Sie sich die Lösung Supply-Chain-Intelligence an.