Kombination von internen und externen Datenquellen Ursprung der verwendeten Daten

Aktuelles
Mithilfe der Karten-Visualisierung können geografische Trends und Tendenzen auf einer interaktiven Karte sichtbar gemacht und analysiert werden. In diesem Beitrag wird aufgezeigt, woher diese Daten stammen und wie interne mit externen Datenquellen sinnvoll miteinander verknüpft werden können.

Datenursprung

In unserem Artikel „Karten-Visualisierung mit Geo-Koordinaten“ wurde verdeutlicht, wie Informationen aus unterschiedlichen Datenquellen auf einer interaktiven Karte dargestellt werden können, um geografische Trends und Tendenzen auf einen Blick zu erkennen und verkaufsfördernde Massnahmen abzuleiten zu können. 

Ganz gleich, ob das Bestellvolumen pro Kanton, das Potenzial einer Region oder die Beliebtheit eines Produktes nach Postleitzahlenbereich dargestellt werden soll, den Anwendungsmöglichkeiten sind keine Grenzen gesetzt. 

Um den grösstmöglichen Nutzen aus vorhandenen Informationen ziehen zu können, ist ein durchdachtes Daten-Management essenziell. Die verwendeten Daten sollten aktuell und vollständig sein. Hierbei geht es nicht nur um Daten, die dem Unternehmen intern zur Verfügung stehen, sondern auch um externe Datenquellen, wie öffentlich-zugängliche Adresslisten, Geo-Koordinaten, Wetterdaten etc. Auch sie sollten mit internen Daten verknüpft werden können. Wird beispielsweise eine Kunden-Adresse im internen CRM-System abgeändert, sollte diese direkt bei der Erfassung automatisch mit den passenden Geo-Koordinaten ergänzt werden. 

 

 

Sobald externe Daten über Online-Dienste, wie z.B. über den Dienst der Eidgenossenschaft für Schweizer Adressen, eingebunden werden, geschieht dies über eine Anwendungsschnittstelle, engl. Application-Programming-Interface (API). Die API ermöglicht den Datenaustausch zwischen unterschiedlichen Systemen, auch wenn die Applikationen in verschiedenen Programmiersprachen verfasst wurden. Diese Verknüpfung sorgt für den unkomplizierten Datenaustausch zwischen der eigenen Datenbank und verschiedener APIs, um sowohl interne als auch externe Daten in Kombination verwenden zu können.

Das Beziehen von externen Daten

Es gibt sowohl kostenpflichtige als auch kostenlose Online-Dienste, über welche externe Daten bezogen werden können. Je nach Anbieter fallen entweder pro REST-Aufruf Gebühren an oder der Anwender wird in der Häufigkeit der Datenabfrage eingeschränkt. Bei kostenpflichtigen Online-Diensten, wie zum Beispiel beim Einbinden von interaktiven Google-Karten in einer Webanbindung, wird jede einzelne Datenabfrage berechnet. Deshalb ist es wichtig, zuallererst intern zu prüfen, ob und wenn ja, zu welchen intern-bestehenden Adressen bereits Geo-Koordinaten geladen wurden. Somit können lediglich die Fehlenden über die API angefragt werden.

Quelle: Eigene Darstellung - rejected inner join-Funktion

Daten-Management mit Talend

Mit der Daten-Management-Plattform Talend kann dieser beschriebene Datenaustausch unkompliziert durchgeführt werden. Egal ob als Cloud-Lösung oder lokal, Talend unterstützt den automatisierten Datenaustausch zwischen mehreren Systemen und wandelt diese bei Bedarf um. Auf diese Weise werden Unterschiede zwischen Systeme überbrückt und es wird garantiert, dass Datensätze vom jeweiligen Zielsystem erkannt und verwendet werden können. Zum einen können verschiedene Datenbanken (Data Warehouse = DWH) miteinander verknüpft, zum anderen aber auch verschiedene Technologien, wie eine REST-API mit einer SQL-Datenbank kombiniert werden. Dazu wird der interne Adressstamm ausgelesen und extern nach den passenden Koordinaten gesucht. Anschliessend können beide Datenquellen miteinander kombiniert werden. 

Daten-Management-Plattform Talend

Datenverarbeitung

Bei der Datenverarbeitung gibt es 2 Vorgehensweisen: die Batch- und die Stream-Verarbeitung.

Batch-Verarbeitung: Datensätze werden gesammelt und auch gesammelt verarbeitet. Dieses Vorgehen eignet sich optimal für nicht-kontinuierliche Datenflüsse und kann beispielsweise über Nacht ablaufen.

Stream-Verarbeitung: Bei kontinuierlichen Dateneingängen eignet sich die Stream-Verarbeitung. Datensätze werden kontinuierlich geprüft und weiterverarbeitet. Mit der Stream-Verarbeitung machen Sie aus "Big Data" "Fast Data".

Im Folgenden werden verschiedene Vorgehensweisen aufgezeigt, wie Adressen aus einer Datenbank mit den jeweiligen Koordinaten ergänzt werden können. 

Einfacher ETL Prozess

Adressen werden aus der Transaktionsdatenbank (z. B. einer ERP-Datenbank) geladen. Nachdem die Datentypumwandlung abgeschlossen ist, werden die Datensätze ins DWH geschrieben.

Quelle: Eigene Darstellung - Einfacher ETL Prozess

Erweiterter ETL Prozess

Die DHW-Adressen werden mit bereits vorhandenen Koordinaten abgeglichen. Talend bietet dazu nebst der "inner join"-Möglichkeit der Datenzusammenführung zusätzlich die "rejected inner join"-Methode an. Mit der "rejected inner join"-Methode lassen sich Daten herausfiltern, bei welchen ein "inner join" fehlschlug. In unserem Beispiel wären dies die Daten, welchen keine Koordinate zugewiesen wurde.

Quelle: Eigene Darstellung - Erweiterter ETL Prozess

Talend Cloud Realtime Big Data-Plattform

Für jeden einzelnen Datensatz, welchem noch keine korrekte Koordinaten zugewiesen wurden, wird ein REST-Aufruf vorbereitet und die REST-API wird nach den Koordinaten angefragt. Die Interaktion je Datensatz kann parallelisiert werden (Iteration x10); je nach Belastungsmöglichkeit der REST-API.

Quelle: Eigene Darstellung - Talend Cloud Real-Time Big Data Platform

Anschliessend werden diese Datensätze extrahiert, mit tMap in das gewünschte Format umgewandelt und sortiert. Es kann passieren, dass von der REST-API mehrere mögliche Koordinaten zurückgegeben wurden. Sobald dieser Vorgang abgeschlossen ist, kann der gewünschte Datensatz ausgewählt und die Datenbank beschrieben werden. Zu beachten ist, einen Anbieter auszuwählen, der eine REST-API für die Umwandlung von Adressdaten in Koordinaten anbietet.

Aus der Praxis

Die suisseplan Ingenieure

Die suisseplan Ingenieure mit Sitz in Zürich, Aarau, Luzern und Wohlen entwickelt, gestaltet und realisiert Projekte in den Bereichen Bau, Raum und Landschaft sowie Umwelt und Sicherheit. Die suisseplan beschäftigt rund 100 Mitarbeitende aus den verschiedensten Fachgebieten des Ingenieur- und Planungswesens sowie der Naturwissenschaften. 

Die suisseplan verwendet die im obigen Beispiel angesprochene Methode, um die aus dem internen ERP-System ins DWH übernommenen Adressen mit Koordinaten anzureichern. Zusätzlich werden Daten aus Datenquellen, wie beispielsweise aus Excel ins DWH integriert und mit den entsprechenden ERP-Daten verknüpft.

Möchten Sie erfahren wie Sie den maximalen Nutzen aus qualitativ-hochwertigen Daten ziehen können?

Erich Kern steht Ihnen für ein individuelles, unverbindliches Gespräch gerne zur Verfügung.

Erich Kern
Trends und Chancen erkennen durch das Kombinieren von internen mit externen Datenquellen.
Erich Kern
Sind Sie sich sicher?