Datenhygiene: Endlich Land in Sicht durch Machine Learning?

Seit Jahrzehnten reden wir darüber, Daten effizienter zu nutzen. Doch nicht erst seit Data Warehouse-Zeiten scheitern viele Projekte an einem Faktor: Datenhygiene. Wenn man Datenmist in eine System einfüttert, kommt auch bei der besten Analyse Datengülle heraus. Nun soll Machine Learning endlich eine bessere Datenqualität sicherstellen. Und – so Larry Dignan auf ZDNet – es könnte der Ansatz sein, der am nächsten an eine Lösung der Schmerzen in der Datenverwaltung kommt.

Auch IBM widmet sich diesem Ansatz mit der IBM Watson Data Platform und baut – wie der ZDNet-Artikel deutlich macht – im Gegensatz zu Wettbewerbern, die alle Daten auf ihrer Plattform haben wollen, auf einen offene Strategie mit einer Abstraktionsschicht zu unterschiedlichen Datenspeichern mit der Möglichkeit, Datenhygiene on the fly durchzuführen:

… IBM has its Watson Data Platform and a series of tools that use machine learning to clean data, append meta data and make connections between data stores. IBM’s data platform sounds like a mix of middleware and operating system, but you get the idea. IBM data platform will also recommend models and algorithms

via The great data science hope: Machine learning can cure your terrible data hygiene | ZDNet

Derek Schoettle, General Manager der IBM Watson and Cloud Platform, betont in seinem Beitrag aber auch, wie wichtig, ja unverzichtbar ein Team geschulter Data Scientists ist, die leistungsfähige Werkzeuge in der Cloud zur Verfügung haben:

The amount of information data scientists need to curate, organize and process can often seem insurmountable, especially given the increasing volume of data sets being generated by sensors, devices and users. As data-driven businesses continue to evolve, the cloud has become the common denominator that can equip these teams with the right tools to efficiently manage and share intelligence across organizations. …

The growth of data sources across the globe shows no signs of slowing down. But to use this influx of information to its greatest potential, data scientists need to have access to the right resources and technology. It’s not enough to have data; companies need a group of people and a set of capabilities to manage it and draw insights from it.

via How Cloud Will Elevate Data Science Teams

(Stefan Pfeiffer)

 

One comment

  • Kommentar von @FraunhoferAISEC

    könnte tatsächlich eine Möglichkeit sein, wenn die entsprechende Rechenleistung zur Verfügung steht. Machine Learning erhöht auch den Hunger nach Rechenleistung.Fraunhofer AISEC hat hinzugefügt,

Leave a Reply