18/04/17 16:04
Big Data

LinkedIn et sa solution de data mining font dans l'Open Source

Si le monde du "Big Data" vous parle (@Rom_1 par exemple !), alors cette nouvelle risque de vous intéresser. 

En effet le géant du réseau social professionnel aka LinkedIn mise sur l'Open Source pour "améliorer un outil développé en interne". 

WhereHows c'est quoi ? 

Littéralement "où-comment", est un "entrepôt de métadonnées couplé à des outils de découverte". Comme l'écrit Eric Sun, ingénieur LinkedIn : "Nous avons différentes sources et bassins de données. Nous écrivons des flux de production pilotés par différents moteurs d’ordonnancement et nous supportons de nombreux moteurs de transformation différents utilisés pour traiter et créer des données dérivées. Cette forme de spécialisation est intéressante car elle nous donne accès au meilleur outil pour chaque tâche ; elle crée néanmoins une nouvelle série de problèmes."

C'est pour cela que WhereHows a vu le jour, pour tenter de répondre aux questions : où sont les données? et comment sont-elles utilisées ? 

L'utilisation du crowdsourcing pour récupérer les données 

WhereHows utilise le principe du crowdsourcing pour récupérer des informations. Comment ? A partir du référentiel, WhereHows fait "remonter les données", puis les organise pour les associer via deux interfaces. La première est une application web qui consiste à retrouver l'origine de la donnée (data lineage) et à "collaborer au sein d'une communauté" et la deuxième est une API intervenant dans l'automatisation des traitements. Une fois ces opérations effectuées, les données sont reliées aux individus et aux processus et "permet de récupérer des informations sur leur signification sur un mode crowdsourcing."

Pour aller plus loin