ClaraVista


Le Mot de la Semaine – Hadoop & Spark

Publié le 10 mars 2020 à 08:03

Chaque métier possède son jargon. Cette réalité semble être une évidence, mais peut créer parfois des surprises… Chez ClaraVista, les data-scientists côtoient les consultants en stratégie marketing, les professionnels de l’expérience et les développeurs en Intelligence Artificielle. Grâce au Edge Effect, cette collaboration entre plusieurs univers est source d’infinie richesse ; mais elle nécessite que tout le monde « parle la même langue » et comprenne les besoins et outils de chacun.

ClaraVista accompagne quotidiennement clients et prospects dans la découverte de ce vocabulaire et vous propose une série d’articles expliquant les termes employés couramment dans nos métiers.

Hadoop & Spark sont deux outils utilisés pour traiter de gros volumes de données.

En effet, lorsque les volumes sont très importants, les données peuvent être trop grandes pour être stockées sur un seul ordinateur, et leur traitement peut prendre trop de temps, là encore à cause du volume d’informations à traiter. Pour remédier à ces problèmes, on utilise un groupe de plusieurs machines, pour répartir les données et les calculs entre les différentes machines.

Pour mieux les stocker, les fichiers sont fractionnés en blocs et répartis entre différentes machines. Hadoop est une infrastructure logicielle destinée à faciliter la gestion de ce stockage.

Quant aux calculs, ils peuvent être effectués séparément sur chaque partie des données. Pour cela, on utilise Spark, un outil de traitement de données distribuées. Capable de distribuer les traitements entre les différentes machines, l’outil permet aussi de regrouper les résultats obtenus sur chaque partie des données.

Partager l'article