Recevez chaque jour toute l'actualité du numérique

x

La boîte à outils du data scientist

Exploiter des giga octets de données est à la fois simple et compliqué. Simple, car les outils mathématiques pour extraire des corrélations existent depuis longtemps. Compliqué, car les 3 V du big data (Volume, vitesse et variétés des formats) ont obligé les informaticiens à développer de nouveaux outils d’infrastructure, qui ne cessent d’évoluer dans le temps. Petite synthèse.
Twitter Facebook Linkedin Flipboard Email
×

La boîte à outils du data scientist
La boîte à outils du data scientist © Antonia Machayekhi

Pour faire parler les big data, le data scientist utilise des outils d’infrastructure, qui collectent, stockent et préparent les données, quels que soient leur source ou leur format (structuré, semi-structuré ou non structuré). Puis, avec les outils d’analyse et de visualisation, que l’on retrouve dans le "machine learning"(apprentissage statistique), il rend les données intelligibles et exploitables.

Les outils d’infrastructure

Les bases NoSQL (No structured query language) stockent et gèrent de gros volumes de données structurées ou non. Les principales sont MongoDB, Apache Cassandra, HBase et Amazon dynamoDB en open source. Chez les éditeurs, elles s’appellent Vertica (HP), NoSQL Database (Oracle) ou Document DB (Microsoft). Les frameworks de calcul distribué séparent les requêtes des algorithmes, les distribuent à des nœuds parallélisés (cluster) et rassemblent les résultats (reduce). Le plus connu est Hadoop, une solution open source de la fondation Apache, initialement développée par Yahoo, et qui intègre des outils comme MapReduce, GoogleFS et BigTable développés par Google. Un remplaçant, Spark, arrive sur le marché.

Les outils d’analyse

R et Python sont les deux principaux langages open source pour écrire les algorithmes. Il existe aussi des modules préprogrammés, comme Apache Mahout pour le machine learning sur Hadoop. Enfin, les outils de l’éditeur Tableau se distinguent pour la visualisation.

Les data scientists utilisent également des outils du marché, hérités des technologies de data mining comme SPSS d’IBM ou les logiciels SAS. IBM propose aussi un outil en ligne, Watson Analytics, service cognitif fondé sur le langage naturel, qui charge des jeux de données dans le cloud pour trouver des pistes d’exploitation. Certains data scientists commencent également à partager des algorithmes spécialisés, comme PredPol qui identifie les pics de délinquance et les cartographies. Sans parler des start-up qui développent des algorithmes spécifiques pour fournir des services clés en main.

Aurélie Barbaux

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.

1 commentaire

JMC
30/06/2015 09h59 - JMC

Petite rectification sur les bases NoSQL : Il ne faut pas lire cet acronyme "No Structured Query Language" mais "Not only Stuctured Query Language". Il y a aussi des données structurées, mais pas uniquement.

Répondre au commentaire | Signaler un abus

 
media