Actualité web & High tech sur Usine Digitale

Recevez chaque jour toute l'actualité du numérique

x

Organiser un concours de datascientists en 5 étapes

Les plates-formes qui proposent des challenges aux datascientists sont de plus en plus utilisées par les entreprises. Mode d’emploi.

Twitter Facebook Linkedin Flipboard Email
×

Organiser un concours de datascientists en 5 étapes
En 2014, la SNCF a lancé un challenge visant à élaborer un modèle prédictif de la fréquentation quotidienne des gares d’Île-de-France, à partir des données ouvertes.

Résoudre des problèmes de façon inventive, identifier de nouvelles opportunités grâce à l’exploitation des données, c’est le travail du datascientist, ce matheux, nourri à l’informatique et aux algorithmes, sachant naviguer dans l’océan du big data. Sa méthode ressemble à un jeu de piste. Tirant parti de cet aspect ludique, des plates-formes se sont créées pour inciter des datascientists, débutants et confirmés, à mettre leurs talents au service d’entreprises sur des projets précis.

Des entreprises, comme la SNCF, Total, Axa, et des acteurs publics, comme l’Insee, ont ainsi fait appel à l’une d’entre elles, Datascience.net, pour inviter les magiciens du big data à explorer leurs données et à concevoir des algorithmes innovants. Cette plate-forme française, qui a été lancée début 2014 suivant la voie ouverte par l’américain Kaggle en 2010, fédère aujourd’hui 2 000 participants. Mais pour les entreprises, l’utilisation de ces plates-formes ne s’improvise pas. Découvrez comment s’y prennent les pionniers.

1. Se forger une culture big data

Avant de s’engager dans un concours sur une plate-forme mieux vaut ne pas être totalement novice en matière d’analytique et de big data. On ne peut pas se lancer dans un tel processus sans avoir travaillé sur le sujet bien en amont ni disposer en interne des compétences nécessaires pour "absorber" la matière intellectuelle et technologique produite lors du concours. Ces challenges ne remplacent pas des projets internes. Ils permettent en revanche d’adopter de nouveaux modes de pensée pour améliorer des processus opérationnels ou marketing. Le datascientist peut aider à répondre à des problématiques précises en bâtissant des modèles d’analyse en lien avec tous les métiers de l’entreprise. Ecometering, filiale de GDF Suez, a par exemple fait appel aux internautes pour modéliser la consommation électrique de certains sites industriels et tertiaires. De son côté, Axa leur a demandé de bâtir un modèle permettant de comprendre l’impact des conditions économiques sur le comportement des clients.

2. Bien formuler la question

Comme pour tous les services d’appel à la foule (crowdsourcing), pour obtenir de bonnes réponses, il faut poser la bonne question.

Qu'est ce qu'un data scientist ?
Le datascientist, mélange de mathématicien, d’informaticien et de statisticien, transforme le big data en opportunité de business pour l’entreprise. Son rôle est d’analyser des données afin de créer des outils algorithmiques qui répondent à certains besoins de l’entreprise dans une multitude de domaines : relation client, marketing digital, détection de fraudes, analyse des comportements, protection des données, sécurité, monitoring (pour la maintenance et les bureaux d’étude), ressources humaines…
Dans le cas du big data : quel est le phénomène précis que l’entreprise cherche à prévoir ? Une fois la problématique clairement déterminée, il faut identifier les données pouvant être utiles pour résoudre le problème, puis transcrire cette question métier en question mathématique. "Il faut définir une métrique (mathématique, objective, calculable) pour mesurer la qualité prédictive des modèles proposés", conseille Arnaud Laroche, le PDG de l’agence Bluestone et cofondateur de Datascience.net. Cela permettra de départager les participants. L’entreprise doit aussi décider quels jeux de données elle met à leur disposition et leur mise en forme. Cette phase très technique de collecte et de distillation des données permettra aux participants de se concentrer sur le challenge stricto sensu.

3. Fixer le juste prix

La principale motivation des datascientists, amateurs et professionnels, participant à des concours n’est pas l’argent. Leur carburant est plutôt le challenge intellectuel et la quête de reconnaissance de leur expertise technique. Leur curiosité doit donc être stimulée par un défi exigeant portant sur des sujets innovants. Reste qu’une récompense trop basse pourrait être vue comme une insulte à leur talent. Des entreprises ayant proposé des récompenses symboliques ont fait l’objet d’un "bad buzz" très préjudiciable. Les plates-formes organisatrices ne doivent pas être vues comme des systèmes d’innovation à bas coût.

D’où l’idée d’un "juste prix", qui reflète le niveau d’engagement demandé aux participants, avec l’idée que plus on pose de contraintes en termes de temps, d’organisation, de choix techniques, plus on doit récompenser les internautes. Les gagnants du dernier challenge d’Axa se sont ainsi partagé 13 000 euros. Mais attention, avec le temps, la communauté devient de plus en plus exigeante : les challenges doivent en tenir compte. Sur Kaggle, un concours de détection par imagerie de signes de rétinopathie diabétique organisé par la fondation California HealthCare est récompensé par la somme de 100 000 dollars ! Il est également possible d’opter pour une philosophie plus coopérative en encourageant la construction collective d’un modèle. Datascience.net met d’ailleurs au point une solution technique permettant de mesurer la contribution individuelle à un métamodèle collectif et de répartir les revenus selon ce facteur.

4. Engager la communauté

Lorsque le challenge est au point, l’entreprise doit communiquer afin de rallier les datascientists les plus talentueux. L’occasion de mettre en lumière sa politique d’innovation auprès du grand public et de ses partenaires et de sensibiliser ses propres équipes aux potentialités de la data. L’organisateur doit ensuite répondre aux questions des participants (sur l’aspect technique ou la dimension métier) et communiquer régulièrement sur la plate-forme du concours et les réseaux sociaux pour relancer l’intérêt.

5. Soigner le « SAV » du concours

Il serait dommage que le lien créé entre la communauté de datascientists et l’entreprise se rompe dès la fin du concours. Il peut être pertinent d’organiser une rencontre non virtuelle entre les datascientists gagnants et l’équipe du donneur d’ordres. "Cela se fait de plus en plus, et c’est une bonne chose. Pour exploiter un modèle, il faut le comprendre, être capable de l’interpréter. Cela nécessite une interaction entre ceux qui ont conçu le modèle et ceux qui vont l’utiliser", estime Arnaud Laroche. Selon lui, c’est aussi une façon de lutter contre l’algorithmique à outrance "qui fait que l’on peut perdre la main sur le modèle". Des relations à plus long terme peuvent s’instaurer entre les datascientists et l’entreprise. Si la vocation première d’un concours n’est pas de sélectionner des candidats en vue d’un recrutement, repérer et retenir de bons profils reste difficile. La tentation est donc grande de faire d’une pierre deux coups.

Sylvain Arnulf

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.

 
media
Suivez-nous Suivre l'Usine Digitale sur twitter Suivre l'Usine Digitale sur facebook Suivre l'Usine Digitale sur Linked In RSS Usine Digitale