La SNCF lance un défi aux “Data Scientists” pour mieux prévoir la fréquentation des gares

© AltoPress/MaxPPP
© AltoPress/MaxPPP

La SNCF, qui est très investie depuis plusieurs années dans l'"open Data" et attend beaucoup de l'exploitation qui se développe de ces stocks de données, prend une initiative originale et à suivre : elle propose aux statisticiens de l'aider à mieux prévoir la fréquentation des gares d'Ile-de-France

Par Christian Meyze

La SNCF, comme d'autres entreprises pour qui les prévisions de trafic, d'intention de déplacement, de fréquences horaires et bien d'autres encore sont vitales, s'intéresse depuis plusieurs années à ce que l'on appelle désormais l'"open data", en français "l'accès libre aux données publiques".

En quelques années, l'"open data" s'est répandu dans tous les secteurs. Dans de nombreux pays, les administrations mais aussi beaucoup d'entreprises privées ont mis à disposition sur de très gros serveurs informatiques des montagnes de données recueillies au fil des années. On peut ainsi accéder librement à toutes sortes de données qui ne sont pas des données personnelles ou nominatives (l'intérêt n'est pas là) et donc croiser des milliards de données pour tenter d'en obtenir des renseignements utiles dans sa propre activité. Prenons un exemple, peut-être absurde : Vous pouvez savoir le plus librement du monde combien de personnes ont visité le musée d'Orsay en 2013, exposition par exposition et tenter de croiser cette information avec le nombre de personnes qui s'y sont rendu en métro les mercredis de l'année. On peut multiplier les exemples et surtout multiplier les critères que l'on souhaite croiser. Tout dépend de ce que l'on veut tenter de savoir.

On peut donc désormais accéder à une foule de données fiables et publiques. Le problème, c'est de savoir comment trier et exploiter ces données. Leur nombre et leur complexité sont tels que la chose n'est pas à la portée du citoyen moyen. Il est donc très vite apparu un métier baptisé d'abord Data Miner, puis désormais Data scientist que l'on pourait traduire en Français par "ingénieurs statisticiens en informatique " (mais même le mot anglais a du mal à en décrire simplement l'activité).

Ces Data scientists sont des statisticiens, mathématiciens, très pointus, qui ont le plus souvent des connaissances et un sens marketing aigü. Car bien sûr, pour les entreprises et l'économie, l'objectif de l'exploitation de ces données c'est d'améliorer l'activité et le marketing. Le métier de Data Scientist est aujourd'hui considéré comme l'un de ceux qui fourniront le plus d'emplois dans les années qui viennent.

Le défi lancé par la SNCF (jusqu'au 30 septembre 2014)


Le défi lancé aujourd'hui par la SNCF consiste "à construire un modèle permettant d’estimer efficacement le nombre de voyageurs montant, par gare, un jour de semaine, sur le Transilien. Et ce, à partir de données open data caractérisant la gare d’un point de vue SNCF (nombre de lignes, nombre de trains par jour, services en gare, etc.), mais également de données externes (caractéristiques socio-démographiques de la ville, présence de transports urbains, événements etc...)"

La SNCF précise qu'elle attend des candidats qu’ils proposent de nouvelles données à exploiter et pas seulement un nouveau modèle à partir de données déjà existantes. En d'autres termes, cela signifie que la SNCF, qui travaille déja depuis longtemps sur ces questions, dispose déja de ses propres analyses, et qu'elle attend des Data Scientists qu'ils aient de l'imagination et qu'ils lui proposent d'autres critères, d'autres données à ajouter aux critères déja retenus par la SNCF quand elle travaille sur ses prévisions de trafic. Car l'objectif fixé par la SNCF c'est l'amélioration de la prévision de fréquentation et d'affluence, pour lui permettre d'améliorer le service qu'elle offre à ses voyageurs.

C'est donc une initiative originale, dans l'air du temps, et qui est une forme de ballon d'essai aussi pour  la SNCF. Si elle se révèle concluante, la méthode pourrait devenir plus fréquente, Pour relever ce défi que la SNCF habille sous l'aspect d'une sorte de concours, les data scientists sont libres de puiser dans toutes les données publiées en open data pour élaborer leur modèle prédictif. Ils pourront notamment se référer aux sites data.sncf.com et data.gouv.frLes data scientists ont jusqu’au 30 septembre pour relever le défi.

Les 3 meilleurs contributeurs recevront chacun 600 € de chèques cadeaux SNCF. 
Pour plus d'information consultez le site Datascience.net, ici

Sur le même sujet

Lutte contre l'AVC : un tour de France pour sensibiliser

Près de chez vous

Les + Lus