Soutien des travaux de recherche sur le web sémantique & organisation de formations de producteurs de données
Lettre de soutien d'Etalab, lors de l'ouverture de la dixième édition de la conférence européenne sur le web sémantique ESWC 2013
Tout se passe comme si la révolution numérique voyait naître une troisième phase : la révolution des données, aussi différente de la révolution Internet qu’Internet l’avait été de l’informatique des années 70. C’est la révolution des big data, du web social, de l’open data, ce sont de nouvelles stratégies de création de valeur, de nouveaux codes sociaux, de nouveaux rapports entre les individus, c’est la datavisualisation et les API, le cloud computing, etc.
Avec cette révolution, les entreprises, les citoyens, les administrations ou encore les chercheurs se mettent à travailler au niveau élémentaire de la donnée, à manipuler des distributions complètes, à percevoir des signaux faibles, pour, une fois encore, changer en profondeur l’économie et la société. C’est un tout nouveau rapport au savoir, au pouvoir et à l’action qui se dessine.
C’est dans cette révolution que le web des données prend tout son sens. Le web des données et le web sémantique sont les deux facettes de cette nouvelle infrastructure informationnelle, à la recherche d'un web où les données de toutes formes produites par tous les acteurs se trouvent interconnectées, identifiées sans ambiguïté et reliées les unes aux autres. Un web où la création de nouveaux services, de nouveaux usages, de nouveaux croisements des données est grandement simplifiée et où la mise en réseau des moyens de production ouvre la voie à de nouveaux modèles d’innovation.
La France est engagée dans ce mouvement en tant qu’acteur à part entière de cette révolution qui voit le numérique connecter le monde.
Son offre de formations scientifiques de haut niveau, les compétences des chercheurs français et les travaux scientifiques des laboratoires et instituts de recherche français, comme le Laboratoire d'Informatique, de Robotique et de Microélectronique de l’Université de Montpellier II (LIRMM), l’Institut National de Recherche en Informatique et en Automatique (INRIA), le Centre national de la recherche scientifique (CNRS) ou le Laboratoire de Recherche en Informatique d’Orsay (LRI), sont largement reconnus à l’international.
La communauté du web sémantique français rassemble des entreprises performantes et innovantes – comme Antidot, Atos, Exalead, Logilab, Mondeca, Pearltrees, Semsoft ou Temis – ainsi que des associations comme la FING et le GFII qui diffusent activement les nouveaux usages que permet le web des données.
Les démarches d'ouverture des données publiques initiées par l'Etat ou les collectivités territoriales – comme Montpellier avec l’initiative Montpellier Territoire Numérique – contribuent également à l’émergence du web sémantique. La diffusion la plus large de données publiques, les vagues technologiques de l’Open Data ou du Big Data, les nouveaux métiers des data-scientists ou des data-journalistes contribuent à former une véritable filière industrielle de la donnée et de ses usages.
L’Etat lui-même peut aussi bénéficier des avancées issues de la recherche sur le web sémantique. Pour apporter du sens et rendre interopérables les données hétérogènes de ses systèmes d’information, l’Etat a notamment élevé sémantiquement des données brutes structurées avec la plateforme open-source du consortium Datalift.
L’application des technologies sémantiques à l’indexation et à la découverte facilite aussi la réutilisation des données de l’Etat. La plateforme française d’Open Data data.gouv.fr est ainsi conçue à partir d’un catalogue sémantique et interopérable de métadonnées descriptives. La Bibliothèque nationale de France (BNF) diffuse par ailleurs sur cette plateforme les fiches de référence sur les auteurs et les œuvres de son catalogue en formats sémantiques. La plateforme Montpellier Données Publiques Ouvertes exploite elle aussi les dernières avancées en la matière.
Ces technologies appuient également la constitution d’annuaires et de référentiels partagés au sein des services de l’Etat. L’INSEE publie ainsi des versions sémantiques du Code Officiel Géographique qui recense les subdivisions administratives du territoire ou les données du recensement de la population. Etalab a aussi réalisé, avec le concours de la Direction de l’Information Légale et Administrative (DILA), un référentiel sémantique des administrations de l’Etat.
Le 19 Novembre 2012, le ministère de la Culture et de la Communication a signé une convention avec Wikimédia et l’Inria créant la plate-forme collaborative « Sémanticpédia », visant à créer des programmes de recherche et de développement en matière culturelle à partir des données extraites de Wikipédia francophone. La délégation générale à la langue française et aux langues de France soutient également le projet de version sémantique du Wiktionnaire francophone. C’est ainsi plus de deux millions de termes qui viendront s’ajouter au réseau sémantique des articles de Wikipédia.
L’ensemble de ces travaux s’inscrivent dans le cadre des études et des projets de la Commission Européenne – comme Interoperability Solutions for European Public Administrations, Linked Open Data 2ou la plateforme ENGAGE – et des organismes internationaux tels que le World Wide Web Consortium(W3C).
Etalab, mission du Premier ministre en charge de l’ouverture des données publiques mais aussi de la promotion de l’innovation privée et publique sur ces données, compte s’appuyer sur l’important travail réalisé par la communauté scientifique française du web sémantique, et en attend beaucoup pour le développement d’une véritable culture de la donnée en France.
C’est pourquoi je me réjouis de vous assurer du soutien d’Etalab à cette 10ème édition de la Conférence Européenne du Web Sémantique, et souhaite de bons travaux aux intervenants et aux participants qui seront réunis à Montpellier du 27 au 30 Mai 2013.
20130524 Lettre de soutien Etalab Conférence web sémantique by Etalab, data.gouv.fr
En parallèle des soutiens aux activités de recherche et développement sur le web sémantique, tels que cette 10e édition de la conférence européenne sur le web sémantique ESWC 2013", j'ai eu le plaisir d'organiser des ateliers de formation-action sur le web sémantique avec les producteurs de données et des experts en web sémantique.
Etalab, chargée de coordonner l’ouverture des données publiques, a accueilli le 10 octobre dernier « le DataLift Camp » en présence des membres du consortium Datalift, Charles Nepote (FING) et François Scharffe (LIRMM, Datalift), et de plus d’une quarantaine de participants producteurs de données, fournisseurs de plateformes, acteurs publics et experts de l’Open Data en France (de l’EURECOM, l’INSEE, l’INRA, Logica, Mondeca, l’IGN, le Ministère de l’Intérieur…).
Après le mot d’accueil de Charles Ruelle pour Etalab, Charles Nepote engage la conversation
La matinée a commencé par une introduction au web sémantique, ses enjeux et ses usages. Charles Ruelle, directeur technique de la mission Etalab, a d’ailleurs rappelé à cette occasion « Le « web des données » (ou web sémantique), est la promesse d’un web centré sur les données, un web où les données de toutes formes et de tous acteurs se trouvent normalisées, identifiées sans ambiguïté et reliées les unes aux autres. Ces technologies appliquées à l’Open Data faciliteraient la création de nouveaux services, de nouveaux usages, et de nouveaux croisements de données.».
Les technologies du web sémantique permettent notamment aux données ouvertes « Open Data », d’être normalisées, identifiées sans ambiguïté et d’être reliées les unes aux autres.
Vidéo pédagogique de présentation du web des données : « Le web des données ouvertes et liées, qu’est ce que c’est ? »
Ont ensuite suivies les présentations de Gabriel Kepeklian, responsable Recherche et Développement à Atos et de François Scharffe, coordinateur du projet Datalift et chercheur en Intelligence Artificielle et en Web Sémantique.
Présentation de DataLift par François Scharffe, Datalift Camp 9 et 10 octobre 2012, p.9
« Les mains dans le cambouis »
Après cette session plénière, les participants ont été invités à soumettre leurs idées de jeu de données et à former des groupes.
Fanny Maestracci de Suez Environnement a démarré par l’idée de travailler sur « l’eau », « l’impact sur les collectivités », la « qualité de l’eau dans les communes ». C’est ensuite Eric Cossa de Picardie Tourisme qui a pris la parole, intéressé par les données aussi bien touristiques, que par des croisements de données géographiques, météorologique, et/ou environnementales.
« Brainstorming » en fin de matinée
Après consultation de chacune des personnes présentes lors de cette journée de formation, les groupes « Prénoms », « INSEE », « Evénements », « Environnement », « Géolocalisation » et « DCAT » ont été définis pour le travail de l’après-midi.
La veille, au cours du Datalift Camp du 9 octobre, les groupes avaient abordé les sujets de croisement de données INSEE avec celles du Code Officiel Géographique ; les données de transport ; le budget des collectivités ; les prénoms ; et le croisement de données Open Food Facts.
Le groupe Environnement (Alimentation/Agronomie) travaille à l’interconnexion des données.
Les équipes formées ont été enthousiastes, inventives, ce malgré les quelques problèmes techniques rencontrés (de syntaxe, de conversion des données…). Pour certains d’entre eux, l’utilisation de la plateforme Datalift était une première qui s’est avérée prometteuse. Tandis que pour d’autres, participer au Datalift Camp correspondait à une continuité dans leurs recherches :
Par exemple, Christian Quest d’Open Street Map affirmait l’atout d’une formation au web sémantique : « le web sémantique est avant tout un apport de qualité à un travail de recherche déjà en cours ».
Stéphan Bernard de l’IRSTEA a parlé de web sémantique comme « d’un moyen de trouver des clefs pour identifier les données utiles dans le cadre d’une recherche appliquée » et « de distinguer des données similaires avec des intitulés différents ».
Enfin, Nicolas Chauvat de Logilab évoquait l’intérêt du Datalift Camp, sa société étant spécialisée dans l’informatique scientifique et le web sémantique.
Datalift Camp : et maintenant ?
Datalift est un logiciel libre, ce qui permettra aux participants de poursuivre leurs travaux avec le concours des référents du consortium pour arriver à un résultat abouti.
Datalift poursuit ses travaux de développement pour faciliter l’élévation sémantique de données.
Enfin, dans le cadre des Dataconnexions, la FING prévoit un hackathon « données 5 étoiles » courant novembre 2012 pour « valoriser les données sémantiques produites ».
Toute l’équipe d’Etalab remercie vivement les participants et les techniciens experts pour leur contribution enrichissante à cette deuxième session du Datalift Camp.