Charles Ruelle @charlesruelle - Tumblr Blog

Talk WikiStage : Quel est l'impact de l'Open Data et du partage des données ?

J'intervenais le 17 Mai 2014, au WikiStage organisé par l'Ecole Centrale de Paris, sur le thème du partage de données et de l'open data.

Talk WikiStage : Quel est l'impact de l'Open Data et du partage des données ? from Charles Ruelle

#open data #partage de données #wikistage #ecole centrale de paris

Colloque National Open Gouvernement au Maroc : Stratégies Fondées sur l’Ouverture des Données Publiques

Le 6 mai 2014, l’ENSIAS et l’Association Marocaine de Gouvernance Electronique (AMGED) ont conjointement organisé un Colloque National Open Gouvernement : Stratégies Fondées sur l’Ouverture des Données Publiques à Rabat (Maroc).

L'association AMGED est présidée par le Professeur Bouchaib BOUNABAT et ambitionne de devenir l’Association «e-Gouvernance » au service du développement au Maroc: véritable force de proposition et carrefour national et international pour le partage, la promotion et la diffusion de l’innovation et des meilleures pratiques dans ce domaine.

Consulter le Programme du colloque

J'y suis intervenu, aux côtés de mes collègues Samia Melhem, Lead Policy Officer, Global ICT Group, World Bank, et Liz Carolan, International Development Manager de l'Open Data Institute.

Colloque National du Maroc “Open Gouvernement : Stratégies Fondées sur l’Ouverture des Données Publiques” from Charles Ruelle

A noter que le Marc vient de publier la nouvelle version de sa plateforme d'open data, basée sur CKAN et de sa plateforme E-Gov Maroc. Il est à ce titre important de souligner que le Maroc a progressé de 38 places dans le classement mondial de l’eGouvernement, établi par la Direction des Affaires Economiques et Sociales des Nations Unies (UNDESA) :

Services en ligne : le Maroc a progressé de 26 points, passant du 56ème rang (2012) au 30ème rang mondial (2014). A noter que le Maroc est classé 1er en Afrique sur ce sous-indice.

Capital humain : le Maroc a progressé de 14 points, passant du 167ème rang (2012) au 153ème rang (2014).

Infrastructure des technologies de l’information : le Maroc a perdu une place, passant du 92ème rang (2012) au 93ème rang (2014).

eParticipation : le Maroc se classe à la 17ème place mondiale (et 1ère africaine) sur l’indice de l’eParticipation, avec une progression de 21 places par rapport à 2012.

#opendata #morocco #maroc #egovernment

Lancement du "Hello Tomorrow Challenge"

Le lancement du "Hello Tomorrow Challenge" a eu lieu le 15 Janvier 2015, à Paris au Palais de la Découverte.

Le Hello Tomorrow Challenge, c'est la plus ambitieuse compétition de startups pour les jeunes européens qui veulent résoudre les problèmes d'aujourd'hui pour façonner le monde de demain, grâce à des innovations technologiques et scientifiques.

Le Hellow Tomorrow Challenge c'est :

un jury international de 50 stars de l'entrepreneuriat dans 5 domaines technologiques clé : Energy, Medtech & Biotech, Big Data, Hardware & Robotics, It/Com

Un concours de projets technologiques, avec 15 000€ pour les finalistes & 100 000€ pour le grand prix

une présence dans 36 pays grâce à plus de 50 ambassadeurs et des partenariats avec les meilleurs accélérateurs européens

des partenaires engagés pour soutenir l'innovation et les startups finalistes

le First Day of Tomorrow : un événement phare le 18 Avril à la Cité des Sciences et de l'Industrie avec plus de 1800 participants, dédié aux innovations et startups technologiques qui révolutionneront le monde de demain.

17h00 : CONFERENCE DE PRESSE

Conférence animée par Marjorie Paillon, Journaliste et Présentatrice France24. #Tech24 - France 24. L'Envers de L'Eco - Yahoo.

Xavier Duportet, Président Fondateur du Hello Tomorrow Challenge

Vivek Badrinath, Directeur Général Adjoint, Innovation, Marketing et Technologies d’Orange

Claudie Haigneré, Présidente d'Universcience, scientifique, astronaute, Ministre déléguée à la Recherche et aux Nouvelles technologies spationaute, puis Ministre déléguée aux Affaires européennes de 2002 à 2005.

Cécile Tharaud, Présidente d'Inserm Transfert

Francois Taddei, Directeur du "Centre de recherche interdisciplinaire", lauréat du prix de l'INSERM et du prix EURYI (European Young Investigator)

Fleur Pellerin, Ministre déléguée aux PME, à l'Innovation et à l'Économie numérique

19h30 : CONFERENCE TOMORROW.Paris "IDEE, INVENTION, PRODUIT"

Les facteurs de succès du développement d'une innovation scientifique ou technologique." Regards croisés et retours d’expériences d'un scientifique, d'un entrepreneur et d'un investisseur. Animé par Charles Ruelle, Ambassadeur à Paris du Hello Tomorrow Challenge

Professeur Dominique Bellet, Chef du Laboratoire d’Oncobiologie de l’hôpital Réné Huguenin à l’Institut Curie. Professeur d’Immunologie à l’Université Paris Descartes. Visiting Professor à la Harvard Medical School et au Massachusetts General Hospital pedant plus de 10 ans. Co-inventeur de plus de 18 brevets.

Frédéric Potter, Directeur Général et Fondateur de Netatmo ("Station Météo", "June", "Thermostat" - Primés au CES 2013 & CES 2014), spécialiste des objets connectés, co-fondateur de Withings, et co-fondateur de Cirpack.

Professeur Jacques Lewiner, professeur et directeur scientifique honoraire de l'Ecole Supérieure de Physique et de Chimie Industrielles de la Ville de Paris (ESPCI ParisTech), co-inventeur de plus de 170 brevets, co-fondateur de Roowin, Finsécur, Cytoo et Cynove, Ingénieur de l'année 2010, Lauréat Académie des Science 1990, Prix de Président de la République de l'Innovation 1978

Marie Ekeland, Présidente de France Digitale, et associée chez Elaia Partners, société de capital risque dédiée à l’économie numérique. Marie Ekeland siège actuellement aux conseils d’administration d’Allmyapps, Criteo, Scooop.it, Wyplay et Ykone.

Cet évènement a réuni plus de 200 participants, journalistes & partenaires au Palais de la Découverte (Paris).

Chaque intervenant a pu apporter son retour d’expérience et transmettre des conseils aux jeunes innovateurs. Nos amis de GirlsInTech ont sélectionné 5 conseils à retenir :

Les sciences et les technologies sont plus faciles à vendre que le marketing

Le timing est crucial et il ne faut pas attendre la bonne idée. Une bonne équipe prévaut, il est toujours possible de pivoter.

Il faut entretenir la R&D, et garder les scientifiques impliqués dans la stratégie.

La qualité de l’exécution est très importante, les clients attendent un haut niveau de qualité dès le lancement du produit.

La question de la propriété industrielle est centrale pour les investisseurs. Quelle que soit la stratégie de protection, dépôt de brevet ou secret, l’entreprise doit être propriétaire de la technologie.

Entrepreneurs & chercheurs, l'appel à projet est ouvert jusqu'au 29 Janvier 2014 > CANDIDATER

N'hésitez pas à me contacter pour de plus amples informations & questions sur la participation à l'appel à projets.

#innovation #startup #hellotomorrowchallenge #bigdata #energy #medtech

L'Open Data doit être intégré dès la conception des systèmes d'informations

Matignon a publié le Référentiel Général de Gestion des Archives, pour d'amplifier la mise en oeuvre des conditions essentielles à une bonne gestion des archives & une diffusion des données en open data dès la conception des systèmes d'informations.

Il est nécessaire qu'une meilleure gouvernance de l'information soit au coeur de l'ensemble des nouveaux projets de systèmes d'informations ou à l'occasion de leurs évolutions. Elle permettra d'intégrer systématiquement la réponse aux enjeux de l'archivage et de la diffusion des données publiques (Open data).

J'ai eu plaisir à contribuer à ce rapport à l'initiative de mes collègues du Service interministériel des archives de France pour y rappeler les enjeux de l'open data, qui présente de fortes ses similitudes techniques et opérationnelles avec une démarche de gestion des archives électroniques.

La pérennisation des mécanismes d'archivage électronique et la conception des Systèmes d'Informations "Open Data by design & by default" permettront d'améliorer la qualité, l'exhaustivité, la fréquence de diffusion et de fournir de nouvelles modalités de diffusions des données (API, etc.) pour des réutilisations professionnels.

> Lire le Référentiel Général de Gestion des Archives

#open data #design #systèmes d'informations

(Sorry, in french)

Un modèle de catalogue créé sur mesure à partir de l’état de l’art :

Ce modèle a été initié en 2011, lors de la création de la plateforme data.gouv.fr, en prenant en compte l’état de l’art du marché, les retours d’expériences et les outils disponibles. Il s’est enrichi au fur et à mesure pour assurer la couverture de l’ensemble des besoins identifiés et faciliter le référencement et la réutilisation des données.

Les grands principes qui ont dirigé la conception du catalogue des données publiques de la plate-forme data.gouv.fr (DGFR), sont :

Faciliter la réutilisation des données :

Maximiser la documentation associée aux jeux de données : en permettant la description selon des vocabulaires contrôlés, complétée par des descriptions aux formats libres.

Maximiser l’efficacité de la recherche des jeux de données dans le catalogue :

Adoption d’une normalisation de la description des jeux de données ;

Sémantisation forte de l’indexation : structuration fine, sélection de vocabulaires riches ;

Optimiser le rapprochement des jeux de données au travers de leur description : normalisation des vocabulaires ;

Conception en vue de modes de potentiels recherche alternatifs, par exemple : une recherche historique par producteur,

S’inscrire dans une démarche de long terme :

Adopter des référentiels et vocabulaires pérennes et internationaux.

Adopter l’état de l’art des technologies relatives au Linked Open Data : utilisation de technologies sémantiques de gestion de connaissances, adoption d’url permanentes « URI » pour la publication des jeux de données, déréférencement des « URI » pour atteindre une page descriptive du jeu de données au format HTML ou RDF;

Le déploiement de flux automatisés de publication des données a également été un facteur déterminant dans l’approche de la conception du catalogue. Ainsi le modèle a été conçu de manière a minimiser à la fois le délai et les coûts de mise a disposition des données tout en maximisant la finesse de description des jeux de données (descriptions contrôlées complétées par des descriptions libres).

L’architecture de la plateforme data.gouv.fr a été conçue sur une approche orientée services, pour être fortement évolutive, dans les principes du modèle d’architecture technique Open Data tel que le présentait le projet européen HOMER en Février 2013 (http://www.homerproject.eu/)

L’architecture intégralement basée sur les technologies RDF, tant en interne que pour les interfaces d’échange.

Plusieurs modes de recherches sont déjà proposés et on vocation a être enrichis.

Source : www.homerproject.eu

Conformité aux standards DCAT

Le modèle DCat du W3C (http://www.w3.org/TR/vocab-dcat/) a été initié à l’occasion du lancement des plateformes nationales et territoriales d’open data, dont data.gouv.fr. DCAT est un vocabulaire RDF construit pour faciliter l’interopérabilité entre les catalogues de données publiés sur le web. Ce modèle est issu notamment des travaux et des retours d’expériences de la modélisation du catalogue de données publiques de la plateforme data.gouv.fr.

Le profil d’implémentation de DCAT pour les portails européens (https://joinup.ec.europa.eu/asset/dcat_application_profile/home ) qui a été mené par la Commission Européenne a également bénéficié des retours d’expériences de la plateforme française

Le modèle qui en résulte n’est pas strictement aligné techniquement sur le modèle DCat mais l’essentiel des concepts apparaissent sous une forme ou une autre dans le modèle résultant. Ainsi, le catalogue pourrait à l’avenir être publié au format DCat.

Espaces de nommage

Le namespace pour le vocabulaire du catalogue de la plate-forme www.data.gouv.fr est http://www.data.gouv.fr/ressource/dgfr#. Il convient de considérer que l’ontologie du catalogue DGFR fait usage de plusieurs vocabulaires publics :

PrefixNamespacedcathttp://www.w3.org/TR/vocab-dcat/ dctermshttp://dublincore.org/documents/dcmi-terms/ dchttp://purl.org/dc/elements/1.1/contributorfoafhttp://xmlns.com/foaf/0.1/

Un choix de référentiel d’indexation optimisé pour le contexte de l’open data national :

Ainsi la conception du catalogue s’est accompagnée du choix de plusieurs référentiels d’indexation structurant les capacités d’indexation et de recherche de la plate-forme.

Ces référentiels sont :

Le référentiel des producteurs de l’administration : Ce référentiel catalogue l’ensemble des entités de l’administration française, leur organisation hiérarchique en organigramme, y compris les relations de tutelle existant entre certaines entités juridiques (EPA, EPIC…etc.) et l’administration centrale. Ce référentiel est mis a jour au fil de l’eau des réorganisations au sein de l’administration. L’historique de l’organisation des producteurs au fil du temps est conservé au sein du référentiel.

A ce référentiel permettant d’identifier sans ambiguité la source des données publiées soit l’entité au sein de l’administration ayant publié l’information, s’ajoutent deux autres référentiels permettant de décrire les facettes spatiales et temporelles des jeux de données. Il s’agit :

Du thesaurus multilingue de l’Union Européenne « EUROVOC » http://eurovoc.europa.eu/: EuroVoc est un thésaurus multidisciplinaire couvrant la terminologie des domaines d'activité de l'Union européenne, avec un accent sur l'activité parlementaire. EuroVoc est disponible dans 22 langues officielles de l'Union européenne. Il est utilisé entre autres par le Parlement européen, l'Office des publications, des parlements nationaux et régionaux en Europe, ainsi que par des administrations nationales et des utilisateurs privés des États membres et non membres de l'Union européenne. La pertinence de choix de ce référentiel repose sur plusieurs critères : sa vocation qui lui assure une bonne adéquation pour la description thématique des jeux de données produits par l’administration française, notamment l’administration centrale, sa pérennité et son actualité garantie par l'Office des publications qui en assure la maintenance et enfin par la forte interopérabilité sémantique qu’il assure de par son caractère multilingue, sa vocation européenne et sa compatibilité avec les technologie du web sémantique.

Du Code Officiel Géographique de l’INSEE « COG » http://insee.fr/fr/methodes/nomenclatures/cog/ : Le COG est depuis soixante ans « le » code géographique de référence, au plan administratif comme au plan statistique. La reconnaissance explicite de son caractère officiel n’est toutefois intervenue que tout récemment, par la grâce d’un arrêté ministériel en date du 28 novembre 2003. La pertinence de ce choix de référentiel repose donc sur plusieurs critères : sa vocation et son caractère officiel à l’échelon national, sa pérennité et son actualité garantie par l’INSEE qui en assure la maintenance et enfin par la forte interopérabilité sémantique qu’il assure avec la nomenclature européenne des unités territoriales statistiques (NUTS) http://europa.eu/legislation_summaries/regional_policy/management/g24218_fr.htm dont les niveaux 1 et 2 correspondent respectivement à nos ZEAT et à nos régions et sa compatibilité avec les technologie du web sémantique.

Un choix de référentiel d’indexation assurant une forte interopérabilité sémantique : A noter que ces trois principaux référentiels d’indexation, font eux-mêmes l’objet d’une gestion ontologique et s’appuie donc tout comme le modèle de métadonnées du catalogue DGFR les technologies du web sémantique, conformément aux recommandations du W3C et aux dernières tendances en ce qui concerne les normes relatives aux thésaurus.

Descriptions détaillées

Vous pouvez naviguer dans le modèle du catalogue data.gouv.fr à l'aide des liens dans la colonne de droite.

A l’instar du vocabulaire DCAT, le modèle de description du catalogue DGFR définit trois classes principales:

dgfr:Catalog représente le catalogue

dgfr:Dataset représente un dataset dans le catalogue

dgfr:Distribution représente un moyen d'accès aux données d'un dataset

Au sein du vocabulaire DCat l’usage du concept de CatalogRecord est considéré come optionnel. De fait, le vocabulaire du catalogue DGFR n’en fait pas usage. A contrario plusieurs métadonnées complémentaires ont été ajoutées à la classe DataSet elle-même, permettant de tracer certaines informations telles que le status de publication, la date de création, la date de mise a jour…etc.

> Télécharger l'ontologie

#ontology #linkeddata #opendata #data.gouv.fr

Talk at SenseCamp, from MakeSense : Why Open Data is a no bullshit innovation ?

Last 21st September 2013, I was speaking at the Sense Camp organized by MakeSense at the School ESCP in Paris with two friends, Kat Borlongan, co founder of FiveByFive and Maël Primet from Snips

SenseCamp is a bar camp dedicated to innovation and social business. A SenseCamp brings together innovators, social entrepreneurs, social business enthusiasts and anyone interested for one full day of interactive workshops, inspiring talks, and networking. It also brings together the members of MakeSense, called the “gangsters”, to keep on building this amazing community.

Why OpenData is a no bullshit innovation ? From SenseCamp from Charles Ruelle

// <![CDATA[ (function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src = "//connect.facebook.net/en_US/all.js#xfbml=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk')); // ]]>

Post by MakeSense.

#open data #sensecamp #makesense #escp

7e Forum des informaticiens, géomaticiens des Espaces Naturels : l'Open data, quels enjeux ?

J'étais invité le 28 mai 2013, à intervenir au 7èmes rencontres du Forum des informaticiens, géomaticiens et webmasters des Espaces Naturels, à Montpellier.

Forum des TIC de l'Aten : Introduction à l'open data et présentation de la démarche d'ouverture des données publiques initiées par l'Etat (Etalab) from Charles Ruelle

Soutien des travaux de recherche sur le web sémantique & organisation de formations de producteurs de données

Lettre de soutien d'Etalab, lors de l'ouverture de la dixième édition de la conférence européenne sur le web sémantique ESWC 2013

Tout se passe comme si la révolution numérique voyait naître une troisième phase : la révolution des données, aussi différente de la révolution Internet qu’Internet l’avait été de l’informatique des années 70. C’est la révolution des big data, du web social, de l’open data, ce sont de nouvelles stratégies de création de valeur, de nouveaux codes sociaux, de nouveaux rapports entre les individus, c’est la datavisualisation et les API, le cloud computing, etc.

Avec cette révolution, les entreprises, les citoyens, les administrations ou encore les chercheurs se mettent à travailler au niveau élémentaire de la donnée, à manipuler des distributions complètes, à percevoir des signaux faibles, pour, une fois encore, changer en profondeur l’économie et la société. C’est un tout nouveau rapport au savoir, au pouvoir et à l’action qui se dessine.

C’est dans cette révolution que le web des données prend tout son sens. Le web des données et le web sémantique sont les deux facettes de cette nouvelle infrastructure informationnelle, à la recherche d'un web où les données de toutes formes produites par tous les acteurs se trouvent interconnectées, identifiées sans ambiguïté et reliées les unes aux autres. Un web où la création de nouveaux services, de nouveaux usages, de nouveaux croisements des données est grandement simplifiée et où la mise en réseau des moyens de production ouvre la voie à de nouveaux modèles d’innovation.

La France est engagée dans ce mouvement en tant qu’acteur à part entière de cette révolution qui voit le numérique connecter le monde.

Son offre de formations scientifiques de haut niveau, les compétences des chercheurs français et les travaux scientifiques des laboratoires et instituts de recherche français, comme le Laboratoire d'Informatique, de Robotique et de Microélectronique de l’Université de Montpellier II (LIRMM), l’Institut National de Recherche en Informatique et en Automatique (INRIA), le Centre national de la recherche scientifique (CNRS) ou le Laboratoire de Recherche en Informatique d’Orsay (LRI), sont largement reconnus à l’international.

La communauté du web sémantique français rassemble des entreprises performantes et innovantes – comme Antidot, Atos, Exalead, Logilab, Mondeca, Pearltrees, Semsoft ou Temis – ainsi que des associations comme la FING et le GFII qui diffusent activement les nouveaux usages que permet le web des données.

Les démarches d'ouverture des données publiques initiées par l'Etat ou les collectivités territoriales – comme Montpellier avec l’initiative Montpellier Territoire Numérique – contribuent également à l’émergence du web sémantique. La diffusion la plus large de données publiques, les vagues technologiques de l’Open Data ou du Big Data, les nouveaux métiers des data-scientists ou des data-journalistes contribuent à former une véritable filière industrielle de la donnée et de ses usages.

L’Etat lui-même peut aussi bénéficier des avancées issues de la recherche sur le web sémantique. Pour apporter du sens et rendre interopérables les données hétérogènes de ses systèmes d’information, l’Etat a notamment élevé sémantiquement des données brutes structurées avec la plateforme open-source du consortium Datalift.

L’application des technologies sémantiques à l’indexation et à la découverte facilite aussi la réutilisation des données de l’Etat. La plateforme française d’Open Data data.gouv.fr est ainsi conçue à partir d’un catalogue sémantique et interopérable de métadonnées descriptives. La Bibliothèque nationale de France (BNF) diffuse par ailleurs sur cette plateforme les fiches de référence sur les auteurs et les œuvres de son catalogue en formats sémantiques. La plateforme Montpellier Données Publiques Ouvertes exploite elle aussi les dernières avancées en la matière.

Ces technologies appuient également la constitution d’annuaires et de référentiels partagés au sein des services de l’Etat. L’INSEE publie ainsi des versions sémantiques du Code Officiel Géographique qui recense les subdivisions administratives du territoire ou les données du recensement de la population. Etalab a aussi réalisé, avec le concours de la Direction de l’Information Légale et Administrative (DILA), un référentiel sémantique des administrations de l’Etat.

Le 19 Novembre 2012, le ministère de la Culture et de la Communication a signé une convention avec Wikimédia et l’Inria créant la plate-forme collaborative « Sémanticpédia », visant à créer des programmes de recherche et de développement en matière culturelle à partir des données extraites de Wikipédia francophone. La délégation générale à la langue française et aux langues de France soutient également le projet de version sémantique du Wiktionnaire francophone. C’est ainsi plus de deux millions de termes qui viendront s’ajouter au réseau sémantique des articles de Wikipédia.

L’ensemble de ces travaux s’inscrivent dans le cadre des études et des projets de la Commission Européenne – comme Interoperability Solutions for European Public Administrations, Linked Open Data 2ou la plateforme ENGAGE – et des organismes internationaux tels que le World Wide Web Consortium(W3C).

Etalab, mission du Premier ministre en charge de l’ouverture des données publiques mais aussi de la promotion de l’innovation privée et publique sur ces données, compte s’appuyer sur l’important travail réalisé par la communauté scientifique française du web sémantique, et en attend beaucoup pour le développement d’une véritable culture de la donnée en France.

C’est pourquoi je me réjouis de vous assurer du soutien d’Etalab à cette 10ème édition de la Conférence Européenne du Web Sémantique, et souhaite de bons travaux aux intervenants et aux participants qui seront réunis à Montpellier du 27 au 30 Mai 2013.

20130524 Lettre de soutien Etalab Conférence web sémantique by Etalab, data.gouv.fr

En parallèle des soutiens aux activités de recherche et développement sur le web sémantique, tels que cette 10e édition de la conférence européenne sur le web sémantique ESWC 2013", j'ai eu le plaisir d'organiser des ateliers de formation-action sur le web sémantique avec les producteurs de données et des experts en web sémantique.

Etalab, chargée de coordonner l’ouverture des données publiques, a accueilli le 10 octobre dernier « le DataLift Camp » en présence des membres du consortium Datalift, Charles Nepote (FING) et François Scharffe (LIRMM, Datalift), et de plus d’une quarantaine de participants producteurs de données, fournisseurs de plateformes, acteurs publics et experts de l’Open Data en France (de l’EURECOM, l’INSEE, l’INRA, Logica, Mondeca, l’IGN, le Ministère de l’Intérieur…).

Après le mot d’accueil de Charles Ruelle pour Etalab, Charles Nepote engage la conversation

La matinée a commencé par une introduction au web sémantique, ses enjeux et ses usages. Charles Ruelle, directeur technique de la mission Etalab, a d’ailleurs rappelé à cette occasion « Le « web des données » (ou web sémantique), est la promesse d’un web centré sur les données, un web où les données de toutes formes et de tous acteurs se trouvent normalisées, identifiées sans ambiguïté et reliées les unes aux autres. Ces technologies appliquées à l’Open Data faciliteraient la création de nouveaux services, de nouveaux usages, et de nouveaux croisements de données.».

Les technologies du web sémantique permettent notamment aux données ouvertes « Open Data », d’être normalisées, identifiées sans ambiguïté et d’être reliées les unes aux autres.

Vidéo pédagogique de présentation du web des données : « Le web des données ouvertes et liées, qu’est ce que c’est ? »

Ont ensuite suivies les présentations de Gabriel Kepeklian, responsable Recherche et Développement à Atos et de François Scharffe, coordinateur du projet Datalift et chercheur en Intelligence Artificielle et en Web Sémantique.

Présentation de DataLift par François Scharffe, Datalift Camp 9 et 10 octobre 2012, p.9

« Les mains dans le cambouis »

Après cette session plénière, les participants ont été invités à soumettre leurs idées de jeu de données et à former des groupes.

Fanny Maestracci de Suez Environnement a démarré par l’idée de travailler sur « l’eau », « l’impact sur les collectivités », la « qualité de l’eau dans les communes ». C’est ensuite Eric Cossa de Picardie Tourisme qui a pris la parole, intéressé par les données aussi bien touristiques, que par des croisements de données géographiques, météorologique, et/ou environnementales.

« Brainstorming » en fin de matinée

Après consultation de chacune des personnes présentes lors de cette journée de formation, les groupes « Prénoms », « INSEE », « Evénements », « Environnement », « Géolocalisation » et « DCAT » ont été définis pour le travail de l’après-midi.

La veille, au cours du Datalift Camp du 9 octobre, les groupes avaient abordé les sujets de croisement de données INSEE avec celles du Code Officiel Géographique ; les données de transport ; le budget des collectivités ; les prénoms ; et le croisement de données Open Food Facts.

Le groupe Environnement (Alimentation/Agronomie) travaille à l’interconnexion des données.

Un bilan positif

Les équipes formées ont été enthousiastes, inventives, ce malgré les quelques problèmes techniques rencontrés (de syntaxe, de conversion des données…). Pour certains d’entre eux, l’utilisation de la plateforme Datalift était une première qui s’est avérée prometteuse. Tandis que pour d’autres, participer au Datalift Camp correspondait à une continuité dans leurs recherches :

Par exemple, Christian Quest d’Open Street Map affirmait l’atout d’une formation au web sémantique : « le web sémantique est avant tout un apport de qualité à un travail de recherche déjà en cours ».

Stéphan Bernard de l’IRSTEA a parlé de web sémantique comme « d’un moyen de trouver des clefs pour identifier les données utiles dans le cadre d’une recherche appliquée » et « de distinguer des données similaires avec des intitulés différents ».

Enfin, Nicolas Chauvat de Logilab évoquait l’intérêt du Datalift Camp, sa société étant spécialisée dans l’informatique scientifique et le web sémantique.

Datalift Camp : et maintenant ?

Datalift est un logiciel libre, ce qui permettra aux participants de poursuivre leurs travaux avec le concours des référents du consortium pour arriver à un résultat abouti.

Datalift poursuit ses travaux de développement pour faciliter l’élévation sémantique de données.

Enfin, dans le cadre des Dataconnexions, la FING prévoit un hackathon « données 5 étoiles » courant novembre 2012 pour « valoriser les données sémantiques produites ».

Toute l’équipe d’Etalab remercie vivement les participants et les techniciens experts pour leur contribution enrichissante à cette deuxième session du Datalift Camp.

#web semantique #semweb #linkeddata #etalab #data #ontology

CoDesign de la plateforme data.gouv.fr

Etalab a été créé en Février 2011, pour mettre à disposition librement et gratuitement les informations produites par l'Etat.

J'ai construit la plateforme d'open data de l'Etat : data.gouv.fr pour rendre facilement et librement accessibles les données publiques françaises. Après avoir mis en ligne une première version de la plateforme data.gouv.fr, le 5 Décembre 2011, et après 2 ans d'améliorations continues en étroite collaboration avec la communauté des producteurs et des réutilisateurs de données, nous avons entamé en 2013 un travail de réflexion sur une nouvelle version de cette plateforme.

Nous avons lancé le processus de conception le plus ouvert possible, et associé fortement la communauté de l'open data à cette réflexion. J'ai pour cela lancé avec Henri Verdier, directeur d'Etalab, le projet CoDesign Data.gouv.fr : une opération de trois mois qui s'efforcera de recueillir toutes les suggestions des parties prenantes pertinentes, de repérer un maximum de compétences de notre écosystème et de produire un effort de prototypage rapide en public. Cette démarche a suscité de belles réactions : plus de 60 réponses écrites au questionnaire, dont 19 ont souhaité la publicité ; et j'ai animé plus de 12 séances de Codesign :

04 Juin - BarCamp Cap Digital #CoDesign “Comment faire de l’open data un levier pour l’innovation ouverte et en réseau”. Présentation des start-ups Kel Quartier, Cibul, Corporama, OpenDataSoft, Home’n’go, Sanspapier.com, HandiStrict, HBS Research, JOUL

4/5/6 Juin - GovJamParis, 2 jours de #CoDesign pour innover sur les enjeux du secteur public en équipes pluri-disciplinaires. 4 équipes dont « un data.gouv.fr plus collaboratif peut il améliorer l’ouverture des données publiques ?» et « la culture de la donnée peut elle améliorer les politiques publiques » ?

11 juin : le Labo de l’ESS avec Libertic et les acteurs de l’ESS le Labo de l’ESS, Etalab et Libertic organisent dans le cadre du CoDesign de data.gouv.fr une rencontre exclusivement dédiée aux représentants des ONG et structures de l’Economie Sociale et Solidaire pour s’initier à l’ouverture des données et identifier les opportunités pour leur organisation.

13/14/15 et 16 juin - Futur en Seine, sur le stand d’Etalab : présentation d’Etalab, des startups lauréates des Dataconnexions, présentation des projets #CoDesign du GovJam 2013 et présentation des travaux des étudiants d’Hetic

17 juin, à 18h30 : La Cantine numérique Rennaise accueille Etalab pour un atelier #CoDesign sur le thème « Quels outils pour la réutilisation des données en open data ? » Vous êtes développeur ou vous avez déjà essayé de consulter ou de réutiliser des données (sans nécessairement être un expert du sujet), venez partager vos idées.

20 juin, de 19h à 23h, chez Etalab à Paris : « ReDesignez en équipe la page d’accueil de data.gouv.fr ». Evènement #CoDesign organisé par l’OKFN France et Etalab

25 juin à Marseille, dans le cadre de l’ Open Data Week : Open Data France et Etalab organisent un atelier #CoDesign sur le référencement et la diffusion des données publiques.

25 juin à 18h30, rendez vous au DataTuesday à Marseille

27 juin, de 14h à 17h, à Marseille, dans le cadre de l’ Open Data Week : Atelier #CoDesign « Quelles formes radicales pour diffuser des retours d’expériences liés à l’open data ? »

A chacune de ces rencontres thématiques, j'ai animé des ateliers de travail thématiques, comme ce fut le cas à la Cantine Numérique Rennaise avec Simon Chignard :

« Quels outils pour la réutilisation des données en open data ? » Vous êtes développeur ou vous avez déjà essayé de consulter ou de réutiliser des données (sans nécessairement être un expert du sujet), venez partager vos idées.

CoDesign de data.gouv.fr à la Cantine Numérique Rennaise from Charles Ruelle

#codesign #open innovation #open data #etalab

Intervention à l'INRIA : "L’ouverture des données au niveau national (Etalab)"

Le club de veille technologique IN’ Tech, animé par l’Inria et GRILOG, le Cluster Isère du logiciel et des services informatiques, organisait le 5 juin 2012 une demi-journée de rencontres entre chercheurs et industriels sur l’ouverture et la valorisation des données.

Intervention à l'INRIA : "L’ouverture des données au niveau national (Etalab)" from Charles Ruelle

Programme du séminaire:

14h00 – 14h15 : Introduction – Jérôme Euzenat (Inria)

14h15 – 14h45 : L’ouverture des données au niveau national – Charles Ruelle (EtaLab)

14h45 – 15h15 : Des données brutes au web des données liées – François Scharffe (LIRMM)

15h15 – 15h45 : Des données ouvertes aux données liées d’entreprise – Fabrice Lacroix (Antidot)

15h45 – 16h30 : Pause et découverte des stands

16h30 – 17h00 : Données publiques, place de données et journalisme de données – François Bancilhon (Data publica)

17h00 – 17h30 : Expérimentation d’utilisation de données d’une communauté de communes Vincent Kober (Communauté d’agglomération La Métro)

17h30 – 18h00 : Projets de la ville de Grenoble pour l’ouverture des données publiques – Gildas Laeron (Ville de Grenoble)

Plus d'informations sur l'évènement : http://www.grilog.fr/email/seminaire-intech

#open data #etalab #inria

Plongée dans la plate-forme technique du portail Open Data

ZDnet a publié ce jour une interview au sujet de l'architecture technique de la première plateforme d'open data de l'Etat, data.gouv.fr

Hébergement et infrastructure matérielle

Chez Atos, l'hébergement du portail data.gouv.fr (au budget de 2 millions d'euros) est mutualisé avec service-public.fr et legifrance.gouv.fr, les deux principaux sites de l’Etat en termes d’audience, édités par la DILA (Direction de l'information légale et administrative).

« Dès la création de la mission, nous avons choisi de travailler en collaboration avec la DILA que ce soit au niveau hébergement ou applicatif avec eZ Publish, Exalead et Mondeca. Cela permet,de manière générale, d’harmoniser les outils que nous déployons et donc de rationaliser les coûts, mais aussi de monter en compétences et de capitaliser au niveau du développement et de la maintenance » déclare le directeur technique d’Etalab, Charles Ruelle.

Très classiquement, le portail comprend trois environnements (qualification, pré-production et production), intégralement redondés, et une répartition sur deux datacenters distincts. Un site de backup a été prévu et permet le téléchargement des jeux de données les plus demandés. Les différentes briques applicatives du site sont exécutées depuis une dizaine de serveurs virtuels en production (VMWare ESX).

Montée en charge et cache

La problématique de la montée en charge est gérée notamment grâce au recours à la virtualisation, qui permet en cas de pic de trafic, d’ajouter de nouveaux serveurs. La montée en charge a été anticipée au lancement afin de garantir la disponibilité du site lors de la mise en ligne et la capacité du back-office producteurs à accueillir un grand nombre d’utilisateurs (800 à 1000, contre 200 actuellement).

« C’est tout l’intérêt d’une architecture à base de machines virtuelles qui permet de s’adapter aux pics de trafic. Par ailleurs, l’architecture est très NoSQL en frontal. Par rapport au CMS, le fait de faire des modules d’extension qui ne s’appuient pas sur des modèles génériques de stockage mais plutôt des approches traditionnelles SGBD permet d’avoir un meilleur temps de réponse du CMS et plus globalement du système » détaille Jean-Christophe Renou, spécialiste de l’ECM chez Logica, prestataire technique de data.gouv.fr.

Pour le cache, Etalab a prévu une architecture asymétrique entre la contribution en « mode CMS » et une publication en cache avec pré-génération d’un certain nombre de pages (référencées par le moteur de recherche).

CMS : eZ Publish

Le choix d’un socle CMS eZ Publish est dicté par une volonté de mutualisation avec la DILA.

« Tous les aspects transactionnels sont construits au-dessus du CMF - Content Management Framework – et toutes les interactions comme le forum sont le plus souvent des extensions greffées à l’intérieur d’eZ Publish […] Les contributions peuvent rapidement devenir nombreuses et afin de maintenir de bonnes performances, nous avons créé pour cela des extensions spécifiques » précise Jean-Christophe Renou.

Back-office producteurs et description des jeux de données

Pour publier leurs jeux de données, les administrations disposent de leur propre outil de publication, accessible en mode Web.

« On retrouve les concepts d’un CMS. Nous avons créé un modèle d’organisation générique à l’ensemble des producteurs de données, et souple, à travers lequel il est possible de définir les workflows. Les fonctions d’administration sont elles déportées vers les coordinateurs » décrit le responsable de Logica.

La description des jeux de données est gérée quant à elle par l’intermédiaire de l’outil de gestion de base de connaissances sémantiques de la société Mondeca. « Chaque descriptif d’un jeu de données est harmonisé avec des thésaurus […] Cela permet déjà d’apporter une première étape de qualification harmonisée au niveau de l’Etat » commente Charles Ruelle.

Plate-forme d’échange de données

Chacun des 200 contributeurs de la plateforme peut recenser, qualifier et diffuser des données publiques depuis son interface.

La publication automatisée des jeux de données sur data.gouv.fr s’effectue quant à elle grâce à une plate-forme d’échanges (des échanges FTP sécurisés). Celle-ci supporte les flux automatiques entre les bases de données des SI de l’Etat et la plate-forme.

« Nous avons tiré des liens permanents entre les bases de données des administrations et Etalab pour que la mise à jour de centaine de milliers de jeux de données puisse se faire dans un souci de productivité » détaille Jean-Christophe Renou.

« Nous envisageons un mode en pull basé sur le moissonnage. Nous avons mis en place un prototype avec une syntaxe XML/RDF avec l’Insee et le MEDETEL [Ndlr : ministère de l’écologie]. Pour nous c’est un enjeu extrêmement fort puisque cela permet de mettre à disposition toujours plus de données, mieux qualifiées et mieux mises à jour et d’industrialiser cette étape de diffusion » ajoute Charles Ruelle.

Moteur de recherche : Exalead

Le moteur interne du portail est basé sur la technologie d’Exalead - propriété désormais de Dassault Systèmes. La démarche itérative est également appliquée au moteur afin donc d’améliorer la pertinence des résultats et de proposer de nouvelles fonctionnalités de recherche.

« Nous avons commencé sur quelque chose d’assez simple avant d’apporter progressivement des améliorations pour faciliter encore l’accès aux données, en structurant ou ajoutant par exemple des facettes […] A ce stade du développement, nous avions priorisé l’approche simple et l’appropriation rapide. Nous avons travaillé autour de l’expérience Google en termes d’usages. En complément de cette recherche accessible à tous et qui permet déjà de faire 80% du travail, nous travaillons sur des facettes de recherche spécialisées sur certains axes, par exemple en privilégiant dans une requête l’axe géographique » présente Jean-Christophe Renou.

#architecture #opendata #data.gouv.fr

Trending Blogs

Recently Viewed Blogs

Charles Ruelle