DATAtourisme

Toujours une tannée à exploiter

Bonjour,

J’avais abandonné depuis un long moment l’idée d’utiliser cette base DataTourisme, qui partait d’une bonne idée mais qui représente pour moi un modèle du genre de ce qu’il faut éviter dans l’Open Data : la complexité pour exploiter les données. Cela ne respecte pas certains critères caractérisant les données ouvertes comme l’accessibilité et l’exploitabilité.

Je réessaye ce jour, histoire de voir si les choses ont changé de ce côté. Je vois que des CSV sont à présent proposés « au commun des mortels » (ceux comme moi qui ne seraient pas foutus monter le serveur nécessaire pour exploiter les données).

Malheureusement ça n’a pas beaucoup changé : les données et leur exploitation sont toujours présentées de façon complexe.

Rien qu’essayer de télécharger un fichier CSV sur la page des téléchargements (https://www.data.gouv.fr/fr/datasets/datatourisme-la-base-nationale-des-donnees-du-tourisme-en-open-data/ ) fait souffler le processeur de mon PC ! Impossible de télécharger quoi que ce soit. A croire que vous minez du bitcoin pendant l’affichage des pages. J’ai essayé sur 2 navigateurs et 2 PC différents, même chose. Il s’agit juste d’afficher une URL de téléchargement !

Il faudrait vraiment que vous regardiez ce que font les autres.

Bonjour,

Je suggère de créer votre propre flux de generation de fichier csv après avoir créé un compte utilisateur:

https://diffuseur.datatourisme.gouv.fr/fr/

Cette voie fonctionne très bien. Il y a de la documentation qui explique le processus, il me semble, je ne sais plus où.

Ensuite utiliser le bouton « télécharger la dernière version » du flux dont vous avez demandé la génération précédemment et qui prend un peu de temps à être mis en route.

https://diffuseur.datatourisme.gouv.fr/fr/flux

Les fichiers sont plutôt volumineux, suivant vos critères de selection et devraient consommer de la bande passante de votre connection internet, mais probablement pas du CPU.

Vous ne devriez pas avoir de problème pour télécharger les fichiers, à part certaines heures ou des erreurs 500 apparaissaient quand les serveurs généraient les fichiers.

Hope that helps.

Courage…

Fred
consommateur de données datatourisme

Bonjour,
Merci pour votre réponse, je vais réessayer par ce biais (que j’avais testé il y a quelques années déjà mais que j’avais abandonné. Je crois parce que le JSON généré était trop volumineux pour être traité par la mémoire de mon serveur).

C’est la page que j ai mise en lien qui consomme du CPU, ce n’est même pas le téléchargement en lui-même (testé sur Firefox et Opera), puisque celui-ci n’est pas accessible. Je pense que ça provient du code JS.

Oui la page

https://www.data.gouv.fr/fr/datasets/datatourisme-la-base-nationale-des-donnees-du-tourisme-en-open-data/

ne charge même pas.

Bonjour,

Les difficultés de chargement sur la page de Data.gouv.fr sont apparemment liés à la mise en place de la refonte de leur site car en repassant sur l’ancienne version de data.gouv.fr, les fichiers sont bien accessibles. Nous allons les alerter de ce dysfonctionnement.

Les fichiers CSV sont volumineux car il y a actuellement 420 000 points d’intérêt recensés et le compteur continue de grimper. C’est pour cette raison que nous avons posté sur le portail Data Gouv des fichiers simplifiés et découpés par région, plus légers à exploiter. Vous pourrez y accéder facilement en repassant sur la version précédente de DATA GOUV (en attendant que le pb soit réglé sur la nouvelle version).

Difficile de combiner richesse des données et légèreté du fichier… les fichiers proposés contiennent bien plus de critères que les bases classiques de recensement (qui proposent nom, catégorie, adresse, géoloc, téléphone). Nous fournissons des dizaines de critères de qualification, classement, descriptifs, le tout en deux langues…

Enfin, sachez que nous avons mis en place en juin 2020 une version Json et une version Xml des données, pour répondre à la demande des développeurs qui ne veulent pas exploiter de RDF. La contrepartie de ce type de fichier est leur poids : le fichier zip proposé sur la plateforme compte 1 fichier par point d’intérêt, donc en fonction du périmètre de votre flux (catégories choisirs, zone géographiques, filtres éventuels) le poids sera effectivement plus ou moins important.

Nous restons à l’écoute de nos utilisateurs pour améliorer le système, n’hésitez pas à nous faire vos suggestions avec des idées concretes que nous pourrons étudier. Et n’hésitez pas à solliciter les autres utilisateurs de la plateforme en posant vos questions sur ce forum : DATAtourisme compte aujourd’hui plusieurs centaines de réutilisateurs qui exploitent chaque jour des flux de données. Ils pourront sans doute vous donner quelques astuces pour vous guider.

A bientôt !

Perso ça fait 3 mois que j’essaye d’exploiter les données; mais à force de lire sur le sparql etc etc un moment j’ai du faire des choix.

Quand je me rend compte que mes vues mettent du temps à se charger alors que d’autre site sont hyper rapide je ne comprend pas comment ils sont développé leur site pour qu’il soit si performant.

Le + « énervant » c’est de voir les liens des fiches ici (https://data.datatourisme.gouv.fr/28/example) se charger très très vite… et j’ai vue des sites qui charge et affiche les données demandé encore + vite… avec un vulgaire wordpress (pour certain). je ne sais pas comment qu’ils font jchui « deg »
Apache jena à mis 5 heures (bon apres peut être que je n’ai pas implémenté correctement aussi) pour charger les données, l’api docker stack est longue…

je commence à regretter de m’être lancé la dedans mais bon…

Pour tes problèmes de performance normalement DATATourisme n’y est pour rien (et du coup comparer à d’autres sites ne sert à rien), ou j’ai loupé quelque chose. Rassure moi tu ne te connecte pas directement à DATATourisme pour chaque requête sur ton app ou site ? L’idéal (et la bonne pratique normalement) c’est d’avoir une base de données de « ton » côté

Il faut voir où se situe ce ralentissement, tu as peut être des logs quelque part ? Souvent c’est les connexions aux base de données, ta ou tes requêtes sont-elles optimisées ? tu as peut être des index à rajouter ou une requête trop complexe.