DATAtourisme

Flux CSV avec champs contenant des retours à la ligne (CR / LF)


#1

Bonjour,

Je constate une hétérogénéité concernant le codage des retours à la ligne dans les champs susceptibles d’en contenir (:description …). Les retours à la ligne sont parfois CR LF (\r\n) (voir POI https://data.datatourisme.gouv.fr/7/c7db2231-70ff-3912-9d23-c05802cf43ae) et parfois LF (\n) (voir POI https://data.datatourisme.gouv.fr/28/dc0a5a58-fd4d-3e42-a0f1-5bfa173833db).

Premièrement, cela n’est pas très logique et peu poser des problèmes de traitement en PHP ou autres langages.

Deuxièmement, cet hétérogénéité est conservée lors d’export des flux en CSV. Selon la RFC 4180 (https://www.ietf.org/rfc/rfc4180.txt) relative au format CSV, tous ces retours à la ligne doivent être des CRLF.

Dans un précédent post (Paramétrage de l'export des flux au format CSV (et TSV)), on m’a indiqué que le format CSV de Datatourisme est uniquement conforme à cette RFC. Aussi, serait-il possible de corriger rapidement ce problème ?

Bien cordialement,


#2

Bonjour,

Il se peut effectivement que les données provenant des producteurs puissent comporter des différences concernant le format des retours à la ligne. Nous étudierons à l’occasion la possibilité de résoudre cette problématique de qualité.

Concernant le format CSV, nous pouvont néanmoins garantir que les retours à la ligne structurels, qui signifient un nouvel enregistrement, sont bien tous en CRLF.

Cordialement