Sélectionner une page

Août : vacances studieuses

Après avoir passer presque deux ans dans une équipe de data scientists hyper compétents en extraction de données, et n’étant pas vraiment en charge de la communication des résultats, je me suis certes améliorée en manipulation et modélisation des données dans R, mais j’ai négligé deux aspects essentiels de ma pratique: l’acquisition et l’extraction de données et la communication des résultats.

 

Dataviz et communication

J’ai tenté de rectifier un peu le tir cet été en emportant deux livres dans mes valises:

Ce livre est à mon sens un must-read pour quiconque a fait des études un peu longues, a cherché à performer avec des méthodes statistiques bien complexes, ou juste faire carrière en tant qu’analyste. La communication ou l’art de raconter des histoires avec des données fait réellement partie des soft skills qui font toute la différence lorsque l’on commence une carrière de data analyst.

C’est un livre que j’aurais aimé avoir entre les mains lorsque j’ai commencé à travailler dans un milieu non-académique. Je reconnais dans ce livre plusieurs de mes erreurs de débutante : présenter un dendrogramme à des décideurs, mettre un maximum d’informations sur un slide, et faire beaucoup (trop) de pie charts. Sa démonstration sur la nullité des pie charts est bluffante, et pour cette raison ce livre vaut le détour.

 

Scott Murray nous explique de façon très pédagogue comment utiliser d3.js. Et il en faut de la pédagogie pour apprendre à utiliser cette librairie qui s’appuie sur du javascipt, .svg, .css et .html. On est guidé pas-à-pas dans la réalisation des graphiques. On ne trouve pas de jargon informatique, car ce livre s’adresse plutôt à des data-journalistes. Je n’ai pas encore fini de le lire, mais je suis déjà assez fière de moi d’avoir compris et installé tout l’environnement web, et d’avoir réalisé mon premier histogramme. Je vais tenter de faire un truc un peu plus attrayant et interactif pour ce blog dans quelques semaines.

Extraction de données

Pour l’acquisition et l’extraction de données, j’ai suivi un cours sur Udemy : Spatial SQL with PostgreSQL du Professeur Arthur Lembo. https://www.udemy.com/spatialsql/learn/v4/overview

Je n’ai pas encore fini. L’idée était de rafraîchir quelques vieilles connaissances :

  • en SIG car mes connaissances datent de l’an 2000,
  • en SQL car je n’ai jamais suivi de vraie formation structurée et ça commence à me peser,
  • et apprendre à me servir de PostGIS, et c’est beau !

Je suis assez satisfaite d’avoir réussi à installer mon serveur PostgreSQL, à importer des données. Vous pouvez d’ailleurs voir mes débuts en PostgreSQL ici: https://berengeregautier.com/importer-sirene-postgresql/. Et je suis également satisfaite d’avoir connecté mon serveur à un SIG et à mes sessions R. Il me tarde d’en exploiter toute la puissance (un prochain post est en cours de préparation…)

Manipulation de la science

D’un point de vue un peu plus épistémologique, je me suis intéressée à la façon dont on maltraite la science. J’ai été choquée par le documentaire « Merchant of Doubts » il y a quelques mois. Et très naïvement je me disais que jamais de la vie cela pourrait arriver dans nos démocraties européennes. On n’est quand même pas aussi stupides.

Sans être une activiste écolo, je me suis passionnée malgré moi pour le débat sur les perturbateurs endocriniens en Europe. J’ai en effet été choquée par la façon dont les journalistes allemands traitent ce sujet avec autant de désinvolture. Cela m’a pris il y a quelques semaines avec des articles de journaux allemands qui étaient plein de non-sens et d’idées plutôt dangereuses, et qui le sont toujours. J’ai lu depuis avec beaucoup d’intérêt l’enquête passionnante de Stéphane Horel, journaliste d’investigation au sein du parlement européen, dont vous pourrez retrouver le livre ici : https://www.amazon.fr/Intoxication-St%C3%A9phane-HOREL/dp/2707186376

Je vais prendre le temps de synthétiser de tous les articles borderlines que j’ai lu dans la presse allemande. Je pense que cela a sa place sur un blog qui parle de data science et de sciences en général. On ne peut en effet pas nier la façon dont certains individus laissent planer un doute des études scientifiques qui font pourtant consensus au sein de la communauté scientifique.