Sélectionner une page

J’ai décrit dans un précédent post la façon dont on peut extraire un réseau de followers sur twitter, et identifié les communautés auxquelles ils appartiennent. Cette étape m’avait permis d’identifier 6 grosses communautés:

  • des géographes,
  • des acteurs de l’économie francilienne,
  • des filles qui codent,
  • un groupe spécialisé dans le big data,
  • une communauté tech française,
  • et un groupe évoluant dans les start-up berlinoises.

Rien de surprenant dans ce résultat: ces communautés décrivent assez bien ma chronologie professionnelle.

J’aurais voulu lancer là-dessus un algorithme de NLP sur les tweets de chacune de ces communautés et voir ce qui les différenciait. Malheureusement, je me suis bêtement heurtée à la barrière de la langue, difficile donc de produire un corpus exploitable avec des tweets en allemand, en anglais et en français. J’ai simplifié le problème et de simples wordclouds (nuages de mots) décrivent tout aussi bien ce qui anime chaque communauté.

Voici ici ma recette sur R pour produire de tels graphiques:

Extraire un corpus de tweets

On extrait ici les 500 derniers tweets de nos followers, publiés sur un intervalle d’un mois. Cette partie n’est pas super élégante dans la mesure où je n’ai pas trouvé de solution pour extraire proprement les tweets sur une période donnée. La fonction UserTimeline n’offre que la possibilité d’extraire un nombre prédéfinis de tweets. Peut-être avez-vous la solution?

 

Créer un corpus twitter pour chaque communauté

 

Nettoyer le corpus

 

Créer des wordclouds pour chaque communauté

 

Résultats

Pour chaque groupe, j’ai isolé le sous-réseau, et produit une visualisation à l’aide du logiciel Gephi. Les visualisations produites sont réalisées à partir d’une extraction réalisée entre août et septembre 2017.

 

Frenchweb // 6032 tweets

wordcloud,twitter community, twitter followers,twitter community, twitter, audience, followers networks, folllowers

GirlsWhoCode // 1835 tweets

wordcloud,twitter community, twitter followers,twitter community, twitter, audience, followers networks, folllowers

Les berlinois // 667 tweets

… qui ont travaillé dans la joie et la bonne humeur tout l’été malgré le temps pourri #happydance 

wordcloud,twitter community, twitter followers,twitter community, twitter, audience, followers networks, folllowers