Blog

Twitter autorise la récupération de corpus de tweets et de leurs metadonnées à partir de son API. Des solutions permettent d'effectuer cette collecte, TCAT par exemple, un projet de Digital Methods Initiative. IramuteQ est un logiciel qui permet des analyses lexicales suivant la méthode Reinert (le même genre que Alceste), particulièrement intéressantes dans des cas de controverses. Comment formater les données que l'on vient de récupérer avec DMI-TCAT sur l'API de Twitter afin d'en faire l'analyse dans iRamuteQ ?
Dans IramuteQ, il existe un bouton pour importer des données venant de TCAT. Mais je ne l'ai jamais utilisé, je n'en parlerai donc pas ici. Dans ce post, on va aborder une manière simple, rapide et adaptable (donc sûrement améliorable aussi) de s'atteler à cette tâche. Il suffit de disposer d'une installation fonctionnelle de R (qui est forcément déjà installé pour iRamuteQ) et des outils fournis par le Tidyverse. Cette méthode est, bien entendu, garantie 100% à base de code opensource.

Continuer la lecture...

Je poste ici un tout petit compte-rendu des idées qui me sont venues à la suite des journées d'études sur les questions de genre et la fouille de données, organisée par Aurélie Olivesi du laboratoire ELICO à Lyon en novembre 2014. Tout devrait être certainement mieux référencé, plus réfléchi, mais, je n'ai pas l'énergie de le faire maintenant, j'ai déjà suffisamment de chapitres à rédiger comme cela ;-) [#teamrédaction]. Pour le coup, je ne me lance pas du tout dans un compte-rendu exhaustif, qui présenterait l'ensemble des travaux, mais vais plutôt lister les questions qui me restent en tête quelques mois plus tard (laissant alors dans l'ombre certains travaux tout à fait intéressants par ailleurs). Donc, précisions faites, qu'ai-je bien pu observer, depuis le fond de la salle, sur ce qui se disait, et sur qui disait quoi ?

Continuer la lecture...

Il existe différentes méthodes pour analyser le graphe documentaire/social issu des flux de tweets. Pegasusdata propose une méthode basée sur l'usage du logiciel de statistiques R et de la librairie Igraph dans un tutoriel réalisé par Yannick Rochat, Martin Magdinier, dans son blog dédié à la maitrise de Open/google Refine consacre plusieurs posts au traitement des tweets, dont un qui m'a longtemps servi pour manipuler les tweets sans utiliser d'expressions régulières, et un autre qui explique comment préparer les données pour Gephi. Ce que je vais présenter plus loin, n'est pas une synthèse des deux posts, et offre une autre approche toujours sous Open/ggggle Refine, la première des solutions collectées par Martin étant trop lourde parfois, et la seconde ne permettant pas de produire un fichier très élaboré, offrant simplement un graphe trop sommaire à mon goût.

Continuer la lecture...

Dans le billet précédent, je suis revenu sur les conditions dans lesquelles il est intéressant de faire la sociologie d'un événement, de tenter de suivre ce qu'il se passe dans une situation d'ampleur et de voir ce qu'il est possible d'en comprendre au fur-et-à-mesure. j'ai repris ensuite les interventions duworkshop just-in-time-sociology pour en lister, synthétiser les points méthodologiques et épistémologiques principaux que soulèvent les événements contemporains de plus en plus liés, soit dans leur développement soit dans leur couverture médiatique et le plus souvent les deux, aux technologies numériques, web et réseaux sociaux en première ligne. J'ai fini ce précédent billet en introduisant la collecte de tweets contenant les hashtags #manifpourtous et #mariagepourtous que j'ai engagée à la fin de l'hiver avec F. Clavert, collecte qui est en train de donner lieu à une petite étude menée en compagnie de M. Cervulle.

Continuer la lecture...

Cela fait environ un mois que Frédéric Clavert a publié un post sur son expérience printanière de collecte de tweets et, ayant participé à cette collecte, je voulais ajouter quelques pierres au caïrn. Je vais principalement reprendre les points qu'il a listés, mais en les augmentant un peu, et en les abordant du point de vue d'une enquête en train de se faire (lancée il y a tout juste quelques mois), plutôt que de celui, bien plus panoramique, que lui confère sa préoccupation pour la construction des humanités numériques. Parler de cette collecte de tweets ici revient à aborder une situation à peu près inverse à celle des gros projets de recherche associant des équipes solides, aux compétences équilibrées et multiples, et à mêmes de concevoir très en amont la façon qu'elles auront de produire des données à analyser. Au contraire, je voudrais raconter comment, de manière un peu fragile, il arrive que pour pouvoir travailler sur ou autour d'un événement, faire une "sociologie du présent" (voir par exemple l'article de B. Paillard sur la sociologie de l'événement et la sociologie d'enquête chez Morin), on puisse se retrouver à improviser grâce-et-à-cause des données numériques. J'aimerais présenter ici comment il arrive qu'une étude se construise, en croisant les enjeux techniques, méthodologiques et théoriques qui s'y tressent, tout en listant, à l'occasion, quelques uns des problèmes spécifiques à la nature numérique d'une partie des données.

Continuer la lecture...


Creative Commons License