Je me lance dans la rédaction de ce dossier, parce qu'il devient nécessaire que je puisse fournir un document synthétique concernant les logiciels et l'équipement nécessaire à la transcription de pistes audio, que ces dernières soient des archives historiques, des interviews de journalistes, des entretiens de socio/ethnographes, etc. Cette nécessité trouve son origine dans une situation qui m'apparaît s'amplifier au fur-et-à-mesure des années : des personnes se lancent dans l'enregistrement d'entretiens sans savoir comment les traiter ensuite. Étudiant·es qui n'ont pas suivi de formation initiale en méthodologie des sciences sociales, ou des journalistes qui ne sont pas forcément passé·es par les écoles appellent ou lancent des bouteilles à la mer dans twitter pour savoir "quel est le logiciel qui, rapidement, pourrait mâcher largement le travail de transcription d'entretiens qui doivent être analysés avant le [insérer ici une date particulièrement imminente...]".
Dans un post précédent,j'ai raconté rapidement comment j'avais construit le questionnaire webINTIM. Ici, j'entre un peu plus dans les détails, notamment ceux qui concernent le choix difficile des catégories et des formulations. En effet, l'une des conditions de retour du questionnaire consiste avant tout à ce qu'il ait été lisible par un grand nombre de personnes aux cultures sexuelles au mieux différentes, mais parfois aussi en conflits, et il est très loin d'être simple de choisir les bons mots. C'est d'ailleurs dans ce genre de situation que l'on comprend combien les cultures sexuelles produisent des univers lexicaux très (très) différents.
Voici un post destiné à être probablement updaté régulièrement durant les prochaines semaines, puisqu'il s'agit d'y organiser une sorte de F.A.Q. du questionnaire webINTIM portant sur les usages amoureux, affectifs et/ou sexuels du web (principalement 2.0) et remplissable sur sociographie.fr. En effet, après avoir mis en ligne le questionnaire en fin de semaine dernière, j'ai reçu des questions variées, dont quelques unes étaient récurrentes, et parmi ces dernières, certaines inquiètes ou énervées. Ce qui est très intéressant dans ces retours c'est qu'ils discutent une partie des énoncés publiés dans le questionnaire, et interrogent tout autant la façon dont je les ai choisis, que, plus largement, ce qu'est un questionnaire, son caractère normatif, sa nature de dispositif technique, ses objectifs scientifiques, etc.
Il existe différentes méthodes pour analyser le graphe documentaire/social issu des flux de tweets. Pegasusdata propose une méthode basée sur l'usage du logiciel de statistiques R et de la librairie Igraph dans un tutoriel réalisé par Yannick Rochat, Martin Magdinier, dans son blog dédié à la maitrise de Open/google Refine consacre plusieurs posts au traitement des tweets, dont un qui m'a longtemps servi pour manipuler les tweets sans utiliser d'expressions régulières, et un autre qui explique comment préparer les données pour Gephi. Ce que je vais présenter plus loin, n'est pas une synthèse des deux posts, et offre une autre approche toujours sous Open/ggggle Refine, la première des solutions collectées par Martin étant trop lourde parfois, et la seconde ne permettant pas de produire un fichier très élaboré, offrant simplement un graphe trop sommaire à mon goût.
Dans le billet précédent, je suis revenu sur les conditions dans lesquelles il est intéressant de faire la sociologie d'un événement, de tenter de suivre ce qu'il se passe dans une situation d'ampleur et de voir ce qu'il est possible d'en comprendre au fur-et-à-mesure. j'ai repris ensuite les interventions duworkshop just-in-time-sociology pour en lister, synthétiser les points méthodologiques et épistémologiques principaux que soulèvent les événements contemporains de plus en plus liés, soit dans leur développement soit dans leur couverture médiatique et le plus souvent les deux, aux technologies numériques, web et réseaux sociaux en première ligne. J'ai fini ce précédent billet en introduisant la collecte de tweets contenant les hashtags #manifpourtous et #mariagepourtous que j'ai engagée à la fin de l'hiver avec F. Clavert, collecte qui est en train de donner lieu à une petite étude menée en compagnie de M. Cervulle.
Cela fait environ un mois que Frédéric Clavert a publié un post sur son expérience printanière de collecte de tweets et, ayant participé à cette collecte, je voulais ajouter quelques pierres au caïrn. Je vais principalement reprendre les points qu'il a listés, mais en les augmentant un peu, et en les abordant du point de vue d'une enquête en train de se faire (lancée il y a tout juste quelques mois), plutôt que de celui, bien plus panoramique, que lui confère sa préoccupation pour la construction des humanités numériques. Parler de cette collecte de tweets ici revient à aborder une situation à peu près inverse à celle des gros projets de recherche associant des équipes solides, aux compétences équilibrées et multiples, et à mêmes de concevoir très en amont la façon qu'elles auront de produire des données à analyser. Au contraire, je voudrais raconter comment, de manière un peu fragile, il arrive que pour pouvoir travailler sur ou autour d'un événement, faire une "sociologie du présent" (voir par exemple l'article de B. Paillard sur la sociologie de l'événement et la sociologie d'enquête chez Morin), on puisse se retrouver à improviser grâce-et-à-cause des données numériques. J'aimerais présenter ici comment il arrive qu'une étude se construise, en croisant les enjeux techniques, méthodologiques et théoriques qui s'y tressent, tout en listant, à l'occasion, quelques uns des problèmes spécifiques à la nature numérique d'une partie des données.