Dans un post précédent,j'ai raconté rapidement comment j'avais construit le questionnaire webINTIM. Ici, j'entre un peu plus dans les détails, notamment ceux qui concernent le choix difficile des catégories et des formulations. En effet, l'une des conditions de retour du questionnaire consiste avant tout à ce qu'il ait été lisible par un grand nombre de personnes aux cultures sexuelles au mieux différentes, mais parfois aussi en conflits, et il est très loin d'être simple de choisir les bons mots. C'est d'ailleurs dans ce genre de situation que l'on comprend combien les cultures sexuelles produisent des univers lexicaux très (très) différents.
Voici un post destiné à être probablement updaté régulièrement durant les prochaines semaines, puisqu'il s'agit d'y organiser une sorte de F.A.Q. du questionnaire webINTIM portant sur les usages amoureux, affectifs et/ou sexuels du web (principalement 2.0) et remplissable sur sociographie.fr. En effet, après avoir mis en ligne le questionnaire en fin de semaine dernière, j'ai reçu des questions variées, dont quelques unes étaient récurrentes, et parmi ces dernières, certaines inquiètes ou énervées. Ce qui est très intéressant dans ces retours c'est qu'ils discutent une partie des énoncés publiés dans le questionnaire, et interrogent tout autant la façon dont je les ai choisis, que, plus largement, ce qu'est un questionnaire, son caractère normatif, sa nature de dispositif technique, ses objectifs scientifiques, etc.
Je poste ici un tout petit compte-rendu des idées qui me sont venues à la suite des journées d'études sur les questions de genre et la fouille de données, organisée par Aurélie Olivesi du laboratoire ELICO à Lyon en novembre 2014. Tout devrait être certainement mieux référencé, plus réfléchi, mais, je n'ai pas l'énergie de le faire maintenant, j'ai déjà suffisamment de chapitres à rédiger comme cela ;-) [#teamrédaction]. Pour le coup, je ne me lance pas du tout dans un compte-rendu exhaustif, qui présenterait l'ensemble des travaux, mais vais plutôt lister les questions qui me restent en tête quelques mois plus tard (laissant alors dans l'ombre certains travaux tout à fait intéressants par ailleurs). Donc, précisions faites, qu'ai-je bien pu observer, depuis le fond de la salle, sur ce qui se disait, et sur qui disait quoi ?
Il existe différentes méthodes pour analyser le graphe documentaire/social issu des flux de tweets. Pegasusdata propose une méthode basée sur l'usage du logiciel de statistiques R et de la librairie Igraph dans un tutoriel réalisé par Yannick Rochat, Martin Magdinier, dans son blog dédié à la maitrise de Open/google Refine consacre plusieurs posts au traitement des tweets, dont un qui m'a longtemps servi pour manipuler les tweets sans utiliser d'expressions régulières, et un autre qui explique comment préparer les données pour Gephi. Ce que je vais présenter plus loin, n'est pas une synthèse des deux posts, et offre une autre approche toujours sous Open/ggggle Refine, la première des solutions collectées par Martin étant trop lourde parfois, et la seconde ne permettant pas de produire un fichier très élaboré, offrant simplement un graphe trop sommaire à mon goût.
Dans le billet précédent, je suis revenu sur les conditions dans lesquelles il est intéressant de faire la sociologie d'un événement, de tenter de suivre ce qu'il se passe dans une situation d'ampleur et de voir ce qu'il est possible d'en comprendre au fur-et-à-mesure. j'ai repris ensuite les interventions duworkshop just-in-time-sociology pour en lister, synthétiser les points méthodologiques et épistémologiques principaux que soulèvent les événements contemporains de plus en plus liés, soit dans leur développement soit dans leur couverture médiatique et le plus souvent les deux, aux technologies numériques, web et réseaux sociaux en première ligne. J'ai fini ce précédent billet en introduisant la collecte de tweets contenant les hashtags #manifpourtous et #mariagepourtous que j'ai engagée à la fin de l'hiver avec F. Clavert, collecte qui est en train de donner lieu à une petite étude menée en compagnie de M. Cervulle.
Cela fait environ un mois que Frédéric Clavert a publié un post sur son expérience printanière de collecte de tweets et, ayant participé à cette collecte, je voulais ajouter quelques pierres au caïrn. Je vais principalement reprendre les points qu'il a listés, mais en les augmentant un peu, et en les abordant du point de vue d'une enquête en train de se faire (lancée il y a tout juste quelques mois), plutôt que de celui, bien plus panoramique, que lui confère sa préoccupation pour la construction des humanités numériques. Parler de cette collecte de tweets ici revient à aborder une situation à peu près inverse à celle des gros projets de recherche associant des équipes solides, aux compétences équilibrées et multiples, et à mêmes de concevoir très en amont la façon qu'elles auront de produire des données à analyser. Au contraire, je voudrais raconter comment, de manière un peu fragile, il arrive que pour pouvoir travailler sur ou autour d'un événement, faire une "sociologie du présent" (voir par exemple l'article de B. Paillard sur la sociologie de l'événement et la sociologie d'enquête chez Morin), on puisse se retrouver à improviser grâce-et-à-cause des données numériques. J'aimerais présenter ici comment il arrive qu'une étude se construise, en croisant les enjeux techniques, méthodologiques et théoriques qui s'y tressent, tout en listant, à l'occasion, quelques uns des problèmes spécifiques à la nature numérique d'une partie des données.
J'avais complètement oublié de mentionner ici la traduction du texte "6 provocations for bigdata" de d. boyd et K. Crawford, effectuée en septembre 2011 en compagnie de P. Grosdemouge et d'internaut...