Je poste ici un tout petit compte-rendu des idées qui me sont venues à la suite des journées d'études sur les questions de genre et la fouille de données, organisée par Aurélie Olivesi du laboratoire ELICO à Lyon en novembre 2014. Tout devrait être certainement mieux référencé, plus réfléchi, mais, je n'ai pas l'énergie de le faire maintenant, j'ai déjà suffisamment de chapitres à rédiger comme cela ;-) [#teamrédaction]. Pour le coup, je ne me lance pas du tout dans un compte-rendu exhaustif, qui présenterait l'ensemble des travaux, mais vais plutôt lister les questions qui me restent en tête quelques mois plus tard (laissant alors dans l'ombre certains travaux tout à fait intéressants par ailleurs). Donc, précisions faites, qu'ai-je bien pu observer, depuis le fond de la salle, sur ce qui se disait, et sur qui disait quoi ?
Parler du numérique sans investisseurs ni techno-gourous
Pour commencer, une question prémilinaire : quel genre de chercheur.ses était absent lors de ces journées ? Manquaient à l'appel des gens qui utilisent des logiciels commerciaux (donc de vrai.es chercheur.ses confirmé.es et crédibles ?), des hommes (pourtant toujours en majorité dès que l'on parle de numérique), des gens qui s'intéressent, avant tout autre chose, aux technologies numériques (au point de ne s'intéresser paradoxalement à pas grand chose d'autre). Et, honnêtement, pour une fois, il m'a été fort agréable de pouvoir écouter des chercheur.ses intéressé.es par le numérique, sans devoir subir les concours de qui va désigner en premier le service le plus hype, qui innove de la manière la plus acceptable, bref, sans devoir subir les interventions de ceux qui confondent sociologie et marketing, et j'en passe, à coup de e-bidules et de i-trucs. C'est certes anecdotique, mais, vraiment, le cadre théorique qui se noue autour du numérique lors de ces raouts techno-mercantiles devient particulièrement perceptible et fumeux, une fois mis à distance de la sorte. j'en remercie, donc, encore, les organisatrices.
Des ressources et des savoir-faire bien genrés
En premier lieu, une distinction très nette est apparue entre des personnes qui manipulent des logiciels de traitement automatisé des données et des personnes qui se posent des questions autour des discours sur le genre. Chose intéressante : ces deux groupes de personnes sont particulièrement genrés eux-mêmes : les personnes qui collectent et manipulent les données avec des procédés automatisés sont très majoritairement des hommes, les personnes qui interrogent les catégories de genre sont très majoritairement des femmes. Quelques exceptions se positionnent à l'intersection des deux groupes, venant d'un côté ou de l'autre et retravaillant leurs compétences au vu des ressources offertes par l'autre groupe, afin de mieux avancer dans leurs travaux. Ainsi, l'équipe des jeunes doctorant.es du LERASS (Carbou G., Christophe T. Ducos A.) à Toulouse a présenté une analyse des commentaires des vidéos de Conchita Wurtz sur youtube, et, d'abord, a fait entièrement mentir la répartition genrée que je viens de décrire (attribution traditionnelle h/informatique - f/théories&analyses), et, en plus, était très fine dans sa méthode comme dans son analyse.
Des logiciels libres et accessibles
On a vu des présentations construites à l'aide d'outils d'analyse informatiques récurrents : on retient notamment une omniprésence du logiciel d'analyse statistiques de corpus textuels iramuteQ (implémentation libre de la méthode Alceste, maintenu par P. Ratinaud du LERASS à Toulouse) et une présence en demie teinte de Gephi, sachant que l'étude des données relationnelles n'était pas du tout au centre des débats lors de ces journées (j'ai hâte que ça arrive un jour !). Pour le coup, N. Smyrnaïos a présenté un usage combiné de gephi et iRamuteQ sur le repérage de corrélations entre les classes lexicales et les communautés rassemblées autour du hashtag #mariagepourtous en 2013 particulièrement prometteur. Il n'est peut-être pas anodin de constater une forte présence des logiciels libres au sein des travaux présentés, puisque ceux-ci ont des propriétés d'usages assez spécifiques et répondent bien à la situation institutionnelle des chercheur.ses présent.es lors de ces journées : ce sont des logiciels dont on peut s'emparer plus ou moins facilement, mais toujours sans risque financier ni investissement faramineux de la part des équipes ou des labos, ce qui est important dans la constitution d'un champ de recherche qui n'en est qu'à ses débuts. Ce sont aussi des logiciels qui font l'objet d'un suivi et d'une documentation en ligne plutôt efficace, au lieu de reposer sur des circuits de formations hors-de prix. Peut-être que c'est l'appel à communication des journées qui a "trié" ce type de combinaison chercheur.ses/logiciels. En dehors de ça, une mention spéciale pour des méthodes, certes bien peu adaptées à des corpus géants, mais qui ont largement fait leurs preuves sur des corpus "smalldata" : je pense notamment à l'archivage de captures d'écran, archivage et analyse qui demandent une rigueur et une logistique (parfois Zotero, parfois juste l'explorateur de fichier) tout à fait conséquentes pour être efficace (avec la précision sans faille de l'analyse qu'elle nous a présentée, AC. Husson saura sûrement tirer profit de tels corpus).
Une forme techno-discursive adaptée à un type de recherche, et vice-versa
On a assisté au compte-rendu de différents travaux portant sur des données issues de twitter : le format des tweets, en plus peut-être aussi d'une certaine disposition culturelle/de classe des chercheur.ses à s'y intéresser, semble avoir suscité un intérêt particulier pour une bonne part des intervenant.es : sa facilité à être manipulé fait de lui un object qui n'effraie pas les débutants en analyse informatisée de corpus textuels... Toutefois, ce format ne leur refuse pas quelques résistances, à l'instar de n'importe quel dispositif de production de données numériques qui n'est pas le fruit direct des travaux de collecte des chercheurs. Le numérique des plateformes et des API permet à la fois de "récupérer" des données facilement, sans presque aucune infrastructure de recherche, tout en nécessitant des compétences nouvelles pour les traiter, appelant à de nouvelles collaborations. Le fait de s'inscrire ou pas dans des projets subventionnés et planifiés institutionnellement pose le rapport aux données numériques de manière complètement différente : soit on peut prévoir et anticiper les types de données, soit (comme c'est le cas pour l'étude des commentaires sur Conchita Wurtz par les doctorants toulousains, ou encore ma propre étude sur twitter, le #mariagepourtous et le débat à l'Assemblée, avec M.Cervulle et J.Chibois), on doit improviser et construire nos questions à partir des données collectées, des formats qui nous ont été imposés par les plateformes ou par les évènements (sur le principe de la just-in-time sociology)... C'est un point intéressant qui agit sur la recherche en la contraignant de façon très différente suivant les cas, et finalement, les projets présentés qui produisaient et contenaient leurs données dans un environnement sur lequel ils avaient la maîtrise complète ont été assez peu nombreux.
Le besoin d'un cadre épistémologique adéquat
Le fait que ces journées d'études ont été orientées vers la méthodologie et la collecte des données, me pousse à préciser l'importance que prend, selon moi, le développement d'un cadre théorique adéquate au croisement de travaux sur les rapports sociaux de genre, de sexualité, de race, de classe, et de la prise en compte de leur déploiement dans les espaces numériques. Plusieurs raisons requièrent de réfléchir un tel cadre :
-
les logiciels de traitement automatisé des données sont construits suivant des modèles théoriques (du langage, des interactions, des relations, etc.) qui ne sont pas toujours explicités ou, au moins, pas toujours rappelés. La prise en main même du logiciel et la conformation des données peuvent aussi faire passer ce cadrage théorique au second plan. Or, totalement inhérent au logiciel, il est essentiel pour comprendre les résultats, et pour "situer" l'analyse qui va en dériver. Les rapports sociaux sont des objets qui eux-mêmes nécessitent un cadre théorique et épistémologique particulier pour être appréhendés. Les rapports sociaux, sont les agents de différenciation entre des individus ou des groupes suivant des rapports de domination ou d'affection variables. Le développement d'un ancrage dans l'analyse informatisée des rapports sociaux doit passer par la mise en cohérence des cadres théoriques à la fois au niveau des outils et au niveau des analyses.
-
Que ce soit l'analyse critique des catégories opérées par les études de genre, le réglage des logiciels (par les dictionnaires, les lemmatisations, etc.) où encore le choix approprié des catégories, tous ces éléments participent à déterminer la description des populations ou des phénomènes observés. Aussi, dans un contexte où une partie croissante des études inclue une part de terrains numériques, ces trois dimensions de l'enquête requièrent de penser à nouveau l'usage et la lecture que les chercheurs font des catégories de genre, de race, de classe, de sexualité, etc. C'est un point qui est toujours autant épistémologique que méthodologique, dès lors que la numérisation des données touche les outils des chercheur.ses aussi bien que les données qui sont collectées.
Cela pourrait d'ailleurs constituer le thème d'une deuxième journée d'étude, afin que chaque intervenant.e puisse déployer la cohérence méthodologique et théorique de son travail (il faudrait laisser un peu plus de temps que les 20min par personne réglementaires, sinon ça peut difficilement être clair au final ;-). L'articulation avec d'autres méthodologies d'enquête pourrait devenir un enjeu aussi, sachant qu'à plusieurs reprises nous avons terminé nos interventions par un "là nous n'avons pas encore fait d'entretiens" ou encore "bon je suis en train de préparer la portion ethnographique de mon étude". Or le fait de placer l'analyse de données numériques avant ou après un terrain ethno/socio engage des exigences relativement distinctes en terme de management de la recherche.
Une petite frustration en guise de conclusion
Peut-être est-ce dû au fait que je me trouve, depuis plus de dix ans maintenant, avec mes propres travaux, à la croisée des deux champs de recherche qui se rencontraient lors de ces journées, toutefois, j'ai été surpris par le manque de références tantôt méthodologiques et tantôt théoriques dont certain.es d'entre nous faisaient preuve : les bibliographies, pas plus que les anecdotes et les savoir-faire les plus prosaïques, ne traversent les "petits mondes" scientifiques ; ça ne circule pas, et c'est dramatique ! La constitution d'une bibliographie commune est déjà une base incontournable pour des collaborations futures, mais en plus, elle constitue une entrée dans le sujet relativement simple pour les débutants des logiciels, tout autant que pour ceux qui démarrent leur compréhension des rapports sociaux (que, par ailleurs, je serais d'avis d'étendre très rapidement à d'autres perspectives que celles des genres et des sexualités). S'il est question de générer et partager des savoir-faire adéquats aux interrogations sur différents types de rapports sociaux, l'apprentissage d'outils informatiques comme théoriques ne se fait jamais sans un temps de digestion particulièrement conséquent parfois. Pour finir, il serait certainement intéressant d'inclure, dès à présent, des travaux d'étudiant.es plus jeunes amené.es à construire leurs études directement à cheval sur ces deux ensembles de questions méthodologiques et théoriques au point que cette articulation constitue un environnement "naturel" et pointe les défauts de la relative imperméabilité qui les a maintenus à distance jusque là.