08h45 - 09h15 | Café d'accueil
Session 4 : Métiers de l'ingénierie des données - retours d'expérience
09h15 - 10h45 | Retours sur les collaborations entre chercheurs en SHS et ingénieur effectuées dans le cadre du projet GATES
- Translatoscope, Joseph Beau-Reder et Nassim Mandhouj
- GenderedNews, Karolin Boczoń et Ange Richard
- Observatoire de la Transition Energétique, Lilas Lacoste et Christophe Boisseau
- JADE, Louis Maritaud et Romain Rambaud
Résumé : L'axe 2 du projet GATES a pour objectif de développer l'attractivité de la recherche en Sciences Humaines et Sociales par le prisme des données de recherche. Pour ce faire un pool de 4 ingénieurs a été mis en place en février 2024 au sein de l'unité GRICAD, dans l'objectif de répondre aux besoins des communautés scientifiques SHS en matière de collecte, traitement, exposition et ouverture des données de recherche.
Cette session présente 4 collaborations effectuées depuis la mise en place du pool d'ingénieurs.
Le projet Translatoscope réunit des données textuelles, au format TEI, de pièces de théâtre grec ancien. L’ingénierie déployée permet de comparer et visualiser aisément des variations de traduction de la même pièce.
Le projet GenderedNews ingère également des données textuelles, mais cette fois directement récupérées sur le web depuis les principaux acteurs de la presse nationale. La collaboration a donné lieu à la réalisation d’un ensemble de data-visualisations, permettant tout un chacun d’explorer les indicateurs conçus par l’équipe scientifique.
L’observatoire de la Transition Énergétique ingère essentiellement des données relatives à la consommation énergétique de citoyens volontaires. La collaboration a donné lieu à des visualisations spatio-temporelles représentant la répartition des volontaires et leur consommation énergétique.
JADE ingère des données textuelles, juridiques, relatives aux décisions du Conseil Constitutionnel ; la collaboration a permis d’appliquer des techniques de traitement automatique des langues afin d’annoter automatiquement ces décisions juridiques.
Voir le blog Gates data shs pour aller plus loin.
10h45 - 11h05 | Pause
11h05 - 11h50 | Des données ouvertes pour entrainer des LLM
- Roberto Di Cosmo (Software Heritage)
11h50 - 12h15 | Conclusion - Grand Témoin des journées
- Frédéric de LAMOTTE (INRAE, Comité Science Ouverte - Collège des données)