chargement...

À propos du projet

les 4 BàOs

PPE2 pluriTAL.

Présentation du projet

Notre projet, axé sur l'exploration linguistique des fils RSS du journal Le Monde de l'année 2022, est divisé en quatre grandes étapes (BàO) : obtenir des données, enrichir les données, analyse et visualisation. Chacune de ces étapes a été minutieusement planifiée et exécutée avec soin, en utilisant le langage de programmation Python comme principal outil. Notre objectif est de révéler les trésors cachés de ce vaste corpus de données, en extrayant des motifs morpho-syntaxiques, en réalisant une analyse des sujets et en créant des visualisations captivantes.


BàO 1 – obtenir des données
Semaine 1-Semaine 4
Lecture de fichiers RSS
Extraction (récursive) de texte et métadonnées
On commence par lire un fichier RSS et on affiche certaines informations sur les articles.
Qu'est-ce que nous avons fait ?

Nous avons développé des modules de lecture de fichiers RSS, ce qui nous a permis d'accéder aux articles du journal Le Monde de l'année 2022. En utilisant une approche récursive, nous avons extrait les textes et les métadonnées associées à chaque article, créant ainsi une base de données complète et détaillée.

BàO 2 – enrichir les données
Semaine 5-Semaine 9
Analyse automatique
Extraction de patrons

Qu'est-ce que nous avons fait ?

À l'aide de techniques d'analyse automatique, nous avons nettoyé les textes en éliminant les éléments indésirables tels que la suppression des chiffres et des mots courts. De plus, nous avons procédé à l'extraction de patrons morpho-syntaxiques, ce qui nous a permis de mettre en évidence les schémas et les structures linguistiques présents dans les articles.

BàO 3 – analyse
Semaine 10
Topic modeling
Analyse dans le temps

Qu'est-ce que nous avons fait ?

Nous avons utilisé des techniques de topic modeling (LDA) pour identifier les thèmes dominants abordés dans les articles du journal Le Monde. De plus, en réalisant une analyse dans le temps, nous avons pu observer les évolutions et les tendances des sujets tout au long de l'année 2022.

BàO 4 – visualisation
Semaine 11
Mise en forme des sorties du modèle
Export pour le rapport web

Qu'est-ce que nous avons fait ?

Nous avons achevé le processus de sélection et d'analyse du sujet pour l'analyse de modélisation de thèmes LDA. En tant qu'équipe, nous avons également finalisé la création du site web. Nous nous sommes tous impliqués dans la rédaction du contenu de l'analyse des thèmes LDA, ainsi que dans l'amélioration de la documentation du script et la mise en page des pages HTML.

                     À propos du projet