chargement...

Programme
Projet Encadré

Site du groupe LCD.

PPE2 pluriTAL.

Bienvenue sur notre site web!

Ce site web a pour objectif de présenter notre projet réalisé dans le cadre du cours "Programmation et projet Encadré 2" du TAL (Traitement Automatique des Langues) de l'année universitaire 2022-2023 à l'Université Sorbonne Nouvelle, l'Université Paris Nanterre et l'INALCO.

Notre projet captivant consistait à explorer les fils RSS du journal Le Monde de l'année 2022 en utilisant Python. Nous avons extrait des motifs morpho-syntaxiques, réalisé une analyse des sujets et créé des visualisations captivantes.

Notre démarche nous a permis de plonger au cœur de ce corpus riche en informations et de mettre en lumière les tendances et les thèmes dominants abordés dans les articles. Nous espérons que ce site web vous offrira un aperçu détaillé de notre exploration linguistique et suscitera votre intérêt pour le traitement automatique des langues.






Aperçu du traitement des données

Nous avons commencé par obtenir les données des fils RSS en développant des modules Python pour lire les fichiers et extraire les textes et les métadonnées. Ensuite, nous avons enrichi ces données en nettoyant le texte, en éliminant les mots vides et en utilisant la tokenisation pour identifier les motifs cachés.

L'analyse a été le cœur de notre exploration. Nous avons utilisé des techniques de modélisation des sujets pour révéler les thèmes dominants dans les articles du journal Le Monde. En examinant la distribution des sujets dans le temps, nous avons observé les évolutions et les tendances.

Enfin, nous avons créé des visualisations attrayantes à l'aide d'outils de visualisation tels que Matplotlib et D3.js. Ces visualisations, telles que des graphiques interactifs et des nuages de mots, permettent aux utilisateurs de plonger dans les profondeurs du corpus de données et de mieux comprendre les thèmes et les tendances.

Grâce à nos analyses et visualisations, nous avons révélé les richesses cachées de ce corpus d'informations. Nous espérons que notre travail ouvrira de nouvelles perspectives et inspirera de futures explorations dans le domaine de l'analyse linguistique.

Vous pouvez trouver plus d'informations sur notre projet dans les sections situées en haut du site.

Concernant ce site :

Cette page Web s'inspire de certains templates et intègre également des plugins. Elle utilise également highlight.js pour mettre en évidence les scripts. highlight.js est un outil couramment utilisé pour mettre en évidence la syntaxe des codes. De plus, la page Web utilise certains éléments du framework Bootstrap, qui est un framework populaire pour le développement front-end permettant de créer des sites Web réactifs et modernes.

Toutes les images, à l'exception des portraits sur la page "nous", sont générées par midjourney.