c
a
d
r
a
t






  Entrée  
   Ressources   
    Textes  
 
+  Des ressources en corpus, isotopies et programmes
+  Des articles d’ études sur le traitement automatique de la langue
+  Les pages du site pour des recherches, informations, résumés...


 
 
 
     des textes actualisés    
La base de données de textes actualisés utilisant les flux d’information RSS/Atom

 1.  le texte actualisé

Le flux continu des informations au travers des sites d’actualités renouvelle le contenu du texte tout en conservant sa structure. Les formats RSS/Atom, issus de la toile sémantique et du XML, contiennent les méta-informations de l’information : date, source ou auteur. L'agrégation permet ainsi de constituer de vastes corpus sur un sujet générique.

La base ci-dessous présente :
- un corpus issu d'une accumulation quotidienne d'informations (titre et début de l'article) remontant à trois ans, soit environ un millier de fichiers de quelques centaines d’articles chaque, sur la Corse et découpées en thèmes ;
- une référence thématique de tous les flux alimentant le corpus, aussi bien sur la Corse que sur d'autres sujets, généraux ou spécialisés, essentiellement en français, et en partie en italien, en corse et en anglais. Ces références sont régulièrement mises à jour. En usant de cette base d'adresses de flux, il est envisageable de présenter un corpus traité, sans être passé par l'étape de la constitution en aval et de l'exposition du texte plein, mais seulement de sa récupération, durant la phase de traitement.


 

 2.  une base de textes et de flux

      Corpus sur l’actualité corse des trois dernières années :

Annudatu
http://annudatu.saynete.net/


      Recueil de flux classés par thèmes et par langues :
  Base
  Français
 
Presse  .xml .csv .txt .opml
∟Alternatif  .xml .csv .txt .opml
∟Monde  .xml .csv .txt .opml
∟Société  .xml .csv .txt .opml
Environnement  .xml .csv .txt .opml
∟Vert  .xml .csv .txt .opml
∟Santé  .xml .csv .txt .opml
∟Animaux  .xml .csv .txt .opml
∟Déchet  .xml .csv .txt .opml
∟Énergie  .xml .csv .txt .opml
Technologie  .xml .csv .txt .opml
∟Informatique  .xml .csv .txt .opml
   ∟Deux zéro  .xml .csv .txt .opml
   ∟Rétro ordinateur  .xml .csv .txt .opml
   ∟Matériel  .xml .csv .txt .opml
   ∟Presse  .xml .csv .txt .opml
   ∟Jeu vidéo  .xml .csv .txt .opml
   ∟Linguistique  .xml .csv .txt .opml
   ∟Programmation  .xml .csv .txt .opml
∟Science  .xml .csv .txt .opml
Sport  .xml .csv .txt .opml
∟Football  .xml .csv .txt .opml
∟Volley  .xml .csv .txt .opml
∟Arts martiaux  .xml .csv .txt .opml
   ∟Judo  .xml .csv .txt .opml
   ∟Karaté  .xml .csv .txt .opml
   ∟Boxe  .xml .csv .txt .opml
   ∟Combat libre  .xml .csv .txt .opml
∟Tennis  .xml .csv .txt .opml
∟Raid  .xml .csv .txt .opml
∟Basket  .xml .csv .txt .opml
∟Rugby  .xml .csv .txt .opml
∟Cyclisme  .xml .csv .txt .opml
∟Handball  .xml .csv .txt .opml
∟Voile  .xml .csv .txt .opml
∟Natation  .xml .csv .txt .opml
∟Athlétisme  .xml .csv .txt .opml
∟Gymnastique  .xml .csv .txt .opml
Cité  .xml .csv .txt .opml
∟Droit  .xml .csv .txt .opml
∟Communes  .xml .csv .txt .opml
∟Franc-maçonnerie  .xml .csv .txt .opml
Politique  .xml .csv .txt .opml
∟Parti  .xml .csv .txt .opml
∟Personnalité  .xml .csv .txt .opml
∟Syndicat  .xml .csv .txt .opml
∟Presse  .xml .csv .txt .opml
Économie  .xml .csv .txt .opml
∟Emploi  .xml .csv .txt .opml
∟Tourisme  .xml .csv .txt .opml
∟Crypto-monnaie  .xml .csv .txt .opml
∟Immobilier  .xml .csv .txt .opml
∟Bourse  .xml .csv .txt .opml
∟Transport  .xml .csv .txt .opml
∟Auto-entrepreneur  .xml .csv .txt .opml
Culture  .xml .csv .txt .opml
∟Musique  .xml .csv .txt .opml
∟Arts  .xml .csv .txt .opml
   ∟Photo  .xml .csv .txt .opml
   ∟Peinture  .xml .csv .txt .opml
∟Geek  .xml .csv .txt .opml
∟Bande-dessinée  .xml .csv .txt .opml
∟Histoire  .xml .csv .txt .opml
∟Littérature  .xml .csv .txt .opml
∟Cinéma  .xml .csv .txt .opml
∟Cuisine  .xml .csv .txt .opml
∟Mode  .xml .csv .txt .opml
∟Voyage  .xml .csv .txt .opml
∟Comics  .xml .csv .txt .opml
   ∟Dessinateur  .xml .csv .txt .opml
   ∟Galerie  .xml .csv .txt .opml
∟Ludique  .xml .csv .txt .opml
   ∟Échecs  .xml .csv .txt .opml
   ∟Jeu de rôle  .xml .csv .txt .opml
   ∟Jeu de guerre  .xml .csv .txt .opml
   ∟Playmobil  .xml .csv .txt .opml
   ∟Magic  .xml .csv .txt .opml

  Plateforme
 
Social  .xml .csv .txt .opml
∟Facebook  .xml .csv .txt .opml
∟Twitter  .xml .csv .txt .opml
Vidéo  .xml .csv .txt .opml
∟YouTube  .xml .csv .txt .opml
∟DailyMotion  .xml .csv .txt .opml
∟Vimeo  .xml .csv .txt .opml
Blog  .xml .csv .txt .opml
∟WordPress  .xml .csv .txt .opml
∟Blogger  .xml .csv .txt .opml
∟OverBlog  .xml .csv .txt .opml
∟deviantArt  .xml .csv .txt .opml
Podcast  .xml .csv .txt .opml
∟Radio France  .xml .csv .txt .opml
∟BFM  .xml .csv .txt .opml
∟RMC  .xml .csv .txt .opml
RSS 
∟Politepol  .xml .csv .txt .opml

  Agrégé
 
Informatique  .xml .csv .txt .opml
Corse  .xml .csv .txt .opml
Comics  .xml .csv .txt .opml
Institution  .xml .csv .txt .opml
Sécurité  .xml .csv .txt .opml

  Dédié
 
Presse
∟L’Équipe  .xml .csv .txt .opml
∟France Info  .xml .csv .txt .opml
∟LeParisien  .xml .csv .txt .opml
∟Le Figaro  .xml .csv .txt .opml
∟LeMonde  .xml .csv .txt .opml
∟L’Express  .xml .csv .txt .opml
∟Ouest-France  .xml .csv .txt .opml
∟BFM  .xml .csv .txt .opml
∟Europe 1  .xml .csv .txt .opml
∟France 3  .xml .csv .txt .opml
∟20 minutes  .xml .csv .txt .opml
∟France 24  .xml .csv .txt .opml
Informatique
∟Développez  .xml .csv .txt .opml

  Région
 
Bretagne  .xml .csv .txt .opml
∟Culture  .xml .csv .txt .opml
∟Presse  .xml .csv .txt .opml
Île-de-France  .xml .csv .txt .opml
Pays de la Loire  .xml .csv .txt .opml
Provence-Alpes-Côte d’Azur  .xml .csv .txt .opml
Nouvelle-Aquitaine  .xml .csv .txt .opml
Occitanie  .xml .csv .txt .opml
Corse  .xml .csv .txt .opml
∟Presse  .xml .csv .txt .opml
∟Environnement  .xml .csv .txt .opml
∟Culture  .xml .csv .txt .opml
∟Technologie  .xml .csv .txt .opml
∟Sport  .xml .csv .txt .opml
∟Football  .xml .csv .txt .opml
∟Cité  .xml .csv .txt .opml
  ∟Communes  .xml .csv .txt .opml
∟Politique  .xml .csv .txt .opml
∟Économie  .xml .csv .txt .opml
∟Emploi  .xml .csv .txt .opml
∟Tourisme  .xml .csv .txt .opml
Langue corse :

∟Nustrale  .xml .csv .txt .opml

  Ville
 
Lille  .xml .csv .txt .opml
Marseille  .xml .csv .txt .opml
Nantes  .xml .csv .txt .opml
Rennes  .xml .csv .txt .opml

  Pays
 
Canada  .xml .csv .txt .opml
Sénégal  .xml .csv .txt .opml

  Continent
 
Afrique  .xml .csv .txt .opml
Europe  .xml .csv .txt .opml

  Anglais
 
Langue anglaise :
English  .xml .csv .txt .opml
∟Press  .xml .csv .txt .opml
∟Chess  .xml .csv .txt .opml
∟Computer  .xml .csv .txt .opml
  ∟Retro  .xml .csv .txt .opml
  ∟Python  .xml .csv .txt .opml
∟Comics  .xml .csv .txt .opml
  ∟Artist  .xml .csv .txt .opml
  ∟Gallery  .xml .csv .txt .opml

  Aggregated
 
Computer  .xml .csv .txt .opml
Superheroes  .xml .csv .txt .opml

  Italien
 
Langue italienne :
Italiano  .xml .csv .txt .opml

 2.  les principaux sites d’actualité

À partir des chiffres de l'OJD (Association pour le contrôle de la difusion des médias), sur la diffusion des magazines et journaux en France, l'on peut établir des listes fermées sur des critères comme la périodicité de parution, ou bien plus ouvertes comme la fréquentation des sites par les internautes : OJD.


     La page d’accueil
     Le sommaire des pages


       Site       motte 0.5  
       Imprimer  
     Rédaction / Publication : 05.10.2012     Révision : 10.07.2013 / 28.05.2015
      http://cadrat.saynete.net2003 - 2018