c
a
d
r
a
t






  Entrée  
   Ressources   
    Textes  
 
+  Des ressources en corpus, isotopies et programmes
+  Des articles d’ études sur le traitement automatique de la langue
+  Les pages du site pour des recherches, informations, résumés...


 
 
 
     des textes actualisés    
La base de données de textes actualisés utilisant les flux d’information RSS/Atom

 1.  le texte actualisé

Le flux continu des informations au travers des sites d’actualités renouvelle le contenu du texte tout en conservant sa structure. Les formats RSS/Atom, issus de la toile sémantique et du XML, contiennent les méta-informations de l’information : date, source ou auteur. L'agrégation permet ainsi de constituer de vastes corpus sur un sujet générique.

La base ci-dessous présente :
- un corpus issu d'une accumulation quotidienne d'informations (titre et début de l'article) remontant à trois ans, soit environ un millier de fichiers de quelques centaines d’articles chaque, sur la Corse et découpées en thèmes ;
- une référence thématique de tous les flux alimentant le corpus, aussi bien sur la Corse que sur d'autres sujets, généraux ou spécialisés, essentiellement en français, et en partie en italien, en corse et en anglais. Ces références sont régulièrement mises à jour. En usant de cette base d'adresses de flux, il est envisageable de présenter un corpus traité, sans être passé par l'étape de la constitution en aval et de l'exposition du texte plein, mais seulement de sa récupération, durant la phase de traitement.


 

 2.  une base de textes et de flux

      Corpus sur l’actualité corse des trois dernières années :

Annudatu
http://annudatu.saynete.net/


      Recueil de flux classés par thèmes et par langues :
 
Base

  (pour importer le fichier : cliquez droit => enregistrer la cible du lien sous)
 
  Français
 
Presse généraliste  .xml .csv .txt .htm .opml
∟Monde  .xml .csv .txt .htm .opml
∟Société  .xml .csv .txt .htm .opml
∟Alternatif  .xml .csv .txt .htm .opml
∟Standard  .xml .csv .txt .htm .opml
∟Tribune  .xml .csv .txt .htm .opml
Presse régionale  .xml .csv .txt .htm .opml
Environnement  .xml .csv .txt .htm .opml
∟Vert  .xml .csv .txt .htm .opml
∟Santé  .xml .csv .txt .htm .opml
∟Animaux  .xml .csv .txt .htm .opml
∟Déchet  .xml .csv .txt .htm .opml
∟Énergie  .xml .csv .txt .htm .opml
  ∟Linky  .xml .csv .txt .htm .opml
∟Agriculture  .xml .csv .txt .htm .opml
∟Maritime  .xml .csv .txt .htm .opml
∟Jardin  .xml .csv .txt .htm .opml
∟Développement durable  .xml .csv .txt .htm .opml
∟Météo  .xml .csv .txt .htm .opml
Technologie  .xml .csv .txt .htm .opml
∟Informatique  .xml .csv .txt .htm .opml
   ∟Deux zéro  .xml .csv .txt .htm .opml
   ∟Rétro ordinateur  .xml .csv .txt .htm .opml
   ∟Matériel  .xml .csv .txt .htm .opml
   ∟Presse  .xml .csv .txt .htm .opml
   ∟Offres d’emploi  .xml .csv .txt .htm .opml
   ∟Linux  .xml .csv .txt .htm .opml
   ∟Logiciel libre  .xml .csv .txt .htm .opml
   ∟Logiciel libre et Linux  .xml .csv .txt .htm .opml
   ∟Jeu vidéo  .xml .csv .txt .htm .opml
     ∟eSport  .xml .csv .txt .htm .opml
     ∟Starcraft  .xml .csv .txt .htm .opml
   ∟Ingénierie Linguistique  .xml .csv .txt .htm .opml
   ∟SEO référencement  .xml .csv .txt .htm .opml
   ∟Cybersécurité  .xml .csv .txt .htm .opml
   ∟Data  .xml .csv .txt .htm .opml
   ∟Réseau  .xml .csv .txt .htm .opml
   ∟Intelligence artificielle  .xml .csv .txt .htm .opml
   ∟Programmation  .xml .csv .txt .htm .opml
     ∟Python  .xml .csv .txt .htm .opml
∟Science  .xml .csv .txt .txt .opml
  ∟CNRS  .xml .csv .txt .htm .opml
∟HiTech  .xml .csv .txt .htm .opml
∟Spatial  .xml .csv .txt .txt .opml
Sport  .xml .csv .txt .htm .opml
∟Jeux Olympiques  .xml .csv .txt .htm .opml
∟Fédérations  .xml .csv .txt .htm .opml
∟Football  .xml .csv .txt .htm .opml
∟Athlétisme  .xml .csv .txt .htm .opml
∟Arts martiaux  .xml .csv .txt .htm .opml
   ∟Judo  .xml .csv .txt .htm .opml
   ∟Karaté  .xml .csv .txt .htm .opml
   ∟Boxe  .xml .csv .txt .htm .opml
   ∟Combat libre  .xml .csv .txt .htm .opml
∟Auto Moto  .xml .csv .txt .htm .opml
∟Raid  .xml .csv .txt .htm .opml
∟Basket  .xml .csv .txt .htm .opml
∟Cyclisme  .xml .csv .txt .htm .opml
∟Handball  .xml .csv .txt .htm .opml
∟Équitation  .xml .csv .txt .htm .opml
∟Gymnastique  .xml .csv .txt .htm .opml
∟Glace et sports d'hiver  .xml .csv .txt .htm .opml
∟Natation  .xml .csv .txt .htm .opml
∟Rugby  .xml .csv .txt .htm .opml
∟Tennis  .xml .csv .txt .htm .opml
∟Voile  .xml .csv .txt .htm .opml
∟Volley  .xml .csv .txt .htm .opml
Cité  .xml .csv .txt .htm .opml
∟Droit  .xml .csv .txt .htm .opml
∟Justice  .xml .csv .txt .htm .opml
∟Communes  .xml .csv .txt .htm .opml
∟Militaire  .xml .csv .txt .htm .opml
∟Spiritualité  .xml .csv .txt .htm .opml
  ∟Franc-maçonnerie  .xml .csv .txt .htm .opml
  ∟Religion  .xml .csv .txt .htm .opml
∟Ministère  .xml .csv .txt .htm .opml
∟Collectivités  .xml .csv .txt .htm .opml
∟Administration  .xml .csv .txt .htm .opml
∟Institution  .xml .csv .txt .htm .opml
∟Enseignement  .xml .csv .txt .htm .opml
∟Handicap  .xml .csv .txt .htm .opml
∟Média  .xml .csv .txt .htm .opml
∟Caritatif  .xml .csv .txt .htm .opml
Politique  .xml .csv .txt .htm .opml
∟Parti  .xml .csv .txt .htm .opml
∟Personnalité  .xml .csv .txt .htm .opml
∟Syndicat  .xml .csv .txt .htm .opml
∟Presse  .xml .csv .txt .htm .opml
∟Géopolitique  .xml .csv .txt .htm .opml
Économie  .xml .csv .txt .htm .opml
∟Emploi  .xml .csv .txt .htm .opml
 ∟Travail  .xml .csv .txt .htm .opml
∟Tourisme  .xml .csv .txt .htm .opml
∟eMonnaie  .xml .csv .txt .htm .opml
∟eCommerce  .xml .csv .txt .htm .opml
∟Immobilier  .xml .csv .txt .htm .opml
∟Banque  .xml .csv .txt .htm .opml
∟Bourse  .xml .csv .txt .htm .opml
∟Transport  .xml .csv .txt .htm .opml
   ∟Aviation  .xml .csv .txt .htm .opml
∟Investissement  .xml .csv .txt .htm .opml
∟Automobile  .xml .csv .txt .htm .opml
∟Auto-entrepreneur  .xml .csv .txt .htm .opml
∟Entreprise  .xml .csv .txt .htm .opml
∟Consommation  .xml .csv .txt .htm .opml
Culture  .xml .csv .txt .htm .opml
∟Musique  .xml .csv .txt .htm .opml
∟Arts  .xml .csv .txt .htm .opml
   ∟Photo  .xml .csv .txt .htm .opml
   ∟Peinture  .xml .csv .txt .htm .opml
∟Geek  .xml .csv .txt .htm .opml
∟Bande-dessinée  .xml .csv .txt .htm .opml
∟Histoire  .xml .csv .txt .htm .opml
∟Patrimoine  .xml .csv .txt .htm .opml
∟Littérature  .xml .csv .txt .htm .opml
∟Cinéma  .xml .csv .txt .htm .opml
∟Télévision  .xml .csv .txt .htm .opml
∟Humour  .xml .csv .txt .htm .opml
∟Agenda  .xml .csv .txt .htm .opml
∟Cuisine  .xml .csv .txt .htm .opml
∟Gastronomie  .xml .csv .txt .htm .opml
∟Viniculture  .xml .csv .txt .htm .opml
∟Mode  .xml .csv .txt .htm .opml
∟People  .xml .csv .txt .htm .opml
∟Voyage  .xml .csv .txt .htm .opml
∟Quotidien  .xml .csv .txt .htm .opml
Éducation  .xml .csv .txt .htm .opml
Sciences sociales  .xml .csv .txt .htm .opml
Féminin  .xml .csv .txt .htm .opml
Famille  .xml .csv .txt .htm .opml
Jeunesse  .xml .csv .txt .htm .opml
∟Comics  .xml .csv .txt .htm .opml
   ∟Dessin  .xml .csv .txt .htm .opml
∟Manga  .xml .csv .txt .htm .opml
∟Ludique  .xml .csv .txt .htm .opml
   ∟Échecs  .xml .csv .txt .htm .opml
   ∟Jeu de rôle  .xml .csv .txt .htm .opml
   ∟Jeu de guerre  .xml .csv .txt .htm .opml
   ∟Playmobil  .xml .csv .txt .htm .opml
   ∟Magic  .xml .csv .txt .htm .opml

  Plateforme
 
Social  .xml .csv .txt .htm .opml
∟Mastodon  .xml .csv .txt .htm .opml
∟Bluesky  .xml .csv .txt .htm .opml
∟Facebook  .xml .csv .txt .htm .opml
Communauté  .xml .csv .txt .htm .opml
∟Reddit  .xml .csv .txt .htm .opml
Vidéo  .xml .csv .txt .htm .opml
∟YouTube  .xml .csv .txt .htm .opml
∟DailyMotion  .xml .csv .txt .htm .opml
∟Vimeo  .xml .csv .txt .htm .opml
∟Twitch  .xml .csv .txt .htm .opml
∟PeerTube  .xml .csv .txt .htm .opml
Blog  .xml .csv .txt .htm .opml
∟WordPress  .xml .csv .txt .htm .opml
∟Blogger  .xml .csv .txt .htm .opml
∟OverBlog  .xml .csv .txt .htm .opml
∟deviantArt  .xml .csv .txt .htm .opml
Podcast  .xml .csv .txt .htm .opml
∟Radio France  .xml .csv .txt .htm .opml
∟France Musique  .xml .csv .txt .htm .opml
∟France Culture  .xml .csv .txt .htm .opml
∟France Inter  .xml .csv .txt .htm .opml
∟France Bleu  .xml .csv .txt .htm .opml
∟France Info  .xml .csv .txt .htm .opml
∟Radio Classique  .xml .csv .txt .htm .opml
∟Radio Nova  .xml .csv .txt .htm .opml
∟BFM  .xml .csv .txt .htm .opml
∟RMC  .xml .csv .txt .htm .opml
∟Ausha  .xml .csv .txt .htm .opml
∟Audiomeans  .xml .csv .txt .htm .opml
Syndication 
∟Morss.it  .xml .csv .txt .htm .opml
∟RSS-Bridge  .xml .csv .txt .htm .opml
∟Fetch RSS  .xml .csv .txt .htm .opml
∟FiveFilters  .xml .csv .txt .htm .opml
Curation  .xml .csv .txt .htm .opml
∟Scoop It  .xml .csv .txt .htm .opml
∟Flipboard  .xml .csv .txt .htm .opml
Agrégation  .xml .csv .txt .htm .opml
∟Google  .xml .csv .txt .htm .opml
∟Bing  .xml .csv .txt .htm .opml

  Agrégé
 
Agrégé compilé  .xml .csv .txt .htm .opml
Presse  .xml .csv .txt .htm .opml
Informatique  .xml .csv .txt .htm .opml
Politique  .xml .csv .txt .htm .opml
Sport  .xml .csv .txt .htm .opml
Bretagne  .xml .csv .txt .htm .opml
Corse  .xml .csv .txt .htm .opml
Littérature  .xml .csv .txt .htm .opml
Comics  .xml .csv .txt .htm .opml
Institution  .xml .csv .txt .htm .opml
Sécurité  .xml .csv .txt .htm .opml
Musique  .xml .csv .txt .htm .opml

  Dédié
 
Presse
∟BFM  .xml .csv .txt .htm .opml
∟Courrier international  .xml .csv .txt .htm .opml
∟France Info  .xml .csv .txt .htm .opml
∟LeParisien  .xml .csv .txt .htm .opml
∟Le Figaro  .xml .csv .txt .htm .opml
∟LeMonde  .xml .csv .txt .htm .opml
∟Le Monde Diplomatique  .xml .csv .txt .htm .opml
∟L’Express  .xml .csv .txt .htm .opml
∟Ouest-France  .xml .csv .txt .htm .opml
∟Europe 1  .xml .csv .txt .htm .opml
∟France 3  .xml .csv .txt .htm .opml
∟20 minutes France  .xml .csv .txt .htm .opml
∟20 minutes Suisse  .xml .csv .txt .htm .opml
∟France 24  .xml .csv .txt .htm .opml
∟Le Progrès  .xml .csv .txt .htm .opml
∟LaPresse  .xml .csv .txt .htm .opml
∟AFP  .xml .csv .txt .htm .opml
∟7 sur 7  .xml .csv .txt .htm .opml
∟SPIIL - Syndicat de la Presse Indépendante .xml .csv .txt .htm .opml
∟Libération .xml .csv .txt .htm .opml
∟France Bleu .xml .csv .txt .htm .opml
∟Le Temps  .xml .csv .txt .htm .opml
∟Dernières Nouvelles d’Alsace  .xml .csv .txt .htm .opml
∟L’Humanité  .xml .csv .txt .htm .opml
∟Euronews  .xml .csv .txt .htm .opml
∟La Croix  .xml .csv .txt .htm .opml
∟Le journal de Saône-et-Loire  .xml .csv .txt .htm .opml
∟Le Point  .xml .csv .txt .htm .opml
∟Le NouvelObs  .xml .csv .txt .htm .opml
∟Midi Libre  .xml .csv .txt .htm .opml
∟Nice-Matin  .xml .csv .txt .htm .opml
∟RFI  .xml .csv .txt .htm .opml
∟RMC .xml .csv .txt .htm .opml
∟RTBF  .xml .csv .txt .htm .opml
∟Sud Ouest  .xml .csv .txt .htm .opml
Économie
∟Challenges  .xml .csv .txt .htm .opml
∟L’AGEFI  .xml .csv .txt .htm .opml
∟Coin tribune  .xml .csv .txt .htm .opml
Cité
∟Nations Unies  .xml .csv .txt .htm .opml
Informatique
∟Développez  .xml .csv .txt .htm .opml
∟LeMondeInformatique  .xml .csv .txt .htm .opml
∟01net  .xml .csv .txt .htm .opml
∟Journal du net  .xml .csv .txt .htm .opml
∟Presse Citron  .xml .csv .txt .htm .opml
∟Silicon  .xml .csv .txt .htm .opml
∟Numerama  .xml .csv .txt .htm .opml
Sport
∟L’Équipe  .xml .csv .txt .htm .opml
∟SportMag  .xml .csv .txt .htm .opml
∟RMC Sport  .xml .csv .txt .htm .opml
∟EuroSport  .xml .csv .txt .htm .opml

  Région
 
Auvergne-Rhône-Alpes  .xml .csv .txt .htm .opml
Bourgogne-Franche-Comté  .xml .csv .txt .htm .opml
Bretagne  .xml .csv .txt .htm .opml
∟Culture  .xml .csv .txt .htm .opml
∟Presse  .xml .csv .txt .htm .opml
Centre-Val de Loire  .xml .csv .txt .htm .opml
Corse  .xml .csv .txt .htm .opml
∟Presse  .xml .csv .txt .htm .opml
∟Environnement  .xml .csv .txt .htm .opml
∟Culture  .xml .csv .txt .htm .opml
  ∟Musique  .xml .csv .txt .htm .opml
∟Technologie  .xml .csv .txt .htm .opml
∟Sport  .xml .csv .txt .htm .opml
∟Football  .xml .csv .txt .htm .opml
∟Cité  .xml .csv .txt .htm .opml
  ∟Communes  .xml .csv .txt .htm .opml
∟Politique  .xml .csv .txt .htm .opml
∟Économie  .xml .csv .txt .htm .opml
∟Emploi  .xml .csv .txt .htm .opml
∟Tourisme  .xml .csv .txt .htm .opml
∟Bluesky  .xml .csv .txt .htm .opml
∟Nustrale (langue corse)  .xml .csv .txt .htm .opml
Grand Est  .xml .csv .txt .htm .opml
Hauts-de-France  .xml .csv .txt .htm .opml
Île-de-France  .xml .csv .txt .htm .opml
Normandie  .xml .csv .txt .htm .opml
Nouvelle-Aquitaine  .xml .csv .txt .htm .opml
Pays de la Loire  .xml .csv .txt .htm .opml
Provence-Alpes-Côte d’Azur  .xml .csv .txt .htm .opml
Occitanie  .xml .csv .txt .htm .opml
Outre-Mer  .xml .csv .txt .htm .opml
∟Antilles  .xml .csv .txt .htm .opml
∟Martinique  .xml .csv .txt .htm .opml
∟Guadeloupe  .xml .csv .txt .htm .opml

  Ville
 
Lille  .xml .csv .txt .htm .opml
Marseille  .xml .csv .txt .htm .opml
Nantes  .xml .csv .txt .htm .opml
Rennes  .xml .csv .txt .htm .opml
Paris  .xml .csv .txt .htm .opml

  Pays
 
Allemagne  .xml .csv .txt .htm .opml
Belgique  .xml .csv .txt .htm .opml
Canada  .xml .csv .txt .htm .opml
Chine  .xml .csv .txt .htm .opml
Espagne  .xml .csv .txt .htm .opml
États-Unis  .xml .csv .txt .htm .opml
Israël  .xml .csv .txt .htm .opml
Italie  .xml .csv .txt .htm .opml
Japon  .xml .csv .txt .htm .opml
Palestine  .xml .csv .txt .htm .opml
Royaume-Uni  .xml .csv .txt .htm .opml
Sénégal  .xml .csv .txt .htm .opml
Suisse  .xml .csv .txt .htm .opml
Turquie  .xml .csv .txt .htm .opml
Ukraine  .xml .csv .txt .htm .opml

  Continent
 
Afrique  .xml .csv .txt .htm .opml
Amérique  .xml .csv .txt .htm .opml
Asie  .xml .csv .txt .htm .opml
Europe (entité)  .xml .csv .txt .htm .opml
Europe (pays)  .xml .csv .txt .htm .opml
Maghreb  .xml .csv .txt .htm .opml
Moyen-Orient  .xml .csv .txt .htm .opml

  Anglais
 
Langue anglaise :
English  .xml .csv .txt .htm .opml
∟Press  .xml .csv .txt .htm .opml
  ∟World  .xml .csv .txt .htm .opml
∟Economy  .xml .csv .txt .htm .opml
∟Politics  .xml .csv .txt .htm .opml
∟Sport  .xml .csv .txt .htm .opml
  ∟Martial arts  .xml .csv .txt .htm .opml
∟Culture  .xml .csv .txt .htm .opml
  ∟Movie  .xml .csv .txt .htm .opml
  ∟DemoScene  .xml .csv .txt .htm .opml
  ∟Chess  .xml .csv .txt .htm .opml
  ∟Magic  .xml .csv .txt .htm .opml
  ∟Comics  .xml .csv .txt .htm .opml
    ∟Artist  .xml .csv .txt .htm .opml
    ∟Gallery  .xml .csv .txt .htm .opml
∟Technology  .xml .csv .txt .htm .opml
  ∟Computer  .xml .csv .txt .htm .opml
    ∟Coding  .xml .csv .txt .htm .opml
      ∟Python  .xml .csv .txt .htm .opml
  ∟Science  .xml .csv .txt .htm .opml
    ∟Retro  .xml .csv .txt .htm .opml
    ∟Atari  .xml .csv .txt .htm .opml
    ∟Starcraft  .xml .csv .txt .htm .opml

  Place
 
France  .xml .csv .txt .htm .opml
United States  .xml .csv .txt .htm .opml
Ukraine  .xml .csv .txt .htm .opml
Europe  .xml .csv .txt .htm .opml

  Aggregated
 
Press  .xml .csv .txt .htm .opml
Computer  .xml .csv .txt .htm .opml
Superheroes  .xml .csv .txt .htm .opml
Photo  .xml .csv .txt .htm .opml
Chess  .xml .csv .txt .htm .opml

  Dedicated
 
Press
  ∟Reuters  .xml .csv .txt .htm .opml
  ∟The Guardian  .xml .csv .txt .htm .opml
  ∟CNN  .xml .csv .txt .htm .opml
  ∟The Washington Post  .xml .csv .txt .htm .opml
  ∟Forbes  .xml .csv .txt .htm .opml
  ∟FOXNews  .xml .csv .txt .htm .opml
  ∟BBC  .xml .csv .txt .htm .opml
Economy
  ∟Coin Tribune  .xml .csv .txt .htm .opml
Culture
  ∟Spider-Man  .xml .csv .txt .htm .opml
Platform
  ∟Mastodon  .xml .csv .txt .htm .opml
  ∟Bluesky  .xml .csv .txt .htm .opml

  Italien
 
Langue italienne :
Italiano  .xml .csv .txt .htm .opml

 2.  les principaux sites d’actualité

À partir des chiffres de l'OJD (Association pour le contrôle de la difusion des médias), sur la diffusion des magazines et journaux en France, l'on peut établir des listes fermées sur des critères comme la périodicité de parution, ou bien plus ouvertes comme la fréquentation des sites par les internautes : OJD.


     La page d’accueil
     Le sommaire des pages


       Site       motte 0.5  
       Imprimer  
     Rédaction / Publication : 05.10.2012     Révision : 10.07.2013 / 28.05.2015
      http://cadrat.saynete.net2003 - 2025