Meta-Press.es

Moteur de recherche décentralisé & revue de presse automatisée

Version 1.8.11 : 900 sources, types de résultat évènement et emploi, #fixtheworld

Plus de 185 commits ont été poussés depuis la précédent version, un joli saut en avant rendu possible par 3 valeureux stagiaires ayant ajouté 250 sources à Meta-Press.es en 3 semaines:

  • Jérôme Bertin

  • Céline Duguet

  • Vincent Gay

Ça m’a fait pas mal de travail de relecture, et en comptant mais autres additions on en arrive à 930 sources dans cette nouvelle version de Meta-Press.es (soit une croissance de +50% de la base de sources).

1. Maintenance des sources

Et non des moindres, parmi les sources ajoutées il y a tous les membres compatibles du SPIIL le Syndicat de la Presse Indépendante d’Information en Ligne, soit 132 sources indépendantes francophones pour un total de 373 sources dans la catégorie indé..

Les journaux de référence (Presse de Référence) sont désormais au nombre de 89 (et 40 pourrait encore s’ajouter prochainement vu que la page Wikipedia correspondante a été enrichie).

Ensuite on compte 386 sources fournissant leurs résultats sous la forme de flux RSS, principalement parce que c’est le comportement par défaut dans WordPress et que bon nombre de journaux en ligne utilisent ce moteur. Ce serait chouette si la vingtaine de sources utilisant SPIP pouvaient en faire de même !

Beaucoup d’illustrations de résultats ont été retrouvées parmi ces sources RSS, grâce à une astuce simple d’exploration du contenu par expression rationnelle. C’est une fin heureuse pour un élément resté plusieurs années dans ma liste de choses à faire.

Enfin, la règle filter_results s’applique désormais sur 79 sources, principalement parmi ces sources RSS (et ce nombre grandira encore avec la prochaine version). Cette règle permet d’assurer d’aucun résultat approximatif voire franchement hors sujet n’importune l’utilisateur. Toutefois, à côté de cette quête de vérité, un réglage viendra prochainement permettre de désactiver ces filtres justement pour s’intéresser aux résultats voisins des termes saisis (ce qui peut être utile quand on cherche la bonne orthographe d’un mot par exemple).

1.1. Nouveaux types de résultats : évènement et emploi

Le type de résultat évènement s’ajoute aux texte, image, vidéo et audio existants. Il aidera à chercher parmi les 49 agendas en ligne référencés dans Meta-Press.es.

Et, vraie nouveauté, le type de résultats emploi fait son apparition, avec 3 moteurs de recherche d’offre d’emploi intégrés à Meta-Press.es pour l’instant. L’actualité d’une offre d’emploi est un critère prépondérant lors d’une recherche et Meta-Press.es peut déjà rendre de bon services dans le domaine.

Ce n’est pas tous les ans que de nouveaux types de résultats sont ajoutés à Meta-Press.es alors c’est la fête.

2. Évolution dans la définition des sources

2.1. token_url

Une entrée token_url fait son apparition pour aider à la définition de certaines sources, elle permet de signaler une URL à charger avant chaque recherche. Cela permet aujourd’hui en pratique de choisir dans quelle langue s’effectuera la recherche, car certaines sources rangent cette information dans un cookie (qu’il faut donc mettre en place avant la recherche). Cela devrait également permettre de récupérer un jeton en amont d’une recherche pour le fournir lors de la recherche mais le cas ne s’est pas encore présenté.

2.2. date_locale

Une valeur spéciale est désormais reconnue pour le champs date_locale et c’est browser.

Elle signifie que les dates de cette sources sont affichées dans la langue du navigateur de l’utilisateur (et non pas dans la langue du journal par exemple).

C’est notamment le Corriere della Sera qui agit comme ça.

3. Bug dans la pagination de la liste des sources

Dans la grande liste des sources, vous pouvez choisir quelles sources interroger pour votre prochaine recherche, et ce, une par une. Toutefois, un bug remettait la pagination à zéro à chaque sélection, rendant la sélection des sources hors première page particulièrement pénible. Dans cette nouvelle version de Meta-Press.es, vous sélectionner à tout va sans changer de page.

4. Anecdotes

J’ai remarqué que la version esperanto du Monde Diplomatique sert désormais ses dates en esperanto, bravo à l’équipe de développement du site.

Moins simple à trouver, El Watan (famaux journal algérien) a carrément changé de nom de domaine, après 30 ans d’existence ! Cela crée beaucoup d’erreur 404 dans le monde… et le site est désormais accessible via : elwatan-dz.com.

Nous avons été surpi, avec les stagiaires, de constater que Mediabask, qui produit d’excellents articles dans plusieurs langues (fr, en, eus), ne permet pas de choisir dans quelle langue on effectue ses recherches ! Des résultats des trois langues arrivent à chaque fois…

Mention spéciale pour l’Otago Daily Times, dont le domaine ressemble plus à un bug dans un nom de fichier LibreOffice qu’au nom d’un prestigieux journal neo-zelandais : www.odt.co.nz.

Pour finir, El Paìs (organe de Presse de Référence espagnol) est capable de vous trouver des résultats pour :

  • bbbb (mais c’est une 404)

  • cccc (404 aussi)

  • ffff (et ça existe vraiment !)

  • vvvv (et ça existe)

  • xxxx (et ça existe)

  • zzzz (et ça existe…)

Toutes ces anecdotes ont d’abord été postées sur Mastodon et vous pouvez les retrouver via le mot-dièse : #metapress.

4.1. Hacker La Charente Libre pour ces dates

La Charente Libre, journal régional important localement, ne présente pas de date sur ces résultats de recherche et rien (dans l’interface web) ne laisse présager que les résultats soient triable par ordre chronologique.

Toutefois, s’il vous prend l’envie d’ajouter l’argument &sort=date à la fin de l’adresse de votre page de recherche et de recharger la page, c’est magique, les résultats sont triés et des dates apparaissent sur la page !

La Charente Libre semble utiliser une application web maison pour publier son journal, mais cette astuce peut sûrement s’appliquer à d’autres journaux en ligne parmi ceux listés ici.

N’hésitez pas à me faire part de vos trouvaille s’il vous prends l’envie d’essayer !

5. Fix the world

Vous retrouverez aussi des dizaines d’opportunités d’aider Meta-Press.es sans savoir programmer, mais juste en contactant les sources mentionnées pour leur demander de réparer leurs problèmes. Par exemple :

Vous pouvez retrouver toute la liste ici : #fixtheworld