Sommaire:
Retour à la page d'entrée > Informatique > Astuces

m.a.j. : 02/2016

Moteurs de recherche alternatifs
Pour remplacer les moteurs les plus courants (Google, Bing, Yahoo,...).
http://fr.wikipedia.org/wiki/Liste_de_moteurs_de_recherche

Voici quelques liens intéressants à propos des moteurs de recherche et leur interdépendance:
http://www.philb.com/searchwithoutgoogle.htm  qui donne une liste impressionnante de moteurs classés par catégories
http://www.search-this.com/search-engine-decoder-files/search-engine-decoder.swf  qui montre les inter-dépendances des divers moteurs => très instructif
http://philbradley.typepad.com/phil_bradleys_weblog/search_engines/index.html  un blog consacré aux moteurs de recherche


DuckDuckGo : http://fr.wikipedia.org/wiki/DuckDuckGo

Qwant : http://fr.wikipedia.org/wiki/Qwant


Essai de quelques moteurs de recherche
Cette page est destinée à l'expérimentation de diverses solutions d'indexation et de recherche dans le contenu de ce site.
Les solutions que je trouve les plus intéressantes gagnent le droit de figurer en page d'entrée du site.

Liens pour se documenter:
http://cgi.resourceindex.com/Remotely_Hosted/Searching_Your_Web_Site/
http://www.webhostdir.com/news/articles/shownews.asp?id=18261
http://dspace.inflibnet.ac.in/bitstream/1944/21/1/pdf_21.pdf , et puisque le lien ne marche plus, sa copie locale.
http://www.journaldunet.com/solutions/0411/041105_panorama_moteurs.shtml

ht://dig (htdig): gratuit, s'installe normalement en local sous Linux, mais aussi sous Windows via cygwin (voir ici). Voir la FAQ pour l'indexation de documents autres que le html et le texte. Voir aussi http://didier.quartier-rural.org/elucu/htdig-vf/lisezmoi.html et un tuto sur http://www.quesaco.org/astuces/astuce-htdig.php

A essayer: Sikbox, présenté par Korben


Indexation de ce site et recherche avec FreeFind (les PDF ne sont pas indexés):
Search this site powered by FreeFind
Comme son nom ne l’indique pas, la version débridée est payante. La version gratuite (actuellement celle utilisée ici) est néanmoins intéressante. Comme elle n’indexe qu’un volume limité de documents (32Mo apparemment), je dois exclure de l’indexation certains documents (les PDF principalement). FreeFind indexe les documents html, texte, PDF, Word, Excel, Powerpoint, RTF, OpenOffice. On peut finement régler les paramètres d'indexation.
Noter que ce moteur construit et affiche une table donnant la structure du site (site map), un index alphabétique des mots trouvés dans le site, et possède un moteur de recherche avancé.

Indexation de ce site et recherche avec WebSideStory Express Search (les PDF ne sont pas indexés):



Google: vous risquez de ne pas trouver les dernières modifications, car Google n'indexe qu'épisodiquement ce site. Inversement, vous risquez de trouver des documents qui n'existent plus ou qui ont été déplacés depuis la précédente indexation par Google. Par contre, les PDF, DOC, XLS, etc... sont indexés.
Vous pouvez chercher dans Google "site:tayeb.fr" (sans les guillemets) suivi des mots que vous recherchez.

Ou bien utilisez la boite de recherche ci-dessous, tirée du service Google Adsense:
Google
Web gerard.tayeb.free.fr


Google Custom Search Engine (CSE) ne semble pas fonctionner convenablement.
Rechercher par exemple Thunderbird sur mes pages avec ce moteur => 1 seul résultat, alors qu'il y en a bien plus.



Recherche d'images par similarité
Sur le web (TinEye et autres moteurs de recherche)
Pour se documenter:
http://en.wikipedia.org/wiki/CBIR
http://en.wikipedia.org/wiki/List_of_CBIR_Engines
http://www.google.fr/search?q=reverse+images+search
http://www.searchenginejournal.com/a-look-into-reverse-image-search-tools/14666/ : compares TinEye, Byo, Gazopa.

http://korben.info/rechercher-avec-des-images.html : le moteur de recherches d'images par similarité de Google existe maintenant sous forme de plugin pour Chrome et Firefox

TinEye est un moteur de recherche d'images
"inversé", qui vous permet de savoir sur quel site figure une image donnée ou ses variantes.
On peut indiquer l'image de référence soit depuis son ordinateur, soit depuis une URL.
Permet aussi de voir si une image que vous avez publiée a été copiée...
Existe en extension de Firefox.
Essayez par exemple avec
    http://tayeb.fr/wordpress/wp-content/uploads/meunier_nictea_2.jpg
    http://tayeb.fr/wordpress/wp-content/uploads/red_bull_air_race_san_diego_2009__8s.jpg
    http://lh5.ggpht.com/_hw_gLogQolQ/THp3gGIuezI/AAAAAAAAHPg/m4dsY7spsco/s1024/DSCN5555.JPG  (jeunes punaises vertes
Nezara viridula)
Malheureusement, la base de données des pages indexées est loin de couvrir tout le web, et plusieurs recherches sur des images figurant pourtant dans mes pages n'ont rien donné.

GazoPa : beaucoup plus lâche que TinEye sur la concordance des images, donne donc beaucoup plus de résultats, mais moins pertinents.

BYO : recherche encore plus lâche, basée sur les couleurs.


Pixolu : cherche sur Flickr. Dans grand intérêt.

Bing permet, à partir d'une recherche par mot clef (et pas à partir d'une image), de cerner des images similaires. Laisser trainer la souris sur une des images obtenues, puis "Images similaires".


Sur le web (avec Google Images)
Voir les pages de blog.aube-nature.com :
http://blog.aube-nature.com/retrouver-ses-photos-volees/
http://vimeo.com/33538900
Ou plus rapidement, cliquer sur ce lien, et indiquer l'image que l'on recherche, soit par son URL, soit en donnant un fichier, une capture d'écran, etc..., que l'on peut directement faire glisser sur la fenêtre de Google Images.


Recherche d'images similaires en local
Pour rechercher les images similaires dans votre ordinateur:
Awesome Duplicate Photo Finder (duplicate-finder.com)


Recherche de plagiat (duplicate content)
http://www.korben.info/trouver-duplicate-content.html
Unique Content Verifier (UN.CO.VER): https://www.google.fr/search?q=+Unique+Content+Verifier 
http://korben.info/trouver-duplicate-content-2.html
https://www.google.fr/search?q=check+duplicate+content
http://www.rankeo.fr/27-controler-le-duplicate-content-les-5-meilleurs-outils.html
http://www.positeo.com/check-duplicate-content/


Recherches sur eBay
Voir cet exemple très instructif http://tinyurl.com/m2ec8o et observer le champ de recherche eBay:
(whitworth,bsw) 1/4 -(tap*,die*,spanner,helicoil,wrench*,socket*,nut*,pin*)
où on cherche des bidules whitworth ou bsw, 1/4, mais pas de tap*,die*, etc...