
Streamavenue est un moteur de recherche dédié au streaming, films, séries TV, mangas, VOD
Afin de réduire le temps de réponse il fonctionne en cluster, c'est à dire sur plusieurs machines différentes.
Il est composé d'un frontal web, d'un moteur de recherche et de robots d'indexations
Une ou plusieurs machines qui fournissent l'interface du site et mettent en cache les recherches déjà effectuées
Une ou plusieurs machines qui interrogent les bases de données de sites indexés
Les pages indexées apparaissent 24h après avoir été indexées
Robots d'indexation : C/Shell
User-Agent : BZCBot 0.1
Ils respectent la norme robots.txt
Ils parcourent les sites pour en indexer ils les parcourent en moyenne tous les 2 jours
A partir d'une liste de site web que je vérifie, les crawlers vont faire un indexation full text
Par la suite, certaines urls sont supprimées à la main
Par défaut les pages de forum et de fiche membres, en autre, ne sont pas indexées.
Globalement, j'essaie de filtrer les URLs sans contenu quand c'est possible
Moteur écrit en C pour maximiser les performances
~700.000 urls indexées
~100 sites (100% fr)
recherche uniquement sur un site donné
mise en cache de pages au cas ou le site indexé ne répond pas
correction d'orthographe
mise en cache des recherches : si la recherche a déjà été effectuée durant les dernières 24h elle est instantanée
ajout au favoris, facebook etc...
recherche booléenne : et, ou, non, recherche exacte
Il est possible d'utiliser des opérateurs booléens
streaming & film
Toutes les pages contenant le mot streaming et le mot film
streaming | film
Toutes les pages contenant le mot streaming ou le mot film
streaming ~film
Toutes les pages contenant le mot streaming mais pas le mot film
"streaming film"
Toutes les pages contenant la phrase streaming film
un bouton pour dire que l'URL n'est pas pertinente
derniéres recherches
amélioration de l'algo de ranking
suggestion de recherche en temps réel
api XML
widget pour mettre le moteur sur son propre site
barre de recherche pour Firefox
mémorisation de recherches et notification par email