moteurs de recherche, comme Google ou Yahoo! , tirez pages Web dans les résultats de recherche en utilisant les robots collecteurs de Web ( parfois aussi appelé araignées ou robots ) , qui sont des programmes qui scannent les sites Internet et d'index dans une base de données . Bots Web peuvent être faites en utilisant la plupart des langages de programmation, dont C , Perl , Python et PHP , qui permettent aux ingénieurs de logiciels d'écrire des scripts qui exécutent des tâches procédurales, telles que l'analyse Web et de l'indexation . Instructions 1 Ouvrez un texte demande plaine d'édition, tel que Notepad , qui est fourni avec Microsoft Windows ou TextEdit de Mac OS X , où vous voulez auteur d'une application Web Bot Python. < Br > 2 Lancer le script Python en incluant les lignes de code suivantes , et en remplaçant l'exemple URL par l'URL du site que vous souhaitez numériser et le nom de la base de données exemple avec la base de données qui sera stocker les résultats : import urllib2 , ré, stringenter_point = ' http://www.exampleurl.com ' database = ' example.sql ' 3 inclure les lignes suivantes de code à définir la séquence d'opérations que le bot Web suivra : def uniq (SEQ ): set = {} carte ( set.__setitem__ , SEQ , []) set.keys de retour () < br > 4 obtenir le URL dans la structure du site en utilisant les lignes de code suivantes: def geturls (URL): items = [] = demande urllib2.Request (url) request.add.header ( 'User' ), contenu » Bot_name ;) '= urllib2.urlopen ( demande) . read () = articles re.findall ( ' href = " http://. ? "', contenu) urls = [] retour urls 5 Définir la base de données que le bot Web utilisera et précise quelles informations il doit stocker pour compléter rendre le Web Bot : db = open ( database , 'a') allurls = uniq ( geturls ( enter_point ) ) 6 Enregistrez le document texte et de le transférer vers un serveur ou un ordinateur avec une connexion Internet où vous pouvez exécuter le script et commencer numérisation de pages Web .
|