Connaissances Informatiques >> programmation >> Programmation Python >> Content
  Derniers articles
  • Comment mesurer le temps en Python 
  • Comment faire pour intégrer EXE en …
  • Comment faire de script exécutable …
  • Comment calculer la moyenne des somm…
  • Comment utiliser les fichiers d'en-t…
  • Python charge Fonctions 
  • Comment obtenir la taille d'un fichi…
  • Comment afficher Matrices Python Fac…
  • Qu'est-ce que Python 2.6 et PyWin 
  • Quels sont les programmes utiliser P…
  •   Programmation Python
  • C /C + + Programming

  • Computer Programming Languages

  • Delphi Programming

  • Programmation Java

  • Programmation JavaScript

  • PHP /MySQL Programmation

  • programmation Perl

  • Programmation Python

  • Ruby Programming

  • Visual Basics programmation
  •  
    Programmation Python

    Comment utiliser html5lib en Python

    Le langage de programmation Python peut supporter 5 sites Web HTML à l'aide de la bibliothèque ' html5lib . Cette bibliothèque vous permet d'écrire des scripts Python qui analysent HTML 5 pages en utilisant une structure arborescente . Structures d'arbres sont des vues hiérarchiques des éléments de la page web. Accès aux éléments de la page Web s'effectue à l'aide d'une marchette arbre. L'arbre marcheur "avance " sur les connexions des nœuds de l'arbre , et peut parcourir toute l'arborescence . Vous pouvez utiliser Python avec ' html5lib ' pour ouvrir , afficher et imprimer un site web HTML 5. Choses que vous devez
    Python 3.2 langage de programmation avec le module html5lib
    Afficher plus Instructions
    1

    Ouvrez l'éditeur de texte IDLE dans Program Files (ou des applications pour Macintosh) dans la répertoire Python. Un fichier de code source vide s'ouvre
    2

    Importer le module « html5lib " par écrit les instructions suivantes au début du fichier de code source : .

    Importation html5lib

    à partir de treebuilders d'importation html5lib , treewalkers , sérialiseur

    import urllib2
    3

    Créer un nouveau parser HTML 5 , qui vous allez utiliser pour lire un site HTML. Déclarer un nouvel analyseur en écrivant ce qui suit:

    parser = html5lib.HTMLParser ()
    4

    Ouvrez un site Web en passant son nom dans la fonction urllib2.urlopen . Par exemple, si vous voulez ouvrir " www.website_adddress.com ", écrivent ce qui suit: .

    URL = urllib2.urlopen ( " http://www.website_address.com " ) read () < br >
    5

    Passez le site dans le HTML 5 analyseur pour recevoir une représentation arborescente . Sauvegarder cette représentation dans une variable appelée " arbre " par écrit la déclaration suivante:
    arbre

    = parser.parse (URL)
    6

    Créer un marcheur arbre comme ceci:

    TreeWalker = treewalkers.getTreeWalker (« dom »)
    7

    Promenade à travers l'arbre en utilisant le marcheur arbre. L'arbre promeneur retournera un flux d'informations qu'il découvre dans le 5 site HTML. Pour marcher à travers l'arbre, écrire ce qui suit: flux de


    = TreeWalker (arbre)
    8

    Sérialisez le flux de sorte que vous pouvez facilement sortir sur la console. Vous pouvez sérialiser le flux en utilisant les deux déclarations suivantes :

    série = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False ) Sortie


    = serial.serialize (stream)
    9

    itération sur la sortie sérialisée du flux comme ceci:

    pour l'élément en sortie :
    10

    retrait de la ligne immédiatement après la déclaration précédente et écrire une fonction d'impression , comme ceci:

    impression ( élément )
    11

    exécuter le programme en appuyant sur F5. Le script va ouvrir et ensuite analyser une page web HTML 5. Le script sérialise ensuite l'arborescence de la page et sort sur la console. La sortie varie en fonction de la page Web sélectionnée , mais elle peut ressembler à ceci :





    Bienvenue à une page web !

    Photos




     
    Article précédent:
    Article suivant:
    Articles recommandés
  • Comment emballer scripts Python 
  • Comment exporter une suite de tests Python en Sélénium 
  • Comparaisons insensible à la casse en Python 
  • Comment copier les octets dans Python 
  • Rendre des fichiers Python compilés 
  • Comment configurer Python avec bzip2 
  • Comment faire pour importer une classe Python partir d'un shell interactif 
  • Comment faire pour obtenir la date du système à partir de Python 
  • Liste des modules Python 
  • Comment convertir une liste à un tableau en Python 
  • Connaissances Informatiques © http://www.ordinateur.cc