XML Parsing représente un défi pour le soi-disant texte analyseur en raison de l' extensibilité de XML. Conventions de formatage XML sont de nature hiérarchique , ce qui signifie des balises dominer les autres tags. Les expressions régulières ( regex ) identifier des modèles de texte XML - une expression régulière pour faire correspondre les balises XML correspondra tout à l'intérieur balises xml <> , mais ne s'affiche pas à l'organisation hiérarchique de ces tags. Il est possible de séparer cette structure de balise dans le texte en utilisant le langage de programmation Python et le paquet de boîte à outils du langage naturel, qui intègre les expressions régulières et la manipulation de texte et peut afficher les balises XML et leur organisation. Instructions 1 Ouvrez une fenêtre de terminal et tapez la commande " python -v " à l'invite de vérifier la présence et la version de Python sur votre ordinateur. Aller à la page d'accueil NLTK et télécharger le package d'installation NLTK approprié pour votre système d'exploitation. Vérifiez que NLTK est correctement installé en entrant la commande " >>> import NLTK " à l'invite de Python. 2 type ">>> nltk.download ()" pour ouvrir une fenêtre . Choisissez la ligne intitulée «tous» et cliquez sur le bouton de téléchargement . Ceci va télécharger un certain nombre de textes pour NLTK de travailler avec, parmi eux " Le Marchand de Venise " de Shakespeare formaté avec des balises XML spéciales pour les jeux. 3 Importer le Marchand de Venise marqués dans XML avec la commande suivante à l'invite de Python : >>> merchant_file = nltk.data.find (« corpus /Shakespeare /merchant.xml ') confier le dossier d'un variable de sorte que vous pouvez le manipuler avec commandes Python : . >>> brut = open ( merchant_file ) read () Juste pour être sûr qu'il est là , saisissez le la commande suivante pour afficher les 168 premiers caractères : . >>> print brut [ 0:168 ] Vous verrez les balises d'en-tête XML et les balises spéciales de jeu XML < br > Hôtels 4 Entrez la commande suivante à l'invite de Python : >>> de nltk.etree.ElementTree importation elementTree et appuyez sur " Retour ", puis tapez la commande suivante à l' invite de Python : . >>> marchand = elementTree () parse ( merchant_file ) la commande d'analyse permet à l' utilisateur de visualiser les balises XML et leur contenu . Pour construire une vue hiérarchique des balises XML imbriquées correctement , entrez la commande suivante à l'invite de Python : >>> merchant.getchildren () Cela montrera tout le XML spécial jouer balises dans l'ordre hiérarchique. La sortie de cette commande devrait ressembler à ceci : [ TITRE , PERSONAE , SCNDESCR de l'élément> à 22cc260> , PLAYSUBT de l'élément> à 22cc198> , < , la Loi de l'élément à 22cc0f8 > LOI SUR LA , ACT , ACT , ACT ] < br > Photos
|