Semalt: Uddrag af URL'er fra websider med smuk suppe

Smuk suppe er en Python-pakke på højt niveau, der bruges til at analysere XML- og HTML-dokumenter. Smukke suppe Python-bibliotek opretter et analysetræ, der bruges til at udtrække nyttige oplysninger fra HyperText Markup Language (HTML). Dette bibliotek er tilgængeligt til både Python 2 og Python 3 versioner.

I de fleste tilfælde finder du ud af, at dine måldata kun kan fås og bruges som en del af en webside. I et sådant tilfælde skal du bruge en sådan webskrabeteknik , der kan udtrække data i de formater, der kan analyseres. Det er her smukke suppe-bibliotek kommer ind.

Krav

Du har brug for de rigtige moduler til at bruge Beautiful Soup-biblioteket. For at komme i gang skal du installere Python 2.7-programmeringssprog på din maskine. I dette indlæg lærer du, hvordan man skraber et websted og udtrækker alle webadresser ved hjælp af anmodninger og smuk suppe 4. HTML-parsing er en gør-det-selv-opgave, især med teknisk hjælp fra smuk suppe.

Hvorfor bruge smuk suppe?

Beautiful Soup er en top-rangeret Python-pakke, der er blevet brugt til at skrabe websteder og analysere HTML-tags siden 2004. For nylig erstattede Beautiful Soup 4 Beautiful Soup 3 i branchen. Bemærk, at BS4 fungerer på begge Python-versioner, mens BS3 kun fungerer på Python 2.7. Biblioteket består af følgende indbyggede funktioner:

  • Kodningsmulighed - Du behøver ikke at få panik over kodninger, når du installerer de nødvendige smukke suppe-moduler på din maskine. Biblioteket er automatiseret til at konvertere input til Unicode og output til UTF-8.
  • Navigationsfunktion - Smuk suppe tilbyder brugervenlige metoder til at søge, navigere og ændre et analysetræ.

Hvordan bruges Beautiful Soup-bibliotek?

Efter installation af smuk suppe på din maskine kan du begynde at bruge biblioteket. For at komme i gang skal du importere bs4-bibliotek i begyndelsen af din Python-kode. Overfør indhold eller URL til smuk suppe for at oprette et suppe-objekt. Biblioteket henter dog ikke målwebsiden på sig selv. Her skal du udføre denne opgave manuelt. Du kan også nemt hente de foretrukne websider ved hjælp af en kombination af Python og smuk suppe.

Roller af anmodning bibliotek

For at skrabe en side skal du først downloade den. Du kan downloade websider ved hjælp af anmodningsbibliotek. Anmoder om biblioteksværker ved at fremsætte en "GET" -anmodning til webserverne, som igen vil hente HTML-indhold på den foretrukne webside.

Uddrag af URL'er fra websider

Nu har du detaljerede oplysninger om smuk suppebibliotek. En kombination af BS4-bibliotek og Python hjælper dig med at hente en webside meget hurtigt. Hvis du vil udpakke alle URL'er fra din målwebside, skal du bruge metoden "find alle". Denne metode giver dig en samling af elementer med tagget. Fra bs4 skal du importere både smuk suppe og anmodninger. Kør din kode, og indtast et websted eller en webside for at udpakke URL'erne fra.

mass gmail