Back to Question Center
0

Semalt - Hvordan scraper websider?

1 answers:

Smuk suppe er et Python-bibliotek, der i vid udstrækning anvendes til at skrabe websider ved at oprette et parse-træ fra XML og HTML-dokumenter. Webskrabning, en teknik til uddragning af data fra hjemmesider og sider, anvendes i vid udstrækning i dataanalyser og ledelsesområder. I de fleste tilfælde er Python programmeringssprog en forudsætning inden for datalogi.

Python 3 har skrabeværktøjer og moduler, du kan anvende til dit data management projekt - logo da cebook. I øjeblikket kører som Beautiful Soup 4, er dette modul kompatibelt med både Python 3 og Python 2. 7. Beautiful Soup 4-modulet er også i stand til at oprette et parse-træ til ikke-lukket tagsuppe. I denne vejledning lærer du, hvordan du skraber siden og skriver de skrabet data til en CSV-fil.

Kom godt i gang

For at komme i gang skal du oprette en server eller lokalt baseret Python-kodningsmiljø på din pc. Du skal også installere Beautiful Soup and Requests-modul på din maskine. Kendskab til at arbejde med begge moduler er også en nødvendig forudsætning. Kendskab til HTML tagging og struktur er også en ekstra fordel.

Forstå dine data

I denne sammenhæng bliver reelle data fra National Gallery of Art brugt til at hjælpe dig med at forstå, hvordan du bruger Beautiful Soup 4. National Gallery of Art består af 120.000 stykker, der udføres af ca. 13.000 kunstnere. The Art er baseret i Washington D. C, USA.

Web dataudvinding med smuk suppe er ikke så kompliceret. Hvis du for eksempel fokuserer på bogstav Z, skal du markere og notere det første navn på listen. I dette tilfælde er fornavnet Zabaglia, Niccola. For ensartethed angives antallet af sider og navnet på den sidste kunstner på den pågældende side.

Sådan importeres anmodninger og smukt suppe bibliotek

For at importere biblioteker skal du aktivere dit Python 3 programmeringsmiljø. Kontroller, at du er i samme mappe med dit programmeringsmiljø. Kør følgende kommando for at komme i gang. my_env / bin / aktivere.

Opret en ny fil og start import af smukke suppe og anmodninger biblioteker. Anmodninger bibliotek vil tillade dig at bruge HTTP i dine Python programmer i læsbare formater. Smuk suppe, derimod, arbejder for at skrabe sider hurtigt. Brug bs4 til at importere smuk suppe.

Sådan indsamles og analyseres en webside

Brug af anmodninger indsamler URL til din første side. URL til den første side vil blive tildelt til variabilsiden. Byg en BeautifulSoup-objekt fra Forespørgsler og analysér objektet fra Pythons parser.

I denne øvelse er målet at indsamle links og kunstnerens navne. For eksempel kan du samle kunstneres datoer og nationaliteter. For Windows-brugere skal du højreklikke på kunstnerens fornavn. I dette tilfælde skal du bruge Zabaglia, Niccola. For Mac OS-brugere skal du trykke på "CTRL" og klikke på navnet. Klik på menuen "Inspect Element", som pop op-vinduer på skærmen for at få adgang til webudvikleres værktøjer. Udskriv kunstnerens navne ud for at gøre Beautiful Soup hurtigt et træ.

Fjernelse af bundlinkene

For at fjerne bundlinkene på din webside skal du kontrollere DOM ved at højreklikke på elementet. Du vil identificere, at linkene er under en HTML-tabel. Brug smagssuppe ved at bruge "dekomponeringsmetoden" til at fjerne tags fra parse-træet.

Sådan trækker du indhold fra et tag

Du behøver ikke at udskrive hele linketiketten, bruge Beautiful Soup til at fjerne materiale fra et tag. Du kan også fange URL'er, der er forbundet med kunstnerne, ved hjælp af Beautiful Soup 4.

Indfangning af skrabede data til en CSV-fil

CSV-filen tillader dig at gemme strukturerede data i en almindelig tekst, et format, der oftest bruges til dataark. Kendskab til håndtering af almindelige tekstfiler i Python anbefales.

Web dataudvinding bruges til at skrabe sider og få oplysninger. Vær opmærksom på de websteder, du er udvindingsoplysninger fra. Nogle dynamiske websteder begrænser web dataudvinding på deres websteder. At skrabe side med Beautiful Soup og Python 3 er så simpelt.

December 22, 2017