Semalt soovitab 5 sammu veebilehtede kraapimiseks

Teraapia on avatud lähtekoodiga ja raamistik teabe hankimiseks erinevatelt veebisaitidelt. See kasutab API-sid ja on kirjutatud Pythonis. Scrapy praegu haldab veebi kraapides firma nimeks Scrapinghub Ltd

See on lihtne õpetus, kuidas kirjutada veebibrauserit Scraphi abil, Craigslistissa sõeluda ja teavet CSV-vormingus salvestada. Selle õpetuse viis peamist sammu on nimetatud allpool:

1. Looge uus tuumikprojekt

2. Veebisaidi indekseerimiseks ja andmete hankimiseks kirjutage ämblik

3. Ekspordige kraabitud andmed käsurealt

4. Muutke ämblikku linkide järgimiseks

5. Kasutage ämbliku argumente

1. Koostage projekt

Esimene samm on projekti loomine. Peaksite alla laadima ja installima Scrapy. Selle otsinguribale peaksite sisestama kataloogi nime, kuhu soovite andmeid salvestada. Teraapias kasutatakse teabe hankimiseks erinevaid ämblikke ja need ämblikud esitavad kataloogide loomiseks esmased taotlused. Ämbliku tööle panemiseks peate külastama kataloogide loendit ja sisestama sinna konkreetse koodi. Hoidke oma praeguses kataloogis olevaid faile silma peal ja pange tähele kahte uut faili: quotes-a.html ja quotes-b.html.

2. Veebisaidi indekseerimiseks ja andmete kaevandamiseks kirjutage ämblik:

Parim viis ämbliku kirjutamiseks ja andmete eraldamiseks on Scraphi koore erinevate valijate loomine. URL-id tuleks alati lisada jutumärkidesse; vastasel juhul muudab teraapia nende URL-ide olemust või nimesid koheselt. Ämbliku õigeks kirjutamiseks peaksite kasutama URL-i ümber kahekordseid jutumärke. Peaksite kasutama.extract_first () ja vältima indeksi viga.

3. Ekspordi kaabitud andmed käsurida kasutades:

Oluline on eksportida kraapitud andmed käsurealt. Kui te seda ei eksporti, ei saa te täpset tulemust. Ämblik loob erinevaid katalooge, mis sisaldavad kasulikku teavet. Selle teabe paremaks eksportimiseks peaksite kasutama tootluse Pythoni märksõnu. Andmete importimine JSON-failidesse on võimalik. JSON-failid on programmeerijatele kasulikud. Sellised tööriistad nagu JQ aitavad kraapitud andmeid ilma probleemideta eksportida.

4. Muutke ämblikku linkide järgimiseks:

Väikestes projektides saate ämblikke vahetada, et linke asjakohaselt jälgida. Kuid suurte andmekraapimisprojektide puhul pole see vajalik. Ämbliku vahetamisel seadistatakse üksuse Pipelines kohatäitefail. See fail võib asuda jaotises juhendaja / pipelines.py. Scrapy abil saate ehitada keerukaid ämblikke ja muuta nende asukohta igal ajal. Saate kaevandada mitu saiti korraga ja viia läbi mitmesuguseid andmete kaevandamise projekte.

5. Kasutage ämbliku argumente:

Parse_author tagasihelistamine on ämblikargument, mida saab kasutada andmete eraldamiseks dünaamilistelt veebisaitidelt. Samuti saate ämblikele konkreetse koodi abil käsuridade argumente pakkuda. Ämblikuvõrgu argumendid muutuvad aja jooksul ämblike atribuutideks ja muudavad teie andmete üldilmet.

Selles õpetuses käsitlesime ainult teraapia põhitõdesid. Selle tööriista funktsioone ja võimalusi on palju. Selle spetsifikatsioonide kohta lisateabe saamiseks peate lihtsalt alla laadima ja aktiveerima Scrapise.