Semalt delar ett enkelt sätt att utvinna information från webbplatser

Webskrapning är en populär metod för att få innehåll från webbplatser. En speciellt programmerad algoritm kommer till startsidan på webbplatsen och börjar följa alla interna länkar, och montera interiören i divs som du angav. Som ett resultat - redo CSV-fil som innehåller all nödvändig information som ligger i en strikt ordning. Den resulterande CSV kan användas för framtiden och skapa nästan unikt innehåll. Och i allmänhet, som en tabell, är sådana data av stort värde. Föreställ dig att hela produktlistan för en byggbutik presenteras i en tabell. Dessutom fylls alla fält och egenskaper för varje produkt, för varje typ och märke av produkten. Alla copywriters som arbetar för en onlinebutik skulle gärna ha en sådan CSV-fil.

Det finns massor av verktyg för att extrahera data från webbplatser eller webbskrapning och oroa dig inte om du inte känner till några programmeringsspråk. I den här artikeln kommer jag att visa ett av de enklaste sätten - att använda Scrapinghub.

Gå först till scrapinghub.com, registrera dig och logga in.

Nästa steg om din organisation kan bara hoppas över.

Då kommer du till din profil. Du måste skapa ett projekt.

Här måste du välja en algoritm (vi kommer att använda algoritmen "Portia") och ge ett namn till projektet. Låt oss kalla det på något sätt ovanligt. Till exempel "111".

Nu kommer vi in i arbetsutrymmet för algoritmen där du behöver skriva URL på den webbplats du vill extrahera data från. Klicka sedan på "Ny spindel".

Vi går till sidan som kommer att fungera som ett exempel. Adressen uppdateras i rubriken. Klicka på "Annotera den här sidan".

Flytta muspekaren till höger vilket gör att menyn visas. Här är vi intresserade av fliken "Extracted item", där du behöver klicka på "Edit Items".

Ändå visas den tomma listan över våra fält. Klicka på "+ Fält".

Allt är enkelt här: du måste skapa en lista med fält. För varje objekt måste du ange ett namn (i detta fall en titel och innehåll), ange om det här fältet krävs ("Krävs") och om det kan variera ("Variera"). Om du anger att ett objekt är "obligatoriskt" hoppar algoritmen helt enkelt över sidor där det inte kommer att kunna fylla detta fält. Om det inte markeras kan processen pågå för alltid.

Klicka bara på det fält vi behöver och ange vad det är:

Gjort? Klicka sedan på "Spara prov" i rubriken på webbplatsen. Efter det kan du återgå till arbetsutrymmet. Nu vet algoritmen hur man får något, vi måste ställa in en uppgift för det. Klicka på "Publicera ändringar" för att göra detta.

Gå till uppgiften, klicka på "Kör spindel". Välj webbplats, prioritera och klicka på "Kör".

Tja, skrotning är nu i process. Hastigheten visas genom att peka din markör på antalet skickade förfrågningar:

Hastigheten för att få redo strängar i CSV - genom att peka på ett annat nummer.

För att se en lista med redan gjorda objekt klickar du bara på det här numret. Du kommer att se något liknande:

När det är klart kan resultatet sparas genom att klicka på den här knappen:

Det är allt! Nu kan du extrahera information från webbplatser utan någon erfarenhet av programmering.