Какво представлява web scraping / crawler?

Описание

Web scraping или web crawler представлява, когато бот изтегли част или цялото съдържание на даден уеб сайт. По принцип този процес винаги се извършва от автоматизирани ботове. Тези ботове могат да изтеглят цялото съдържание на един уеб сайт за няколко секунди.

Как ботовете вземат съдържанието?

Ботът за вземане на съдържание изпраща поредица от HTTP GET заявки. След това копира и запазва цялата информация, която уеб сървъра е изпратил в отговор, в база данни (MySQL, MongoDB и др.).

По-сложните ботове за вземане на съдържание могат да изпълняват JavaScript, за да попълнят например форма в уеб сайт и да изтегли всяко затворено съдържание.

Разбира се, всеки човек може ръчно да копира или да изтегли цял уеб сайт, но ботовете могат да обхождат и изтеглят цялото съдържание на уеб сайта само за секунди. За големи сайтове като сайт за електронна търговия със стотици страници свалянето може да се случи до няколко минути.

Каква е целта за сваляне на съдържание от уеб сайт?

Сваляне на текст

Това представлява сканиране на уеб сайтове за информация за контакти, телефонен номер или имейл адрес. Ботовете за събиране на имейли са насочени към взимане на имейл адреси, обикновено с цел намиране на нови мейли за спам.

Сваляне на цени от електронен магазин

Това е, когато една компания изтегли цялата информация за цените от уебсайт на конкурентна компания, така че да може съответно да коригира собствените си цени

Проекти

linkedin icon facebook icon xing icon