15.1 - Scraping - Introdução
Data Scraper
O que é?
Data scraper é um software capaz de extrair dados da saída de um outro programa. O Web Scraper é um software capaz de extrair dados de um website na internet. Daqui para frente, no texto, será utilizado simplesmente o termo “scraper” como referência para este tipo de software.
Não confunda com…
Crawlers: crawler é um software que também extrai dados da saída de um programa que tem como objetivo indexar conteúdos. Porém sua navegação é do tipo “força bruta”, isto é, não há filtros que identificam os links que o software acessa. Este comportamento é diferente do de um scraper, que possui inteligência para escolher os links que acessa e a navegação que executa.
Parsers: Um parser é um programa que espera receber dados de uma maneira estruturada, de forma que informações consigam ser extraídas. Um scraper, por sua vez, pode possuir um parser mais complexo, que permite localizar informações em saídas muitas vezes não estruturadas, como é o caso de saídas de programas destinadas a serem vistas por seres humanos.