No caso essa minha querie é negativa, eu tenho um banco de dados aqui com 1.2Milhoes de Urls, sendo que no minimo 700 mil é de lugares que nenhuma ferramenta que existe atualmente, pelo menos pública, pega.
Como eu sei disso? Pq eu que criei a ferramenta que faz scraping constante nesse site que eu uso como insumo de URLs novas. Ele não tem a funcionalidade de só baixar todas urls pra x endereço, eu preciso monitorar novas URLs toda hora (inclusive aquelas que não são do meu programa em questão).
E é aqui que geralmente tu começa a ter resultados diferentes. Se tu roda as mesmas ferramentas, vai nos mesmos programas, procura as mesmas falhas, confia nos mesmo resultados... adivinha? Duplicado.