Pra quem já se perguntou como o web.archive funciona, o crawler usado por ele é opensource e é esse:
https://github.com/internetarchive/heritrix3
Doc: https://heritrix.readthedocs.io/en/latest/
https://github.com/internetarchive/heritrix3
Doc: https://heritrix.readthedocs.io/en/latest/