Тестовое задание для Web Security Fellowship.
Скрипт-парсер для скачивания фотографий работников департаментов МинОбрНауки РФ.
Склонировать репозиторий и перейти в него в командной строке:
git clone https://github.com/chaplinskiy/wsf_scraper.git
cd wsf_scraper
Cоздать и активировать виртуальное окружение:
python3 -m venv env
source env/bin/activate
Установить зависимости из файла requirements.txt
:
pip install -r requirements.txt
Запустить скрипт:
python3 scraper.py
Фотографии скачаются в папку data/jpg/
.
Однофамильцы фильтруются только по первому инициалу (т.е. по имени).
Если на сайте МинОбра вместо реальной фотографии сотрудника висит плейсхолдер – он тоже скачается. Таких случаев будет немного, их можно обработать вручную.