Этот скрипт позволяет извлекать уникальные домены, посещенные при просмотре заданного URL в браузере. Он использует Playwright для открытия браузера, обеспечивает взаимодействие с пользователем, а затем сохраняет посещенные домены в файл.
- Открывает URL в браузере.
- Обеспечивает взаимодействие пользователя с браузером.
- Извлекает все уникальные домены, посещенные во время сеанса просмотра.
- Сохраняет список уникальных доменов в текстовый файл.
Для использования скрипта необходимо установить uv
.
-
Установите uv:
Следуйте инструкциям для вашей системы по адресу: https://docs.astral.sh/uv/getting-started/installation/
-
Установите Playwright и Chromium:
uvx playwright install chromium
-
Запустите скрипт:
uvx domain-collector <URL>
Замените
<URL>
на URL, который вы хотите открыть в браузере. Например:uvx domain-collector https://ya.ru
Вы также можете указать URL без схемы (например,
ya.ru
), и скрипт автоматически добавитhttps://
. -
Взаимодействуйте с браузером:
Скрипт откроет окно браузера. Вы можете взаимодействовать со страницей как обычно.
-
Закройте браузер:
После завершения просмотра нажмите
Enter
в терминале, чтобы закрыть браузер и сохранить домены. -
Вывод:
Скрипт сохранит уникальные домены в файл с именем
<domain>_domains.txt
(например,ya_ru_domains.txt
) в том же каталоге, где вы запустили скрипт. Если файл уже существует, новые домены будут добавлены к существующему списку, избегая дубликатов.
uvx domain-collector https://www.wikipedia.org
Это откроет домашнюю страницу Википедии в браузере. После того, как вы взаимодействуете со страницей и закроете браузер, скрипт сохранит посещенные домены в файл с именем wikipedia_org_domains.txt
.
Для удаления всех артефактов можно использовать следующие команды:
uvx playwright uninstall --all
uv cache clean # Используйте с осторожностью, это удалит весь кэш uv
- Python 3.7+
- Playwright
- argparse
Этот проект лицензируется в соответствии с лицензией MIT - см. файл LICENSE для получения подробной информации.