Как использовать скрипт:
Убедитесь, что у вас установлены необходимые библиотеки:
pip install requests beautifulsoup4
Запустите скрипт и введите URL сайта, с которого нужно скачать изображения.
Все изображения будут сохранены в папку downloaded_images (можно изменить вторым параметром функции).
Особенности скрипта:
- Рекурсивный обход страниц - скрипт посещает все внутренние ссылки в пределах домена
- Многопоточная загрузка - использует несколько потоков для ускорения загрузки изображений
- Контроль посещенных страниц - избегает повторной обработки одних и тех же URL
- Фильтрация по домену - скачивает только изображения с указанного домена
- Ограничения:
- Максимальное количество страниц (по умолчанию 100)
- Максимальное количество потоков (по умолчанию 5)
- Поддержка различных форматов - jpg, png, gif, bmp, webp, svg
- Максимальное количество страниц (по умолчанию 100)
- Максимальное количество потоков (по умолчанию 5)
Важные замечания:
- Скрипт может работать долго для больших сайтов
- Некоторые сайты могут блокировать такие запросы (проверьте robots.txt)
- Убедитесь, что у вас есть права на скачивание контента
- Для ускорения можно увеличить
max_threads
, но это может привести к блокировке
Для обработки очень больших сайтов рекомендуется добавить задержки между запросами и использовать пользовательские заголовки (User-Agent).
- Скрипт может работать долго для больших сайтов
- Некоторые сайты могут блокировать такие запросы (проверьте robots.txt)
- Убедитесь, что у вас есть права на скачивание контента
- Для ускорения можно увеличить
max_threads
, но это может привести к блокировке
Для обработки очень больших сайтов рекомендуется добавить задержки между запросами и использовать пользовательские заголовки (User-Agent).