пятница, 30 мая 2025 г.

Скрипт для скачивания всех картинок с сайта

Как использовать скрипт:

Убедитесь, что у вас установлены необходимые библиотеки:

pip install requests beautifulsoup4

Запустите скрипт и введите URL сайта, с которого нужно скачать изображения.

Все изображения будут сохранены в папку downloaded_images (можно изменить вторым параметром функции).

Особенности скрипта:

  1. Рекурсивный обход страниц - скрипт посещает все внутренние ссылки в пределах домена
  2. Многопоточная загрузка - использует несколько потоков для ускорения загрузки изображений
  3. Контроль посещенных страниц - избегает повторной обработки одних и тех же URL
  4. Фильтрация по домену - скачивает только изображения с указанного домена
  5. Ограничения:
    • Максимальное количество страниц (по умолчанию 100)
    • Максимальное количество потоков (по умолчанию 5)
  6. Поддержка различных форматов - jpg, png, gif, bmp, webp, svg

Важные замечания:

  1. Скрипт может работать долго для больших сайтов
  2. Некоторые сайты могут блокировать такие запросы (проверьте robots.txt)
  3. Убедитесь, что у вас есть права на скачивание контента
  4. Для ускорения можно увеличить max_threads, но это может привести к блокировке

Для обработки очень больших сайтов рекомендуется добавить задержки между запросами и использовать пользовательские заголовки (User-Agent).

Комментариев нет:

Отправить комментарий