Как-то на одном из web-ресурсов одному товарищу попалась коллекция редких видеороликов, которые, как показало исследование страницы сайта, были загружены в конкретную директорию на том самом сайте и имели однотипные названия файлов. И этот товарищ захотел скачать эти видеоролики на свой компьютер, чтобы ознакомиться с их содержимым в более спокойной обстановке и без интернета (в самолете во время длительного перелета).

Как скачивать файлы с сайта с помощью БАТника

Таким образом сформировалась задача - скачать эти видеоролики, причем, желательно автоматизированно, так как их количество было более 400 шт!




 

Вариантов скачать данные файлы было несколько:

1. С помощью одного их плагинов для браузера, позволяющих сохранять видео с web-страницы. Данный вариант не подходил, так как абсолютно не имел автоматизации, и каждый видео-файл нужно было бы запускать и скачивать отдельно. НЕ ПОДХОДИТ!

2. Открывать каждый файл по прямой ссылке (типа такой: http: // site.ru/some-folder/video154.mp4) и с помощью нажатия клавиш CTRL + S сохранять файл в нужную папку на компьютере. Этот способ сохранения также без автоматизации. НЕ ПОДХОДИТ!

3. Использовать программу Offline Explorer Enterprise или ее аналог. Подобные программы могут скачивать сайты почти со всем их содержимым, можно настроить скачивание только конкретных типов файлов, запустить процесс и ждать окончания, занимаясь другими делами...

Но данные программы практически все платные, их нужно найти, скачать, купить(?!), установить, настроить и только после этого запустить процесс и наслаждаться результатом. НЕ ОЧЕНЬ ПОДХОДИТ!

4. Использовать простую программу WGET и БАТник (BAT-файл). Программа WGET бесплатная, БАТник написать - 5 минут, и готово! Запустить БАТник и ждать окончания скачивания всех файлов. ПОДХОДИТ!

 

Содержимое BAT-файла:

 

wget.exe -c --no-check-certificate "http: // site.ru/some-folder/video1.mp4" -P D:\2

wget.exe -c --no-check-certificate "http: // site.ru/some-folder/video2.mp4" -P D:\2

wget.exe -c --no-check-certificate "http: // site.ru/some-folder/video3.mp4" -P D:\2

wget.exe -c --no-check-certificate "http: // site.ru/some-folder/video4.mp4" -P D:\2

wget.exe -c --no-check-certificate "http: // site.ru/some-folder/video5.mp4" -P D:\2

wget.exe -c --no-check-certificate "http: // site.ru/some-folder/video6.mp4" -P D:\2

wget.exe -c --no-check-certificate "http: // site.ru/some-folder/video7.mp4" -P D:\2

...

...

wget.exe -c --no-check-certificate "http: // site.ru/some-folder/video450.mp4" -P D:\2



 

Синтаксис команды очень простой:

wget.exe - использовать программу WGET;

-c - ключ для возобновления закачки с места остановки, если загрузка файла случайно прервется;

--no-check-certificate - игнорировать сертификаты сайтов (для HTTPS). Если не добавить этот ключ, а на сайте стоит жесткая переадресация всех HTTP-запросов на HTTPS (например, 301-ый редирект), то можно получить ошибку:

 

ERROR: cannot verify site.ru's certificate, issued by `/C=US/O=Let's Encrypt/CN=Let's Encrypt Authority X3':
  Unable to locally verify the issuer's authority.

To connect to vs1.coursehunters.net insecurely, use `--no-check-certificate'.
Unable to establish SSL connection.

 

И скачать файлы не получится. Потому что, ХЗ какой сертификат используется :)))

После добавления ключа будет отображаться предупреждение, просто игнорируем его:

 

WARNING: cannot verify vs1.coursehunters.net's certificate, issued by `/C=US/O=Let's Encrypt/CN=Let's Encrypt Authority X3':
  Unable to locally verify the issuer's authority.

 

"http: // site.ru/some-folder/video1.mp4" - адрес конкретного файла, который нужно скачать. Внимание: пробелы перед // и после не нужны!

-P D:\2 - путь для сохранения скачиваемых файлов (если не хотим, чтобы файлы сохранялись в папку с программой WGET и БАТником).

 

Соответственно, прописать в BAT-файле столько строк, сколько файлов нужно скачать. Сгенерировать нужное количество однотипных строк можно с помощью регулярных выражений или программы MS Excel (как вариант).




 

Итак, нужно сделать следующее:

  • Создать БАТник;
  • Скачать программу WGET с этого сайта либо с иного web-ресурса;
  • Поместить программу WGET в одну папку с БАТником;
  • Запустить БАТник и ждать окончания процесса скачивания файлов;

Как скачивать файлы с сайта с помощью БАТника

  • Если скачивание в какой-то момент остановится, закрыть консоль и запустить заново, предварительно удалив строки, в которых прописаны уже скачанные файлы. Строку с последним недокаченным файлом не удалять!




 

Внимание! Для упрощения отладки БАТника не вставляйте в него сразу много строк, а напишите для начала 1-2 и после них добавьте команду на паузу, чтобы успеть прочитать сообщение об ошибке, если она возникнет.

Синтаксис команды-паузы:

 

TIMEOUT /T 10 /NOBREAK

 

10 = 10 секунд.

 

Содержимое модифицированного BAT-файла:

(более оптимальное - чтобы не писать много строк в БАТнике, а только одну)

 

FOR /L %%I IN (104,1,428) DO wget.exe -c --no-check-certificate "http: // site.ru/some-folder/video%%I.mp4" -P D:\2 && TIMEOUT /T 20 /NOBREAK

 

В этом случае скачивание файлов выполняется в цикле.

FOR - оператор цикла;

/L  - ключ, задающий обработку набора из последовательности чисел с заданными началом, концом и шагом приращения;

%%I - переменная (если команду просто запускать в CMD или в POWERSHELL, то указывать один знак процента, в БАТнике нужно два);

IN (104,1,428) - диапазон значений для переменной I и шаг изменений: (первое значение, шаг, последнее значение);

http: // site.ru/some-folder/video%%I.mp4  - ссылка на скачивание файлов, содержащая в себе переменную %%I.

&& - оператор "И", позволяющий выполнить в цикле вторую команду, в нашем случае это пауза на 20 секунд. Знак & можно написать один раз.




Вложения:
ФайлОписаниеРазмер файла:
Скачать этот файл (wget.zip)wget.zip 385 kB

Комментарии (4)

This comment was minimized by the moderator on the site

Да, хорошо так можно время свое сэкономить!
Спасибо

This comment was minimized by the moderator on the site

Так можно и эту утилиту ей же скачать

This comment was minimized by the moderator on the site

А как сделать, чтобы скачать прайс с сайта где нужна авторизация, и когда я авторизован но файл не закачивается а просит авторизацию

This comment was minimized by the moderator on the site

А как сделать, чтобы скачать прайс с сайта где нужна авторизация, и когда я авторизован но файл не закачивается а просит авторизацию

Если файл один, то вам проще скачать его вручную. Батником обычно скачивают однотипные файлы, если их много - чтобы не тратить время.

С авторизацией тоже можно скачивать, нужно изучить, как работает тот сайт: какие запросы использует для авторизации - GET или POST, и как потом скачивает - используется токен или куки или ....

Здесь не опубликовано еще ни одного комментария

Оставьте свой комментарий

  1. Опубликовать комментарий как Гость.
0 Значки
Вложения (0 / 3)
Поделитесь своим местоположением

      Подборка полезных команд bash-Mac (башмак :)
      Подборка полезных команд bash-Mac (башмак :)

      Для полноценной работы с Mac рано или поздно придется использовать консоль. В маке она называется Терминалом. Кроме заурядных известных команд, некоторые действия приходится выполнять не часто, запоминать их особого смысла нет, лучше сохранить в шпаргалку. Консоль/терминал также называют - BASH (Bourne-Again SHell). Все это рассматриваем в рамках использования на компьютерах Mac, в итоге -...




      Ограничения для UITextField на ввод текста
      Ограничения для UITextField на ввод текста

      Для того, чтобы пользователи приложения не тыкали своими шаловливыми ручками куда попало не могли вводить заведомо не корректный текст, можно реализовать ряд ограничений для них. На сайтах обычно это реализуется с помощью JS-скриптов, которые, теоретически, могут быть оключены пользователем на глобальном уровне, и все ограничения, реализованные с помощью JS перестанут действовать. В...




      Windows не видит флэшку - что делать?
      Windows не видит флэшку - что делать?

      Флэшка берет букву сетевого диска В данной статье рассмотривается ситуация с исправной рабочей флэшкой без вирусов, которая нормально работает на других компьютерах. В некоторых организациях у пользователей может появиться проблема, заключающаяся в том, что при подключении флэшки к компьютеру операционная система Windows XP или 7 не видит ее как диск, хотя как физическое устройство флэшка обнаруживается.




      Сохранение flash
      Сохранение flash

      Современные сайты часто содержат множество мультимедийного контента, одной из разновидностью которой является flash-анимация (флэшка, флэш-ролик). Флэш ролик представляет собой swf-файл, внедренный в web-страницу. Флэш-анимация может быть как черно-белой, так и цветной, со звуком и без, размером пару килобайт и даже в несколько мегабайт. Некоторые анимации могут на столько понравиться посетителю сайта, что...




      HTTP-методы для RESTful-сервисов
      HTTP-методы для RESTful-сервисов

      Для HTTP-методов используются английские глаголы, которые определяют специфику их использования и ограничения. Основными или наиболее часто используемыми HTTP-методами являются POST, GET, PUT, PATCH и DELETE. Они соответствуют операциям CRUD (Create, Read, Update, Delete). Есть еще несколько других глаголов, например: HEAD, CONNECT, OPTIONS, TRACE, но они используются реже. Самые часто...




      Установка SSL-сертификата на MDM-сервер Apple
      Установка SSL-сертификата на MDM-сервер Apple

      Для полноценной работы по администрированию мобильных устройств Apple с помощью MDM-сервера (Profile Manager) очень желательно использовать SSL-сертификат, выданный авторизованным центром сертификации. Можно, конечно, использовать и самоподписанный сертификат, созданный с помощью самого MDM-сервера - часть задач он будет решать. Но, тем не менее, будут некоторые ограничения, не позволяющие легко и просто управлять...




      Ошибки Jeppesen FD PRO
      Ошибки Jeppesen FD PRO

      17 октября программа Jeppesen FD PRO получила одобрение от EASA (European Aviation Safety Agency) как програмный продукт для EFB. Одновременно с программой Jeppesen FD PRO была одобрена (сертифицирована) программа Jeppesen TC PRO.



Яндекс.Метрика
Сайт работает на быстром VPS/VDS хостинге от FASTVPS