Автор Тема: ?? Скачать страницу  (Прочитано 6888 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #15 : Июнь 12, 2015, 10:07:21 »
Разобрался я с причиной глюка...

Месяца два назад я экспериментировал с закачкой с файлообменников и внес в config - ~/.wgetrc такие строчки:

header = Accept-Language: ru,en-us;q=0.7,en;q=0.3
header = Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
header = Accept-Encoding: gzip,deflate
header = Accept-Charset: UTF-8,*
header = Keep-Alive: 300
header = Connection: keep-alive


Вот некоторые из них (в частности первая и еще какая-то) не давали скачивать страницу сайта. Да и с других сайтов тоже. Разбираться в точности их написания не стал - wget их проглатывает без возражений, а  файлообменниками сейчас пользуюсь редко.

А за пару дней до новой попытки чистил диск и удалил этот config за ненадобностью. И только сейчас увязал все эти события. Восстановил конфиг, поэкспериментировал ... точно из-за этих строк wget перестает скачивать нужные страницы сайта. С другими опциями (ставил еще около десятка) нормально все качает. Поэтому все нужные опции удобней загонять туда, а не в командную строку.

Сделал по другому. Дописал файл ~/.bashrc парой алиасов (для сайтов и файлов):

alias wgs='wget -r -k -l 3 -p -E -np -P /home/юзер/Загрузки/'  # скачивание сайта в /Загрузки/
alias wgf='wget -c -t 0 -P /home/юзер/Загрузки/'  # скачивание файла в /Загрузки/

А в ~/.wgetrc загнал и закомментировал настройки для хитрых сайтов (это которые не дают себя скачивать разным качалкам типа wget и др.). То есть, когда попадается такой сайт, то просто снимаю # и запускаю алиас wgs c ссылкой на хитрый сайт. Настройки алиаса и из ~/.wgetrc суммируются. Не злоупотреблять - настройки сильно тормозящие процесс (куча пауз и задержек, иммитирующих работу браузера, а не качалки).

# БЛОК НАСТРОЕК ДЛЯ "ХИТРЫХ" САЙТОВ
# user-agent прописывается по вкусу
# user-agent = Mozilla/5.0 (X11; Linux i686; rv:25.0) Gecko/20100101 Firefox/25.0

# пауза в СЕКУНДАХ между загрузками
# wait = 5

# случайное изменение паузы  между загрузками в диапазоне 0.5*WAIT...1.5*WAIT секунд.
# random-wait = on

# пауза в 1..СЕКУНДЫ между повторными попытками загрузки
# waitretry = 10
« Последнее редактирование: Июнь 12, 2015, 10:10:50 от ek-nfn »
Devuan ASCII x32..x64

Оффлайн vita

  • Местный
  • *****
  • Сообщений: 969
  • Fiat lux! (Да будет Свет!)
    • Форум проекта Matuntu
Re: ?? Скачать страницу
« Ответ #16 : Июнь 12, 2015, 11:46:15 »
Разобрался я с причиной глюка...
Месяца два назад я экспериментировал с закачкой с файлообменников и внес в config - ~/.wgetrc такие строчки:
У меня ситуация была практически такая же, по приведённой Вами команде не было скачивания, а в последующем всё скачалось. Никаких конфигов Wget мною не делалось. Скорее всего баг пофиксили и при очередном обновлении Wget проблемы скачивания исчезли.
Per aspera ad astra! (Через тернии к звездам!)

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #17 : Июнь 12, 2015, 12:09:45 »
Vita, а ты поэкспериментируй. Делов на три минуты. Нужные строчки и расположение файла конфигурации тут приведено. Я несколько раз оключал и включал эти настройки, вычленял из-за какой именно строки перестает скачивать всю, страницу. Вышел на первую строку. Потом пробовал и другие конфигурации.
Сейчас эти строки удалил из конфига и все работает.
Нынешний конфиг у меня такой (это если запускать не алиас)

# БЛОК НАСТРОЕК ДЛЯ "ХИТРЫХ" САЙТОВ
user-agent = Mozilla/5.0 (X11; Linux i686; rv:25.0) Gecko/20100101 Firefox/25.0
# пауза в СЕКУНДАХ между загрузками
# wait = 5
# случайное изменение паузы  между загрузками в диапазоне 0.5*WAIT...1.5*WAIT секунд.
# random-wait = on
# пауза в 1..СЕКУНДЫ между повторными попытками загрузки
# waitretry = 10

# ВСЁ ОСТАЛЬНОЕ

# число попыток
tries = 20

# включение рекурсивной загрузки
recursive = on

# глубина рекурсии (inf и 0 - бесконечность)
reclevel = 3

# возобновить загрузку частично загруженного файла
continue = on

# делать ссылки локальными в загруженном HTML или CSS
convert-links = on

# не подниматься в родительский каталог
no-parent = on

# загрузить все изображения и проч., необходимые для отображения HTML-страницы
page-requisites = on

# сохранять документы HTML/CSS с надлежащими расширениями
adjust-extension = on

# игнорировать поле заголовка «Content-Length». Wget будет игнорировть хидеры как-будто бы они не существуют.
ignore-length = on

# Скачивать линки с FTP сайтов как будто они простые файлы, то есть не создавать линки локально.
retr-symlinks = on


Работа с ним чуть тормознее из-за некоторых опций, чем с командной строкой прописанного алиаса wgs , но все работает.
Добавляю вышеописанные строки  - не работает. Хотя прописаны они правильно и wget их заглатывает без возражений
« Последнее редактирование: Июнь 12, 2015, 12:11:38 от ek-nfn »
Devuan ASCII x32..x64

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #18 : Июль 30, 2015, 12:08:19 »
уж до кучи сюда же.
Если при скачивании страниц сайта возникают проблемы с кодировкой кирилицы в заголовках *.html (как это наблюдается при скачивании с help.ubuntu.ru), то в строку команды (или в config) добавляем следующую опцию - --restrict-file-names=nocontrol
Devuan ASCII x32..x64

Оффлайн Пользователь.

  • Местный
  • *****
  • Сообщений: 4323
Re: ?? Скачать страницу
« Ответ #19 : Июль 30, 2015, 22:56:19 »
Для help.ubuntu.ru хорошо бы сюда полную команду выложить, если кому-то понадобится скачать инструкции для офлайн изучения.

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #20 : Июль 30, 2015, 23:54:04 »
нужный выборочный материал с help.ubuntu.ru качал такой командой -  
Цитировать (выделенное)
wget -r -k -l 1 -p -E -np --restrict-file-names=nocontrol -P каталог_назначения ссылка_на_нужный_раздел

Выше  введеной ссылки по сайту не лезет, ниже лишь на 1 (опция -l) уровень - этого почти всегда хватает для любой брошюрки-книги, а при необходимости можно увеличить до 2-3 (с такой необходимостью пока не сталкивался). Сопровождающие материал картинки скачивает, на другие сайты по ссылкам не ходит.
« Последнее редактирование: Январь 17, 2016, 10:56:28 от ek-nfn »
Devuan ASCII x32..x64

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #21 : Август 01, 2015, 13:59:55 »
Кстати, если кому-то до сих пор в лом пользоваться терминалом (ну я сам таким был когда соскочил с windows, а сейчас все основные операции делаю не через gui, а через скрипты, алиасы и т.д. Потому что это действительно удобней, быстрей и машину гораздо меньше грузит), то существует старенькая, но не потерявшая актуальности софтина HTTrack. К ней есть и gui, и web приложение (к сожалению лишь для FF). Все лежит в репозиториях.
Это gui - httraqt
Devuan ASCII x32..x64