Автор Тема: ?? Скачать страницу  (Прочитано 8789 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
?? Скачать страницу
« : Май 27, 2015, 12:04:44 »
Хочу скачать вот эту страницу с глубиной на пару уровней -  http://rus-linux.net/MyLDP/BOOKS/LSA/toc.html

Сразу скажу, что вариант wget -r -k -l 2 -p -E -np http://rus-linux.net/MyLDP/BOOKS/LSA/toc.html  не прокатил, хотя другие книги с этого сайта  я этой комбинацией спокойно скачивал.. но давненько.
Попробовал заново скачать ранее закачанную таким способом книгу, но облом. Что-то изменилось в настройках сайта.

Попробовал сложную комбинацию для сайтов с защитой от скачки - wget -U "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0 (Pale Moon)" -r -l 2  -k -c -np -w 5 --random-wait адрес_страницы  .... также облом.
Devuan ASCII x32..x64

Оффлайн HsH

  • Administrator
  • *****
  • Сообщений: 3462
Re: ?? Скачать страницу
« Ответ #1 : Май 27, 2015, 12:26:11 »

    Сообщение об ошибке выдаётся? Приведите её точное содержание, если оно имеет место.

Оффлайн ivm ®

  • Местный
  • *****
  • Сообщений: 924
  • ivm@jabber.at
    • Matuntu
Re: ?? Скачать страницу
« Ответ #2 : Май 27, 2015, 18:16:48 »
Хочу скачать вот эту страницу с глубиной на пару уровней -  http://rus-linux.net/MyLDP/BOOKS/LSA/toc.html

Сразу скажу, что вариант wget -r -k -l 2 -p -E -np http://rus-linux.net/MyLDP/BOOKS/LSA/toc.html  не прокатил, хотя другие книги с этого сайта  я этой комбинацией спокойно скачивал.. но давненько.
Попробовал заново скачать ранее закачанную таким способом книгу, но облом. Что-то изменилось в настройках сайта.

Попробовал сложную комбинацию для сайтов с защитой от скачки - wget -U "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0 (Pale Moon)" -r -l 2  -k -c -np -w 5 --random-wait адрес_страницы  .... также облом.
Вопрос из серии: попробуйте угадать, где я буквой в ключе слинковать ошибся. Развлечения у нас такие на пенсии.
© ivm 1991 - настоящее время. All Rights Reserved.
OS Matuntu-Best/Matuntu-Trusty/Matuntu-TT64-M16

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #3 : Май 28, 2015, 10:15:03 »
    Сообщение об ошибке выдаётся? Приведите её точное содержание, если оно имеет место.

Ошибок нет. Скачивает лишь указанную страницу и завершает работу... типа все окей, скачал чего заказывал.
 В командной строке алиас с первым вариантом опций.



Вопрос из серии: попробуйте угадать, где я буквой в ключе слинковать ошибся. Развлечения у нас такие на пенсии.

Да нет тут ошибок, рабочие комбинации и раньше ими уже пользовался. Примеры привел лишь для того, чтобы отрезать разные посылы в ман или еще куда, вопрос давно проработан. Непонятно, почему эта связка перестала работать
Devuan ASCII x32..x64

Оффлайн vita

  • Местный
  • *****
  • Сообщений: 952
  • Fiat lux! (Да будет Свет!)
    • Форум проекта Matuntu
Re: ?? Скачать страницу
« Ответ #4 : Май 28, 2015, 11:00:16 »
Да нет тут ошибок, рабочие комбинации и раньше ими уже пользовался. Примеры привел лишь для того, чтобы отрезать разные посылы в ман или еще куда, вопрос давно проработан. Непонятно, почему эта связка перестала работать
Попробуйте вместо np применить nc. В таком сочетании я смогла скачать указанный файл по Вашей ссылке. Правда, выйти на него первоначально можно лишь после перехода во вкладку Е-книги и после выбора этой книги - в её оглавление. После этого можно положить в закладки желаемую страницу.
Per aspera ad astra! (Через тернии к звездам!)

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #5 : Май 28, 2015, 11:27:21 »
не, та же картина. И через е-книги попробовал со страницы как оглавления (та же самая ссылка) и с первой страницы - http://rus-linux.net/MyLDP/BOOKS/LSA/ch00.html.  

Vita, раз у Вас получилось скачать, то не могли бы сбросить мне ее архив ?
Devuan ASCII x32..x64

Оффлайн vita

  • Местный
  • *****
  • Сообщений: 952
  • Fiat lux! (Да будет Свет!)
    • Форум проекта Matuntu
Re: ?? Скачать страницу
« Ответ #6 : Май 28, 2015, 11:48:47 »
Отправила в ЛС.
Per aspera ad astra! (Через тернии к звездам!)

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #7 : Май 28, 2015, 12:21:18 »
Отправила в ЛС.

Спасибо большое, скачал Ваш файл. Правда Вы весь сайт скачали почти на полгига, но лучше так, чем никак. ))
Я поэтому и ставлю опцию -np, чтобы wget не лез дальше заданной страницы. Нужная книга  там нашлась в каталоге "Администрирование Linux/rus-linux.net/MyLDP/BOOKS/LSA/".
Но как Вам удалось скачать ? Мне не отдает ни страницу, ни сайт. :D
Devuan ASCII x32..x64

Оффлайн vita

  • Местный
  • *****
  • Сообщений: 952
  • Fiat lux! (Да будет Свет!)
    • Форум проекта Matuntu
Re: ?? Скачать страницу
« Ответ #8 : Май 28, 2015, 12:24:32 »
Всегда рада помочь. Весь сайт раза в четыре больше будет. Скачать удалось той же командой, только ключики немножко другие (nc).
Per aspera ad astra! (Через тернии к звездам!)

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #9 : Май 28, 2015, 12:32:24 »
Интересно... либо в настройках надо ковыряться, либо меня там блокируют. С другого IP надо будет попробовать.
Devuan ASCII x32..x64

Оффлайн vita

  • Местный
  • *****
  • Сообщений: 952
  • Fiat lux! (Да будет Свет!)
    • Форум проекта Matuntu
Re: ?? Скачать страницу
« Ответ #10 : Май 28, 2015, 12:45:03 »
Интересно... либо в настройках надо ковыряться, либо меня там блокируют. С другого IP надо будет попробовать.
По приведённой Вами команде тоже ничего не скачивается.
Per aspera ad astra! (Через тернии к звездам!)

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #11 : Май 28, 2015, 12:49:16 »
Интересно... либо в настройках надо ковыряться, либо меня там блокируют. С другого IP надо будет попробовать.
По приведённой Вами команде тоже ничего не скачивается.
Этой командой я уже не одну книгу оттуда скачал. Да и не только оттуда. Перепроверю потом все опции.
Devuan ASCII x32..x64

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #12 : Июнь 10, 2015, 13:10:12 »
Сразу скажу, что вариант wget -r -k -l 2 -p -E -np http://rus-linux.net/MyLDP/BOOKS/LSA/toc.html  не прокатил, хотя другие книги с этого сайта  я этой комбинацией спокойно скачивал.. но давненько.

Сегодня попробовал эту комбинацию и спокойно за 3 секунды скачал всю книгу  ;D
Devuan ASCII x32..x64

Оффлайн vita

  • Местный
  • *****
  • Сообщений: 952
  • Fiat lux! (Да будет Свет!)
    • Форум проекта Matuntu
Re: ?? Скачать страницу
« Ответ #13 : Июнь 10, 2015, 13:37:55 »
Сегодня попробовал эту комбинацию и спокойно за 3 секунды скачал всю книгу  ;D
Действительно сегодня по ссылке произошла загрузка, только как запустить из скачанного чтение книги  ???
Per aspera ad astra! (Через тернии к звездам!)

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #14 : Июнь 10, 2015, 13:45:59 »
так открываешь эту самую из сохраненного каталога .../rus-linux.net/MyLDP/BOOKS/LSA/toc.html - содержание книги.
Дальше как на сайте, только странички будут браться с каталога сохранения

Можно оттуда выдрать папку LSA с содержимым. переименовать ее и очистить от всего лишнего (мусора там много). В браузере сделать кнопку вызова странички содержания книги и все.

Вот так это выглядит в Pale Moon (или FireFox)
« Последнее редактирование: Июнь 10, 2015, 14:06:52 от ek-nfn »
Devuan ASCII x32..x64

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #15 : Июнь 12, 2015, 10:07:21 »
Разобрался я с причиной глюка...

Месяца два назад я экспериментировал с закачкой с файлообменников и внес в config - ~/.wgetrc такие строчки:

header = Accept-Language: ru,en-us;q=0.7,en;q=0.3
header = Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
header = Accept-Encoding: gzip,deflate
header = Accept-Charset: UTF-8,*
header = Keep-Alive: 300
header = Connection: keep-alive


Вот некоторые из них (в частности первая и еще какая-то) не давали скачивать страницу сайта. Да и с других сайтов тоже. Разбираться в точности их написания не стал - wget их проглатывает без возражений, а  файлообменниками сейчас пользуюсь редко.

А за пару дней до новой попытки чистил диск и удалил этот config за ненадобностью. И только сейчас увязал все эти события. Восстановил конфиг, поэкспериментировал ... точно из-за этих строк wget перестает скачивать нужные страницы сайта. С другими опциями (ставил еще около десятка) нормально все качает. Поэтому все нужные опции удобней загонять туда, а не в командную строку.

Сделал по другому. Дописал файл ~/.bashrc парой алиасов (для сайтов и файлов):

alias wgs='wget -r -k -l 3 -p -E -np -P /home/юзер/Загрузки/'  # скачивание сайта в /Загрузки/
alias wgf='wget -c -t 0 -P /home/юзер/Загрузки/'  # скачивание файла в /Загрузки/

А в ~/.wgetrc загнал и закомментировал настройки для хитрых сайтов (это которые не дают себя скачивать разным качалкам типа wget и др.). То есть, когда попадается такой сайт, то просто снимаю # и запускаю алиас wgs c ссылкой на хитрый сайт. Настройки алиаса и из ~/.wgetrc суммируются. Не злоупотреблять - настройки сильно тормозящие процесс (куча пауз и задержек, иммитирующих работу браузера, а не качалки).

# БЛОК НАСТРОЕК ДЛЯ "ХИТРЫХ" САЙТОВ
# user-agent прописывается по вкусу
# user-agent = Mozilla/5.0 (X11; Linux i686; rv:25.0) Gecko/20100101 Firefox/25.0

# пауза в СЕКУНДАХ между загрузками
# wait = 5

# случайное изменение паузы  между загрузками в диапазоне 0.5*WAIT...1.5*WAIT секунд.
# random-wait = on

# пауза в 1..СЕКУНДЫ между повторными попытками загрузки
# waitretry = 10
« Последнее редактирование: Июнь 12, 2015, 10:10:50 от ek-nfn »
Devuan ASCII x32..x64

Оффлайн vita

  • Местный
  • *****
  • Сообщений: 952
  • Fiat lux! (Да будет Свет!)
    • Форум проекта Matuntu
Re: ?? Скачать страницу
« Ответ #16 : Июнь 12, 2015, 11:46:15 »
Разобрался я с причиной глюка...
Месяца два назад я экспериментировал с закачкой с файлообменников и внес в config - ~/.wgetrc такие строчки:
У меня ситуация была практически такая же, по приведённой Вами команде не было скачивания, а в последующем всё скачалось. Никаких конфигов Wget мною не делалось. Скорее всего баг пофиксили и при очередном обновлении Wget проблемы скачивания исчезли.
Per aspera ad astra! (Через тернии к звездам!)

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #17 : Июнь 12, 2015, 12:09:45 »
Vita, а ты поэкспериментируй. Делов на три минуты. Нужные строчки и расположение файла конфигурации тут приведено. Я несколько раз оключал и включал эти настройки, вычленял из-за какой именно строки перестает скачивать всю, страницу. Вышел на первую строку. Потом пробовал и другие конфигурации.
Сейчас эти строки удалил из конфига и все работает.
Нынешний конфиг у меня такой (это если запускать не алиас)

# БЛОК НАСТРОЕК ДЛЯ "ХИТРЫХ" САЙТОВ
user-agent = Mozilla/5.0 (X11; Linux i686; rv:25.0) Gecko/20100101 Firefox/25.0
# пауза в СЕКУНДАХ между загрузками
# wait = 5
# случайное изменение паузы  между загрузками в диапазоне 0.5*WAIT...1.5*WAIT секунд.
# random-wait = on
# пауза в 1..СЕКУНДЫ между повторными попытками загрузки
# waitretry = 10

# ВСЁ ОСТАЛЬНОЕ

# число попыток
tries = 20

# включение рекурсивной загрузки
recursive = on

# глубина рекурсии (inf и 0 - бесконечность)
reclevel = 3

# возобновить загрузку частично загруженного файла
continue = on

# делать ссылки локальными в загруженном HTML или CSS
convert-links = on

# не подниматься в родительский каталог
no-parent = on

# загрузить все изображения и проч., необходимые для отображения HTML-страницы
page-requisites = on

# сохранять документы HTML/CSS с надлежащими расширениями
adjust-extension = on

# игнорировать поле заголовка «Content-Length». Wget будет игнорировть хидеры как-будто бы они не существуют.
ignore-length = on

# Скачивать линки с FTP сайтов как будто они простые файлы, то есть не создавать линки локально.
retr-symlinks = on


Работа с ним чуть тормознее из-за некоторых опций, чем с командной строкой прописанного алиаса wgs , но все работает.
Добавляю вышеописанные строки  - не работает. Хотя прописаны они правильно и wget их заглатывает без возражений
« Последнее редактирование: Июнь 12, 2015, 12:11:38 от ek-nfn »
Devuan ASCII x32..x64

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #18 : Июль 30, 2015, 12:08:19 »
уж до кучи сюда же.
Если при скачивании страниц сайта возникают проблемы с кодировкой кирилицы в заголовках *.html (как это наблюдается при скачивании с help.ubuntu.ru), то в строку команды (или в config) добавляем следующую опцию - --restrict-file-names=nocontrol
Devuan ASCII x32..x64

Оффлайн Пользователь.

  • Местный
  • *****
  • Сообщений: 4613
Re: ?? Скачать страницу
« Ответ #19 : Июль 30, 2015, 22:56:19 »
Для help.ubuntu.ru хорошо бы сюда полную команду выложить, если кому-то понадобится скачать инструкции для офлайн изучения.

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #20 : Июль 30, 2015, 23:54:04 »
нужный выборочный материал с help.ubuntu.ru качал такой командой -  
Цитировать (выделенное)
wget -r -k -l 1 -p -E -np --restrict-file-names=nocontrol -P каталог_назначения ссылка_на_нужный_раздел

Выше  введеной ссылки по сайту не лезет, ниже лишь на 1 (опция -l) уровень - этого почти всегда хватает для любой брошюрки-книги, а при необходимости можно увеличить до 2-3 (с такой необходимостью пока не сталкивался). Сопровождающие материал картинки скачивает, на другие сайты по ссылкам не ходит.
« Последнее редактирование: Январь 17, 2016, 10:56:28 от ek-nfn »
Devuan ASCII x32..x64

Оффлайн ek-nfn

  • Местный
  • *****
  • Автор темы
  • Сообщений: 1422
Re: ?? Скачать страницу
« Ответ #21 : Август 01, 2015, 13:59:55 »
Кстати, если кому-то до сих пор в лом пользоваться терминалом (ну я сам таким был когда соскочил с windows, а сейчас все основные операции делаю не через gui, а через скрипты, алиасы и т.д. Потому что это действительно удобней, быстрей и машину гораздо меньше грузит), то существует старенькая, но не потерявшая актуальности софтина HTTrack. К ней есть и gui, и web приложение (к сожалению лишь для FF). Все лежит в репозиториях.
Это gui - httraqt
Devuan ASCII x32..x64