2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Как скачать все страницы *.html с сайта при помощи wget?
Сообщение10.04.2012, 11:42 
Аватара пользователя
Всем привет!

Недавно нужно было скачать и распарсить страницы около 100 сайтов.

Однако какие-бы опции я не давал wget'y он качал сайт c ненужными документами(картинки, pdf-ки, и пт.)

Вообщем со своей задачай справился за 2-е суток, вместо пары часов.

Так вот, вопрос такой,что тут было неверно:

Используется синтаксис Bash
wget --recursive \
     --forse-html \
     --tries=10 \
     -nc \
     -l 3 \
     -U Mozilla http://www.site.com

 
 
 
 Re: Как скачать все страницы *.html с сайта при помощи wget?
Сообщение10.04.2012, 14:04 
Код:
  -A,  --accept=LIST               comma-separated list of accepted extensions.
  -R,  --reject=LIST               comma-separated list of rejected extensions.

 
 
 
 Re: Как скачать все страницы *.html с сайта при помощи wget?
Сообщение10.04.2012, 14:11 
Может не сработать, если контент генерируется динамически. В этом случае URL типа get_doc.php?id=101 вполне может возвращать PDF-документ.

 
 
 
 Re: Как скачать все страницы *.html с сайта при помощи wget?
Сообщение10.04.2012, 14:23 
Аватара пользователя
В Вигет-документации написано что по дефолту он загружает только html подобные страницы.

И есть такой ключ -p

Код:
‘-p’
‘--page-requisites’
This option causes Wget to download all the files that are necessary to properly display a given html page. This includes such things as inlined images, sounds, and referenced stylesheets.


Как минимум это недокументированное поведение. Может вы сможете попробовать у себя, на другой конфигурации?

 
 
 [ Сообщений: 4 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group