Как скачать все страницы *.html с сайта при помощи wget?

Unmanner · 10.04.2012, 11:42

Всем привет!

Недавно нужно было скачать и распарсить страницы около 100 сайтов.

Однако какие-бы опции я не давал wget'y он качал сайт c ненужными документами(картинки, pdf-ки, и пт.)

Вообщем со своей задачай справился за 2-е суток, вместо пары часов.

Так вот, вопрос такой,что тут было неверно:

Код: [ скачать ] [ спрятать ]

Используется синтаксис Bash

wget --recursive \

     --forse-html \

     --tries=10 \

     -nc \

     -l 3 \

     -U Mozilla http://www.site.com

venco · 10.04.2012, 14:04

Код:

  -A,  --accept=LIST               comma-separated list of accepted extensions.
  -R,  --reject=LIST               comma-separated list of rejected extensions.

Maslov · 10.04.2012, 14:11

Может не сработать, если контент генерируется динамически. В этом случае URL типа get_doc.php?id=101 вполне может возвращать PDF-документ.

Unmanner · 10.04.2012, 14:23

В Вигет-документации написано что по дефолту он загружает только html подобные страницы.

И есть такой ключ -p

Код:

‘-p’
‘--page-requisites’
This option causes Wget to download all the files that are necessary to properly display a given html page. This includes such things as inlined images, sounds, and referenced stylesheets.

Как минимум это недокументированное поведение. Может вы сможете попробовать у себя, на другой конфигурации?

Научный форум dxdy

Как скачать все страницы *.html с сайта при помощи wget?