2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение04.08.2018, 01:55 
Здравствуйте. 1. Скажите, пожалуйста, как с сайта (вход без пароля) и с сайта2 (логин и пароль amigo1) произвести выгрузку данных и их сохранить для последующих операций с ними, то есть какой программой это сделать или что дописать в конце строки браузера или просто надо сохранить страницу в html (и перебрасывать данные в excell)?

2. Хотелось бы сохранить эти данные у себя на компе так, чтобы в будущем эти данные (когда на сайте их уже не будет) можно было использовать как доказательство того, что эти данные действительно были по такому адресу в интернете - а не я их придумал.

3. Какой программой (кроме excell) обрабатывать эти данные - то есть строить графики, гистограммы, то есть произвести статистику и аналитику этих данных. Чтоб было просто, качественно и понятно. Можно и онлайн инструментом.

P.S. Там какая-то дичь с баллами поступающих.

 
 
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение04.08.2018, 02:25 
Аватара пользователя
Страница сайта, которая без пароля прямо сейчас скачивается на мой комп утилитой httrack:

httrack https://abiturient.utmn.ru/rating

Можно также попробовать выкачать весь сайт:
httrack https://abiturient.utmn.ru/

Как с паролем -- не знаю. Так же как и ответы на другие вопросы.

 
 
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение04.08.2018, 02:26 
sashatgu в сообщении #1330478 писал(а):
Здравствуйте. 1. Скажите, пожалуйста, как с сайта (вход без пароля) и с сайта2 (логин и пароль amigo1) произвести выгрузку данных и их сохранить для последующих операций с ними, то есть какой программой это сделать или что дописать в конце строки браузера или просто надо сохранить страницу в html (и перебрасывать данные в excell)?
В эпоху, когда интернет давали по карточкам, были популярны программы типа teleport pro. Последний раз я чем-то таким пользовался лет 16 назад. Можно свой парсер написать, но, судя по вашим вопросам, вы научитесь этому не раньше чем через год-два.
sashatgu в сообщении #1330478 писал(а):
2. Хотелось бы сохранить эти данные у себя на компе так, чтобы в будущем эти данные (когда на сайте их уже не будет) можно было использовать как доказательство того, что эти данные действительно были по такому адресу в интернете - а не я их придумал.
Веб-архив (https://www.web.archive.org/), кэш гугла.
sashatgu в сообщении #1330478 писал(а):
3. Какой программой (кроме excell) обрабатывать эти данные - то есть строить графики, гистограммы, то есть произвести статистику и аналитику этих данных. Чтоб было просто, качественно и понятно. Можно и онлайн инструментом.
Какой программой умеете пользоваться, такой и обрабатывайте. Если не умеете пока никакой, то в этом случае у меня для вас плохие новости.

 
 
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение04.08.2018, 11:21 
Вообще-то проблема сохранения данных решается выделением таблицы в броузере и Ctrl+C/Ctrl+V в Excel (или просто первый попавшийся текстовый редактор).

 
 
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 12:57 
Dan B-Yallay в сообщении #1330480 писал(а):
Страница сайта, которая без пароля прямо сейчас скачивается на мой комп утилитой httrack:

httrack https://abiturient.utmn.ru/rating

Можно также попробовать выкачать весь сайт:
httrack https://abiturient.utmn.ru/

Как с паролем -- не знаю. Так же как и ответы на другие вопросы.



А как все таки скачивать сайты с логином и паролем, при условии, что логин и пароль я знаю!

 
 
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 13:12 
sashatgu в сообщении #1330478 писал(а):
или просто надо сохранить страницу в html (и перебрасывать данные в excell)?

Выделить таблицу и вставить в эксель.
sashatgu в сообщении #1330478 писал(а):
2. Хотелось бы сохранить эти данные у себя на компе так, чтобы в будущем эти данные (когда на сайте их уже не будет) можно было использовать как доказательство того, что эти данные действительно были по такому адресу в интернете - а не я их придумал.

Ну тут сложнее, если для суда то типа заверять скриншоты у нотариуса? :mrgreen:
sashatgu в сообщении #1330478 писал(а):
3. Какой программой (кроме excell) обрабатывать эти данные - то есть строить графики, гистограммы, то есть произвести статистику и аналитику этих данных. Чтоб было просто, качественно и понятно. Можно и онлайн инструментом.

Для однократной работы, лучше экселя вряд ли найдете. OpenOffice\LibreOffice, возможно.

 
 
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 13:30 
sashatgu в сообщении #1330867 писал(а):
А как все таки скачивать сайты с логином и паролем, при условии, что логин и пароль я знаю!
1. Научиться программировать на одном из языков: java, C#, python, Ruby
2. Изучить основы HTML и CSS
3. Установить библиотеку Selenium Webdriver для одного из выученных в п. 1 языков
4. Начать "скачивать сайты с логином и паролем"

 
 
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 15:08 
Касательно логина и пароля.
Насколько я знаю, wget умеет. Думаю, все (ну, никак не меньше половины) простейший пароль таки умеют. Просто почитать маны.

-- 06.08.2018, 22:12 --

В wget это называется --http-user= и --http-password=.
И да, это, видимо, для простейшей парольной защиты, забитой на сервере.
За последнее время, так понимаю, появилось несколько способов. Тут уж надо индивидуально.

 
 
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 15:19 
Тут есть нюанс.
В последние годы в области веб-разработки стало модно подгружать контент javascript'ом. Сначала сервер отдает заготовку страницы, браузер ее скачивает, потом выполняет js, а этот js уже подгружает остальное. Вход на сайт тоже может так выполняться, кстати. И тут, хотите - не хотите, а только браузеры умеют отрабатывать js. wget, curl и прочие скачиватели идут в сад.
Проверить очень просто: отключаем js в браузере, заходим на сайт. Если добраться до данных получилось - ура, не получилось - не ура.

 
 
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 15:47 
rockclimber в сообщении #1330889 писал(а):
Тут есть нюанс
И притом весьма такой нехилый нюанс.
К счастью, исходники яваскрипта открыты и их (теоретически) можно понять. Нет, сам не пробовал. Впрочем, я много чего сам не пробовал...
Я уж не говорю, что, ещё более теоретически, можно и интерпретатор яваскрипта наваять :wink: Кто запретит?

 
 
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 15:59 
Никто не запретит. Но если написать интерпретатор js, то наша "программа для скачивания сайтов" превращается... программа превращается... превращается программа... в еще один браузер!
Не проще ли взять сразу исходники браузерного движка и приспособить его парсить сайты? Но тогда у нас уже получится Selenium. :mrgreen:
Поэтому, собственно, никто ничего не пишет. Пользуются готовым.

 
 
 [ Сообщений: 11 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group