2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение04.08.2018, 01:55 


14/06/15
144
Здравствуйте. 1. Скажите, пожалуйста, как с сайта (вход без пароля) и с сайта2 (логин и пароль amigo1) произвести выгрузку данных и их сохранить для последующих операций с ними, то есть какой программой это сделать или что дописать в конце строки браузера или просто надо сохранить страницу в html (и перебрасывать данные в excell)?

2. Хотелось бы сохранить эти данные у себя на компе так, чтобы в будущем эти данные (когда на сайте их уже не будет) можно было использовать как доказательство того, что эти данные действительно были по такому адресу в интернете - а не я их придумал.

3. Какой программой (кроме excell) обрабатывать эти данные - то есть строить графики, гистограммы, то есть произвести статистику и аналитику этих данных. Чтоб было просто, качественно и понятно. Можно и онлайн инструментом.

P.S. Там какая-то дичь с баллами поступающих.

 Профиль  
                  
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение04.08.2018, 02:25 
Заслуженный участник
Аватара пользователя


11/12/05
9291
Кентакска волост
Страница сайта, которая без пароля прямо сейчас скачивается на мой комп утилитой httrack:

httrack https://abiturient.utmn.ru/rating

Можно также попробовать выкачать весь сайт:
httrack https://abiturient.utmn.ru/

Как с паролем -- не знаю. Так же как и ответы на другие вопросы.

 Профиль  
                  
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение04.08.2018, 02:26 
Заслуженный участник


06/07/11
5604
кран.набрать.грамота
sashatgu в сообщении #1330478 писал(а):
Здравствуйте. 1. Скажите, пожалуйста, как с сайта (вход без пароля) и с сайта2 (логин и пароль amigo1) произвести выгрузку данных и их сохранить для последующих операций с ними, то есть какой программой это сделать или что дописать в конце строки браузера или просто надо сохранить страницу в html (и перебрасывать данные в excell)?
В эпоху, когда интернет давали по карточкам, были популярны программы типа teleport pro. Последний раз я чем-то таким пользовался лет 16 назад. Можно свой парсер написать, но, судя по вашим вопросам, вы научитесь этому не раньше чем через год-два.
sashatgu в сообщении #1330478 писал(а):
2. Хотелось бы сохранить эти данные у себя на компе так, чтобы в будущем эти данные (когда на сайте их уже не будет) можно было использовать как доказательство того, что эти данные действительно были по такому адресу в интернете - а не я их придумал.
Веб-архив (https://www.web.archive.org/), кэш гугла.
sashatgu в сообщении #1330478 писал(а):
3. Какой программой (кроме excell) обрабатывать эти данные - то есть строить графики, гистограммы, то есть произвести статистику и аналитику этих данных. Чтоб было просто, качественно и понятно. Можно и онлайн инструментом.
Какой программой умеете пользоваться, такой и обрабатывайте. Если не умеете пока никакой, то в этом случае у меня для вас плохие новости.

 Профиль  
                  
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение04.08.2018, 11:21 
Супермодератор
Аватара пользователя


09/05/12
22908
Кронштадт
Вообще-то проблема сохранения данных решается выделением таблицы в броузере и Ctrl+C/Ctrl+V в Excel (или просто первый попавшийся текстовый редактор).

 Профиль  
                  
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 12:57 


14/06/15
144
Dan B-Yallay в сообщении #1330480 писал(а):
Страница сайта, которая без пароля прямо сейчас скачивается на мой комп утилитой httrack:

httrack https://abiturient.utmn.ru/rating

Можно также попробовать выкачать весь сайт:
httrack https://abiturient.utmn.ru/

Как с паролем -- не знаю. Так же как и ответы на другие вопросы.



А как все таки скачивать сайты с логином и паролем, при условии, что логин и пароль я знаю!

 Профиль  
                  
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 13:12 


05/09/16
8916
sashatgu в сообщении #1330478 писал(а):
или просто надо сохранить страницу в html (и перебрасывать данные в excell)?

Выделить таблицу и вставить в эксель.
sashatgu в сообщении #1330478 писал(а):
2. Хотелось бы сохранить эти данные у себя на компе так, чтобы в будущем эти данные (когда на сайте их уже не будет) можно было использовать как доказательство того, что эти данные действительно были по такому адресу в интернете - а не я их придумал.

Ну тут сложнее, если для суда то типа заверять скриншоты у нотариуса? :mrgreen:
sashatgu в сообщении #1330478 писал(а):
3. Какой программой (кроме excell) обрабатывать эти данные - то есть строить графики, гистограммы, то есть произвести статистику и аналитику этих данных. Чтоб было просто, качественно и понятно. Можно и онлайн инструментом.

Для однократной работы, лучше экселя вряд ли найдете. OpenOffice\LibreOffice, возможно.

 Профиль  
                  
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 13:30 
Заслуженный участник


06/07/11
5604
кран.набрать.грамота
sashatgu в сообщении #1330867 писал(а):
А как все таки скачивать сайты с логином и паролем, при условии, что логин и пароль я знаю!
1. Научиться программировать на одном из языков: java, C#, python, Ruby
2. Изучить основы HTML и CSS
3. Установить библиотеку Selenium Webdriver для одного из выученных в п. 1 языков
4. Начать "скачивать сайты с логином и паролем"

 Профиль  
                  
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 15:08 
Заслуженный участник


16/02/13
3797
Владивосток
Касательно логина и пароля.
Насколько я знаю, wget умеет. Думаю, все (ну, никак не меньше половины) простейший пароль таки умеют. Просто почитать маны.

-- 06.08.2018, 22:12 --

В wget это называется --http-user= и --http-password=.
И да, это, видимо, для простейшей парольной защиты, забитой на сервере.
За последнее время, так понимаю, появилось несколько способов. Тут уж надо индивидуально.

 Профиль  
                  
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 15:19 
Заслуженный участник


06/07/11
5604
кран.набрать.грамота
Тут есть нюанс.
В последние годы в области веб-разработки стало модно подгружать контент javascript'ом. Сначала сервер отдает заготовку страницы, браузер ее скачивает, потом выполняет js, а этот js уже подгружает остальное. Вход на сайт тоже может так выполняться, кстати. И тут, хотите - не хотите, а только браузеры умеют отрабатывать js. wget, curl и прочие скачиватели идут в сад.
Проверить очень просто: отключаем js в браузере, заходим на сайт. Если добраться до данных получилось - ура, не получилось - не ура.

 Профиль  
                  
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 15:47 
Заслуженный участник


16/02/13
3797
Владивосток
rockclimber в сообщении #1330889 писал(а):
Тут есть нюанс
И притом весьма такой нехилый нюанс.
К счастью, исходники яваскрипта открыты и их (теоретически) можно понять. Нет, сам не пробовал. Впрочем, я много чего сам не пробовал...
Я уж не говорю, что, ещё более теоретически, можно и интерпретатор яваскрипта наваять :wink: Кто запретит?

 Профиль  
                  
 
 Re: Как и чем произвести выгрузку данных с сайта и их обработку?
Сообщение06.08.2018, 15:59 
Заслуженный участник


06/07/11
5604
кран.набрать.грамота
Никто не запретит. Но если написать интерпретатор js, то наша "программа для скачивания сайтов" превращается... программа превращается... превращается программа... в еще один браузер!
Не проще ли взять сразу исходники браузерного движка и приспособить его парсить сайты? Но тогда у нас уже получится Selenium. :mrgreen:
Поэтому, собственно, никто ничего не пишет. Пользуются готовым.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 11 ] 

Модераторы: Karan, maxal, Toucan, PAV, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group