rockclimberУ меня к Вам есть вопрос.
Я планирую создать что-то вроде путеводителя по форуму (для тех, кто просто ищет развлечений) и что-то вроде FAQ. (Я не планирую пока никаких технических чудес -- просто отдельное сообщение с ссылками на наиболее ценные темы / сообщения форума.) Один из способов, который я могу придумать для этих целей, состоит в следующем:
Создать и проанализировать частотные словари форума (списки слов, отсортированных в порядке убывания частоты) следующих типов:
1. Слова в названиях тем.
2. Слова в текстах сообщений нерядовых пользователей (модераторов и ЗУ).
3. Слова в текстах сообщений рядовых пользователей.
Хорошо бы мне иметь это отдельно только для математических разделов.
Если Вы сможете вытянуть все эти тексты в указанных группировках, форум Вас не забудет :)
Мне достаточно иметь только сырые данные. Но если для Вас написать скрипт для создания частотного словаря -- пара минут времени, то это может быть проще и быстрее, чем выкладывать где-то гиг архивов. О словоформах и всяком мусоре можно вовсе не беспокоиться -- я разберусь с этим сам.
PS. Всё это совсем не срочно -- я планирую заниматься (не спеша) своими проектами полгода, не меньше.
PPS. Я надеюсь, что прошу от Вас не более 2-3 часов личного времени (не считая работы компьютеров). Если это существенно больше, лучше обсудить отдельно и целесообразность, и методы.