2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 С помощью каких алгоритмов реализовывается сравнение строк
Сообщение15.01.2013, 01:26 


04/10/10
68
Исходная задача:
Есть много интернет-магазинов у каждого из них один и тот же продукт, может иметь разные названия.
Пример:
    Lenovo IdeaPad U260
    Ноутбук Lenovo IdeaPad U260 12.5" [59064465]
    Lenovo IdeaPad U260 59064465 Intel Core i3 380UM (1.33GHz), 4096MB, 320GB, 12.5" (1366*768), DVD+/-RW, Shared VGA, Windo ws 7 Home Basic, Brown, 1.4 kg (59-064465)
    IdeaPad U260 12,5" WXGA, Ci3-380UM(1,33GHz) /4Gb/320Gb/Intel HD/NO DVD/WebCam/WiFi/BT/W7HB/1,38kg, Mocha brown
    Ноутбук Lenovo IdeaPad U260 i384G320B (Intel Core i3-380UM / 4096 МБ / 320 ГБ / Intel GMA HD / 12,5" / Win 7 HB)

Необходимо алгоритмы с помощью, которых система сможет определить, что на самом деле это один и тот же товар.

Такой механизм реализован в прайс-агрегаторах:

Что нашел сам: http://en.wikipedia.org/wiki/String_metric , но не уверен, что этих алгоритмов хватит для сложного анализа

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение15.01.2013, 14:49 


05/09/12
2587
Цитата:
Директор цирка: Принцем вы пленились, с ним вы Решили судьбу связать навек. Но ведь принц и Мистер Икс – Один и тот же человек!
Все: Какой позор!

Задача давнишняя, непростая и вообще говоря нерешаемая. Сталкиваюсь с ней регулярно. Даже если параметры заданы в отдельных полях, нет гарантии принять правильное решение, тем более если для получения параметров придется парсить строку, которая может отличаться от предполагаемого формата (по ошибке, или просто не учитывался формат при её генерировании). Ситуация становится ещё интереснее, когда для разных целей пару можно признать как одним, так и различными элементами.

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение15.01.2013, 15:29 


04/10/10
68
Вы хотите сказать, что все эти прайс-площадки держаться на ручной связке позиций, без никаких алгоритмов обработки?

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение15.01.2013, 15:50 


10/04/12
705
Что такое "один и тот же товар"? Даже это понятие неформализовано. Есть товары. Есть атрибуты. Какие атрибуты определяют новый товар? Какие определяют модификацию товара? Даже человек в этом без опыта запутается, а вы хотите автоматизированный общий алгоритм.

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение15.01.2013, 16:25 


04/10/10
68
Выше был приведен пример одного и того же товара, он определяется по его наименованию

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение15.01.2013, 16:53 


10/04/12
705
Примера явно недостаточно, тем более, без знаний того, как именуется продукция фирмой.

iPad 4
iPad 4 Black
iPad 4 White
Apple iPad4 32GB WiFi + 4G (LTE) black
iPad4 64GB 4G

А тут? Это все один товар или разные?

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение15.01.2013, 19:11 


28/11/11
2884
like2dev, хороший вопрос! Мне самому интересны подобные алгоритмы. Есть ли у вас хоть какая-либо информация по ним?

-- 15.01.2013, 19:23 --

Может быть, тут есть какие-то варианты с самообучением? Чтобы программа сама искала товар в интернете и сравнивала спецификации...

-- 15.01.2013, 19:25 --

Ктсати, вроде что-то на фразу "нечёткое сравнение строк" гуглится.

-- 15.01.2013, 19:31 --

Нашёл такой список алгоритмов (по фамилиям авторов):
Цитата:
Левенштайн
Укконен
Кнут-Моррис-Пратт
Бойер-Мур-Хорспул
Сандей
Хьюм и Сандей
Харрисон
Карп-Рабин
Вагнер-Фишер
Хиршберг
Хант-Шиманский
Машек-Патерсон

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение15.01.2013, 23:14 


04/10/10
68
Перечисленные вами алгоритмы всеголишь облегчат поиск возможных совпадений, но не дают 100% гарантии...

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение15.01.2013, 23:57 


28/11/11
2884
_Ivana и mustitz уже сказали, что в общем виде задача решения со 100% гарантией не имеет. Так что же вы хотите? Откуда у вас уверенность в том, что оно существует?

-- 16.01.2013, 00:17 --

mustitz в сообщении #671978 писал(а):
iPad 4
iPad 4 Black
iPad 4 White
Apple iPad4 32GB WiFi + 4G (LTE) black
iPad4 64GB 4G

А тут? Это все один товар или разные?

Это зависит от строки поиска. Ведь это что-то вроде несимметричной функции...
Если запрос был "Ipad 4" - то да, это всё одно и тоже.

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение16.01.2013, 01:08 


05/09/12
2587
like2dev
Цитата:
Остап Бендер: стопроцентную гарантию дает только страховой полис.


longstreet в сообщении #672142 писал(а):
Если запрос был "Ipad 4" - то да, это всё одно и тоже.
Только если запрос был регистронезависимый и пробелонеучитывающий.

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение16.01.2013, 11:35 


10/04/12
705
longstreet в сообщении #672142 писал(а):
Это зависит от строки поиска. Ведь это что-то вроде несимметричной функции...
Если запрос был "Ipad 4" - то да, это всё одно и тоже.


Я вообще в условии не видел "строки поиска". Было только "определить, где на самом деле это один и тот же товар".

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение16.01.2013, 22:49 


28/11/11
2884
Тогда не хватает данных. И, чтоб вы знали, "iPad 4 Black" ни один магазин не напишет. Будет более подробная информация.

-- 16.01.2013, 22:52 --

Кстати, ЯндексМаркет с поставленной задачей справляется. Он вообще не выдаёт списка товара. Выдаёт товар и список магазинов, где его можно приобрести.

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение16.01.2013, 23:32 


04/10/10
68
Интересует, как тогда справляется с этими задачами Yandex Market, price.ru, hotline.ua ?

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение16.01.2013, 23:37 


28/11/11
2884
Про wikimart я слышал, что там 30 человек в штате, которые категоризуют товар, оО

 Профиль  
                  
 
 Re: С помощью каких алгоритмов реализовывается сравнение строк
Сообщение25.01.2013, 00:14 


04/10/10
68
Товарищ подсказал, что можно решать задачи такого типа с помощью Экспертных систем (Нечёткая логика).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 16 ]  На страницу 1, 2  След.

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group