2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Минимальная вероятность коллизии для очень похожих фото
Сообщение29.03.2018, 22:40 


02/04/13
289
Стоит задача организовать хранение 50 ТБ фото и видео материалов с гарантией того, что ни один бит хранимых данных не исказится (а если исказится, то необходимо, чтобы мы знали об этом).
Для контроля неискаженности данных при записи в хранилище для каждого фото и видео будет подсчитана хэш-сумма. Хэш-сумма каждого фото и видео нужна в целях гарантии неискаженности данных. Тут возникает вопрос. Какой хэш-алгоритм (или контрольная сумма) имеют наименьшую вероятность коллизии при малом изменении изображения и видео? Ситуация, когда два изначально разных фото имеют одинаковую хэш-сумму, не страшна. Страшна ситуация, когда у фото "слетели" пара пикселей, а мы об этом никогда не узнаем, так как искаженное фото "попало" в коллизию со начальной его версией. Какой алгоритм наиболее надежен с этой точки зрения? Может есть алгоритмы специально разработанные для этих целей для фото и/или видео?

 Профиль  
                  
 
 Re: Минимальная вероятность коллизии для очень похожих фото
Сообщение29.03.2018, 22:57 
Заслуженный участник


06/07/11
5627
кран.набрать.грамота
Вы имеете в виду лавинный эффект? Насколько я знаю, все хэш-функции обладают таким свойством.

 Профиль  
                  
 
 Re: Минимальная вероятность коллизии для очень похожих фото
Сообщение29.03.2018, 23:03 
Заслуженный участник


20/08/14
11070
Россия, Москва
А чем не устраивают стандартные MD5, SHA-2, ГОСТ Р 34.11-2012? Вероятность обнаружения коллизии для любого из них исчезающе мала, применением двух разных алгоритмов она сводится и вовсе к абстрактному числу, стойкость их (обнаружение) к одиночным ошибкам и пакетам ошибок доказана. Да собственно можно любую криптографическую хэш-функцию брать, для данной задачи они все неплохи - и все не дают 100% гарантии неизменности исходных данных.
В чём здесь может быть специфика фотоизображений непонятно, ведь достаточно контролировать целостность контейнера (т.е. просто файла). Или Вам хочется обеспечить сохранность цветов пикселей с разрешением модификации прочих данных в файле? Тогда уточните задачу, возможно придётся контролировать криптографической функцией уже распакованные пиксели.

 Профиль  
                  
 
 Re: Минимальная вероятность коллизии для очень похожих фото
Сообщение31.03.2018, 21:50 


02/04/13
289
Спасибо за ответы. Я так и думал. Задал вопрос на всякий случай.

 Профиль  
                  
 
 Re: Минимальная вероятность коллизии для очень похожих фото
Сообщение02.07.2018, 00:43 
Аватара пользователя


07/02/12
1403
Питер
Современные форматы сжатия уже обладают неплохим косвенным лавинным эффектом. Построенный поверх хеш MD5, например, должен вас успокоить для характерных объемов данных и характерных размеров картинок.

 Профиль  
                  
 
 Re: Минимальная вероятность коллизии для очень похожих фото
Сообщение03.08.2018, 06:03 
Аватара пользователя


02/08/18

30
ТС в вашей задаче нужно скорее думать о резервировании и коррекции данных. Тут одними хешами не обойдёшься - нужен raid-массив. При этом не стоит забывать что хранение на одном физическом сервере небезопасно (пожар и до свидания инфа, даже в raid_е).
Соответственно ваши фото надо залить в приличный облачный сервис (а может и не один). А для обеспечения приватности ещё и зашифровать фотографии (а уже с шифрованных снять хеши). md5 и sha1 своё уже отжили не рекомендованы, т.к. есть алгоритмы создания изображений с коллизиями, для них. Вот пример для sha-1 https://shattered.io/
С md-5 всё ещё хуже.
Также не забывайте что можно комбинировать хеширование, снимая хеш с хеша, что усилит лавинный эффект, который вам так нравится :)

 Профиль  
                  
 
 Re: Минимальная вероятность коллизии для очень похожих фото
Сообщение03.08.2018, 11:33 
Заслуженный участник


20/08/14
11070
Россия, Москва
Tantal в сообщении #1330316 писал(а):
md5 и sha1 своё уже отжили не рекомендованы, т.к. есть алгоритмы создания изображений с коллизиями, для них.
Тут надо добавлять что хотя и не рекомендованы, но до сих пор нет алгоритма построения коллизии для известного хэша (т.е. для произвольного файла), только алгоритм создания пары файлов с одинаковым (и заранее не известным!) хэшем, чего в реальных приложениях никогда не встречается. Поэтому пользоваться ими вполне можно, т.к. пока нет алгоритма искажения файла без искажения его хэша, что собственно и требуется.
Кроме того, выше я уже предложил использовать два разных хэша (а не хэш от хэша, что бессмыслица). Коллизию одновременно к обоим не построить.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group