ОБЩИЕ ПОДХОДЫ К АВТОМАТИЗАЦИИ РЕШЕНИЯ КЛАССИФИКАЦИОННЫХ ЗАДАЧ В ОТНОШЕНИИ БОЛЬШИХ ФАЙЛОВЫХ МАССИВОВ

Современные носители информации большой емкости, особенно носители информации серверов, содержат большое число файлов, каждый из которых должен быть подвергнут анализу на предмет его относимости к поставленным перед экспертом вопросам. Такой анализ может отнять много времени, особенно если учесть, что большинство файлов остались неизменными со времени своего создания и не представляют никакого интереса для эксперта. Это могут быть файлы различных приложений, операционной системы и т.д. Для ускорения процесса анализа существует несколько решений.

Наиболее известное из них – технология HASH SETS. Ее суть заключается в следующем: по криптографическим алгоритмам рассчитываются хэши файлов, назначение которых заранее известно, массив значений хэшей объединяется в специальный набор, который впоследствии используется при анализе носителя информации. По результатам анализа файлы классифицируются на «известные» (хэши которых присутствуют в базе данных) и «неизвестные». Современные операционные системы включают в свой состав тысячи файлов, различные приложения. Технология HASH SETS позволяет не только «отделить» измененные в ходе работы компьютерной системы файлы от файлов, которые заведомо не содержат интересующую эксперта информацию, но и существенно уменьшить объем анализируемого массива файлов.

Одним из наиболее обширных на сегодняшний день является набор данных NSRL RDS, распространяющийся Национальным институтом стандартов и технологий США (National institute of standards and technology, NIST).


Все основные наборы HASH SETS, отвечают следующим критериям:

‒ создаются организациями, заявляющими о своей беспристрастности и нейтральности,

‒ проходят контроль качества,

‒ являются доступными для широкого круга пользователей,

‒ являются многоцелевыми: содержат большое количество наборов хэшей, объединенных по различным критериям.

Недостатком распространенных наборов хэшей является то, что для многих файлов, потенциально относящихся к категории «известных» файлов, несовпадение их хэшей со значениями из наборов хэшей ожидаемо. Это связано с тем, что наборы хэшей, как правило, не учитывают новое программное обеспечение, кэши Web-страниц, а также файлы, создаваемые при установке программ – конфигурационные файлы и файлы-манифеста.

Говоря о методических аспектах применения технологии HASH SETS, следует упомянуть ее адаптируемость к конкретным экспертным задачам, чему способствует возможность самостоятельного создания наборов HASH SETS. Например, при использовании клонирования содержимого носителей информации для быстрой установки программной среды на компьютерах игровых клубов, и последующем исследовании большого количества однотипных компьютеров, возможно создать собственный набор HASH SETS и применять его в ходе экспертизы.

Технология HASH SETS достаточно давно и успешно применяется в зарубежной и отечественной экспертной практике. Существует большое количество интернет ресурсов, на которых размещены для свободного использования готовые наборы хэшей, ориентированные на решение различных задач. Появились специализированные экспертные программы, позволяющие как использовать сторонние наборы хэшей, так и работать с собственными наборами. Например, такой функционал имеется в программном обеспечении Forensic Assistant.

Менее известные решения ускорения процесса анализа большого количества файлов связаны с реализацией иных подходов. Примером этого является разработка зарубежных ученых, в основе которой лежит фильтрация массива файлов по девяти критериям. Новый подход позволяет «отсеивать» файлы, созданные без участия пользователя или не содержащие относящуюся к нему информацию, даже в том случае, когда хэш таких файлов не известен.


Предложено считать файлы криминалистически «неинтересными», если они удовлетворяют каким-либо двум из следующих критериев:

‒ частое появление значения хэша (на минимальном числе логических дисков);

‒ часто встречающееся значение пути к файлу (на минимальном числе логических дисков);

‒ часто встречающаяся пара «имя файла»/«имя каталога»;

‒ необычная интенсивность использования файла, имеющегося на логическом диске;

‒ необычное использование в некоторую неделю (при этом расширение имени файла необычно для этой недели);

‒ необычный размер файла (в сравнении с файлами, имеющими аналогичное расширение);

‒ зарегистрирован в каталогах, которые заведомо отнесены экспертом к каталогам с криминалистически «неинтересными» файлами;

‒ путь к файлу содержит элементы (подкаталоги), которые заведомо отнесены экспертом к криминалистически «неинтересным» каталогам;

‒ файлы с криминалистически «неинтересными» расширениями.

Данные критерии получены экспериментально и, по мнению авторов нового подхода, дают 1% ошибку по каждому из критериев.

Эффективность указанного подхода в 3,2 раза выше, чем эффективность подхода, ориентированного на работу с наборами хэшей. Важно отметить, что ошибка оценки файлов как криминалистически «неинтересных» составляет 0.1%, что является достаточным для большинства случаев.

Оценивая применимость обоих решений для производства экспертизы, необходимо учитывать, что при использовании первого метода важно адаптировать имеющиеся типовые наборы хэшей к специфике и многообразию используемого в России программного обеспечения. Практическое применение второго метода станет возможным после проведения дополнительных исследований, которые подтвердят его эффективность в специфических российских условиях.

Недавние статьи:
Архив статей: