Данный алгоритм самый простейший и построен на поиске дубликатов по жесткому совпадению md5 сумм файлов. Это значит, что мы отсеиваем
Найти подстроки в определённых типах файлов по серверу. Связка в потоке find, grep, xargs
Бывает так, что необходимо найти подстроки только в файлах с определённым расширением и типом. Или в файлах содержащих определённые символы