1Отсортировать файлы jpg на две категории (две папки). Нужные страницы, и мусор, если кратко

2 000 руб.
  • Выполнено
  • Создано
  • Поиск и обработка информации
  • Задание № 2954426
Адрес
Виртуальное задание
Завершить
Стоимость
2 000₽
Нужно
Новое задание для сортировки, по аналогии с предыдущим, только тут массив файлов больше, и пустые ненужные листы встречаются гораздо реже, просматривается проще, так как мусорные листы видны сразу, они почти все белые (пустые). Объем = 97тыс в А4, размер папки 20гб предоставлю торрент ссылку. Цель: нужно отсортировать файлы на две папки (категории). Папка 1 (пустые данные, мусор). В ней получить массив файлов по следующим критериям, состоящих только из белых (пустых), приближенным к белым (пустым) листам, с помарками, непонятными ненужными надписями, обрезанные надписи, росчерки, рукописные пометки, рукописные записки, цветные вкладки с рукописными пометками, только одними печатями без подписи, остатки текста, подписи из электронных писем. Папка 2 (страницы документов). Все остальные файлы, в которых присутствует адекватная информация, которую можно отнести к отдельным листам документов, содержит текст, печати с подписями, таблицы, это отдельные страницы документов, попавшие в данную сортировку. Пояснения для большей понятности, что вы делаете: выданная вам папка - это массив файлов, в который попали отсканированные листы с ненужной пустой информацией. И чтобы освободить общий массив документов от пустых ненужных страниц, мне нужно получить имена этих файлов (результат в папке 1(пустые данные)), чтобы их удалить из общего массива. Результат в папке 2(страницы документов) – нужен для итоговой сверки выполненной сортировки с изначально выданной папкой, то есть, например, было 10 файлов в папке, в результате получаем две папки по 6 и 4 файлов соответственно. Дополнительно вышлю пояснения в текстовом файле для большей ясности выполнения задания. Сортировка по размеру очень помогает в деле, так как в более пустых страницах меньше информации и они меньшего размера, но это не единственный критерий для сортировки на две папки, так как встречаются пустые листы и с большим размером. Но сортировка по размеру в папке помогает, это точно. Чем больше размер файла, тем меньше встречаются "пустые" листы. Единственная сложность с которой можете столкнуться, это обработка компьютером предпросмотра файлов, так как файлов в папке гигантское множество, компьютер их долго просчитывает, на слабом компе не сделаете это. Для вашего удобства и быстроты выполнения, можете разделить исходную папку на части, и выполнять частями. Я уже это частично сделал. Удалять файлы нельзя, их нужно отсортировать. Исполнитель нужен из Питера, так как объем данных 43,6 гб передать по облаку будет проблема, может я, конечно, способов каких то не знаю) через FTP ссылку можно попробовать, но закачка туда день и к вам день не вариант, мне быстрее кому нибудь это в Питере увезти и в руки отдать. По моим ощущениям, так как я предварительно делал сортировку, выполнить реально за 2 дня, нужно к следующему вторнику к 26-12-2017.
Заказчик этого задания
Дмитрий Н.

43 года

Отзывы: 23