Нужны консультации / уроки по OCR при создании файлов PDF

до 5 000 руб.
  • Не выполнено
  • 55 просмотров
  • Создано
  • Полиграфический дизайн
  • Задание № 8576977
Начать
Завершить
Бюджет
Небольшой — до 5 000 Р
Нужно
Хочу научиться самостоятельно делать качественные файлы PDF из бумажного архива. В первую очередь меня интересует качество распознавания текста (OCR). Мануалы помогают плохо; я ищу живого человека, который меня проконсультирует (скорее всего, дистанционно). • Есть бумажный архив разнородных документов, в частности: – Word’овские документы, отпечатанные на принтере, – машинопись, – рукописные страницы разной степени разборчивости, – вырезки из газет, – сканы, ксерокопии и фото из печатных изданий, методичек, самиздата, – штучная печатная продукция (театральные программки, билеты, спичечные этикетки, визитки и пр.). Требуется перевести всё это в электронный вид в формате PDF. (Имеется в виду деятельность, предусмотренная ст. 1273, п. 1 ГК РФ. Речь НЕ идёт о нарушении авторских прав или о другой противозаконной деятельности.) Я собираюсь сам научиться необходимым навыкам, потому что придерживаюсь принципа «хочешь, чтобы было сделано хорошо,— сделай это сам». • Требования к конечному результату: 1. Образцовый вид на экране (если открыть программой типа Acrobat). Например (в идеале): документ, недавно распечатанный из Word’а на принтере, должен выглядеть так же, как если бы его конвертировали напрямую из Word’а в PDF. 2. Идеально распознанный текст. Я в курсе, что это требует ручной доработки, и готов ею заниматься. 2.1. Текстовый поиск по файлу PDF должен работать правильно. 2.2. Копирование и вставка: если выделить фрагмент PDF, скопировать и вставить в простой текстовый редактор типа «Блокнота» — должно вставиться чистое текстовое содержание без искажений и артефактов. 3. Поисковые системы: если PDF будет выложен в Интернет и проиндексирован поисковиками — они должны правильно понять структуру документа, заголовки, где какой язык и пр. При этом НЕ НУЖНО готовить файлы PDF для профессиональной печати. Я перевожу бумажный архив в цифровой вид, а не наоборот. • Обратите внимание на содержание, с которым придётся иметь дело: – текст на разных языках (кириллица, латиница, греческий, вкрапления из других языков типа китайских иероглифов), много смешанного текста, – спецсимволы: буквы с диакритиками и дифтонги в латинице (ö, é, Š, æ), ударения в словах, дореволюционная и допетровская орфография (ѣ, ѳ, ѵ), типографика (кавычки, тире, апострофы и пр.) и ещё много всего, – индексы, сноски (м², H₂O), – переносы и дефисы (нужно, чтобы поиск в PDF правильно отличал одно от другого), – таблицы, – математические формулы, – белый текст на чёрном фоне, цветной текст на цветном, разноцветный текст на сложном фоне или поверх изображения, – текст на схемах, графиках, диаграммах, чертежах, в том числе нарисованных от руки, – текст, повёрнутый вертикально, диагонально или вдоль сложных кривых (например, название реки на карте вписано в повороты этой реки), – сложная многоколоночная и модульная вёрстка. Пожалуйста, откликайтесь на задание, только если вы уверены, что сможете научить меня работать со всем этим. • Я хочу научиться не только делать OCR в PDF, но и другим навыкам. Будет хорошо, если с ними вы тоже поможете: · Превратить в вектор простые геометрические формы — линейки, рамки, прямоугольные плашки, границы таблиц и т. д. · То же с картинками «векторной» природы: диаграммы, схемы, штриховые рисунки, нотная запись и т. д. · Нормализовать контраст: сделать фон чисто белым, а текст — чисто чёрным. · Убрать артефакты: помятости бумаги, загрязнения, дефекты сканирования и т. д. · Грамотно оптимизировать размер файла PDF. • Скорее всего, понадобится несколько занятий, по итогам которых я под вашим руководством сделаю несколько готовых PDF’ов. Вероятно, работать будем в продуктах Adobe. Если вы откликаетесь на эту задачу,— пожалуйста, напишите в отклике что-нибудь такое, чтобы я убедился, что вы правильно поняли задачу. Я не буду рассматривать отклики с шаблонным текстом типа «Я крутой специалист, готов взяться за вашу задачу». Цена обсуждаема.

Последние задания

Другие задания в категории

Заказчик этого задания
Ростислав

43 года

Отзывы: 6
Случайные отзывы