Lubelia (lubelia) wrote,
Lubelia
lubelia

Распознавание сложных pdf-файлов, к коллективному разуму.

Собственно, что у меня стряслось на страничке.
Для начала - что мне надо. Вот есть у нас довольно большой и в разном качестве отсканированный объем следственных дел декабристов в pdf (частично в старой орфографии) (и будет его еще больше).
Задача: выложить их в сеть без потери качества и сделать по ним работающий поиск.
В идеале, конечно, их надо распознать, вычитать, переформатировать (где старая орфография - убрать яти и еры) и сделать чистым текстом. Но это задача не на одну жизнь :)
Просто тупо распознать это дело и выложить - не выходит: сложный скан, сложное форматирование, результат надо вычитывать - и это опять таки не на одну жизнь.
Поэтому решила я, долго не думая - а давай я распознаю (где надо - так в старой орфографии и распознаю, Адоб позволяет), наложу в два слоя, сделаю распознанный pdf и будет всем щастье. Выглядит как пдф, ищется как по тексту (ну пусть криво, раз полно опечаток, но и выглядеть будет хорошо и работать с этим можно будет).
Не вышло.
Если наложить распознанный слой поверх текста, получается вот такое:
http://kemenkiri.narod.ru/delo_s-p-trubeckogo-t-i.pdf
Если наложить его понизу - это приводит к необратимой потере качества:
http://kemenkiri.narod.ru/Kahovski.pdf

(В изначальном виде этот файл выглядел так:
http://web.archive.org/web/20161229031707/http://kemenkiri.narod.ru/Kahovski.pdf)

(Нет, если скан изначально хороший - то потеря качества не сильно удручает, работать с этим возможно, хотя и неприятно. А если скан изначально не с книги, а с ксерокса и сам по себе не фонтан - упс, вот такое на выходе).
У меня есть надежда, что дело тут не в технической неисполнимости, а в том, что я чего-то не умею и не догоняю. Вот можно ли сделать такой распознанный пдф без потери качества картинки?

...Когда я стану миллионером - я просто дам кому-нибудь денежку, чтоб он сидел и за зарплату по 8 часов в день сканил и распознавал, сканил и распознавал:) Но пока приходится самой, в урывках между жизнью и работой - поэтому меня очень интересуют возможности оптимизации этого процесса.
Tags: ценву
Subscribe
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 2 comments