March 2021

S M T W T F S
 123456
78910111213
14151617181920
21222324252627
2829 3031   

Style Credit

Expand Cut Tags

No cut tags

June 2nd, 2009

iws: (Гепарденок)
Tuesday, June 2nd, 2009 09:53 am

Поковырялся с сабжем. В общем, решение есть. Возможно — не единственное.

Сначала о грустном: всяческие gocr и ocrad русский текст не жалуют. Возможно, к ним можно найти какие-нибудь патчи, специальные файлы для языка... Я так глубоко не копал. Tesseract тоже не трогал, ибо его нужно «обучать», а я «не настоящий сталевар» и от программы хочу, чтобы она работала без долгих настроек и плясок с бубном.

В итоге остановился на CuneiForm, благо версия для Linux вполне стабильна. В качестве проверки в боевых условиях использовал «Фейнмановские лекции» с торрентов, перегнав предварительно PDF постранично в PNG. Текст распознался прекрасно. Формулы, естественно, идут лесом, но это ожидаемо. Методом тыка выяснилась интересная особенность: если перегонять в монохромный PNG (-sDEVICE=pngmono) — не распознается ни черта, при -sDEVICE=pnggray — отдельные буквы, причем цифры. Зато прекрасно распознается при -sDEVICE=png16m — это RGB, 24 бита на точку... Разрешение во всех случаях было одно и то же — -r300.

Ставил с оверлея sunrise, если кому интересно. Там же есть cuneiform-qt — GUI-морда, от которой лично я удовольствия не получил, поскольку распознавать по одному файлику мне совсем не интересно.

upd: Забыл добавить — требует установленный ImageMagick. Впрочем, мне трудно представить linux-систему без последнего...