iws | Jun. 2nd, 2009

S	M	T	W	T	F	S
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Поковырялся с сабжем. В общем, решение есть. Возможно — не единственное.

Сначала о грустном: всяческие gocr и ocrad русский текст не жалуют. Возможно, к ним можно найти какие-нибудь патчи, специальные файлы для языка... Я так глубоко не копал. Tesseract тоже не трогал, ибо его нужно «обучать», а я «не настоящий сталевар» и от программы хочу, чтобы она работала без долгих настроек и плясок с бубном.

В итоге остановился на CuneiForm, благо версия для Linux вполне стабильна. В качестве проверки в боевых условиях использовал «Фейнмановские лекции» с торрентов, перегнав предварительно PDF постранично в PNG. Текст распознался прекрасно. Формулы, естественно, идут лесом, но это ожидаемо. Методом тыка выяснилась интересная особенность: если перегонять в монохромный PNG (-sDEVICE=pngmono) — не распознается ни черта, при -sDEVICE=pnggray — отдельные буквы, причем цифры. Зато прекрасно распознается при -sDEVICE=png16m — это RGB, 24 бита на точку... Разрешение во всех случаях было одно и то же — -r300.

Ставил с оверлея sunrise, если кому интересно. Там же есть cuneiform-qt — GUI-морда, от которой лично я удовольствия не получил, поскольку распознавать по одному файлику мне совсем не интересно.

upd: Забыл добавить — требует установленный ImageMagick. Впрочем, мне трудно представить linux-систему без последнего...

Иван Шихалев

March 2021

Navigation

Page Summary

Style Credit

Expand Cut Tags

June 2nd, 2009

Распознавание русских текстов в Linux