posixru wrote:Сравнивал распознавание с abbyy-finereader"овым, результат на одном изображении аналогичный.
Это так, если изображение хорошего качества (разрешения, контраста и др.), а если оно недостаточно качественное, то FineReader v.10 заметно выигрывает, особенно это относится к распознаванию всей страницы целиком (без ручного выделения блоками). Пример для тестирования
здесь.
Вообще, секрет лучшего распознавания FineReader'ом заключается в автоматической предварительной обработке изображений и автовыделении блоками (пример: размер исходных 92-х jpg-файлов составляет 76 Мбайт, размер же сохранённого проекта с этими файлами у FineReader'а составлял более 2 Гбайт). Если самостоятельно увеличить разрешение у страниц невысокого качества и улучшить контрастность, а также вручную выделять текст блоками, то Tesseract и CuneiForm действительно не будут уступать коммерческим аналогам.