Оптическое распознавание текста в Linux на базе Tesseract последней версии 5.0.0

Тот пакет Tesseract, что идёт «из коробки» 3-х версий никуда не годится совсем, разве что для определения четких текстов в палец толщиной, так что его можно даже не пробовать ставить, поставим реальную ocr штуку самой крайней версии со всеми зависимостями и опробуем на практике.

Ещё языки https://github.com/tesseract-ocr/tessdata_best

Практически готово и можно пользоваться:

Однако предварительно изображение желательно готовить, очищать и разворачивать в нужную сторону. Но это уже тема opencv-python и pytesseract.

Установка оболочки:

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *