Тот пакет Tesseract, что идёт «из коробки» 3-х версий никуда не годится совсем, разве что для определения четких текстов в палец толщиной, так что его можно даже не пробовать ставить, поставим реальную ocr штуку самой крайней версии со всеми зависимостями и опробуем на практике.
# ставим зависимости apt-get install g++ apt-get install autoconf automake libtool apt-get install autoconf-archive apt-get install pkg-config apt-get install libpng-dev apt-get install libjpeg8-dev apt-get install libtiff5-dev apt-get install zlib1g-dev apt-get install libleptonica-dev # качаем себе исходники git clone https://github.com/tesseract-ocr/tesseract.git # собираем из исходников cd tesseract/ ./autogen.sh ./configure make make install ldconfig make training make training-install # проверяем версию tesseract --version # проверяем языки (пока естественно будет пусто) tesseract --list-langs # загружаем нужные языки в нужную папку cd /usr/local/share/tessdata wget https://raw.githubusercontent.com/tesseract-ocr/tessdata_best/master/eng.traineddata wget https://raw.githubusercontent.com/tesseract-ocr/tessdata_best/master/rus.traineddata
Ещё языки https://github.com/tesseract-ocr/tessdata_best
Практически готово и можно пользоваться:
tesseract image.png - -l eng tesseract image.png - -l rus+eng
Однако предварительно изображение желательно готовить, очищать и разворачивать в нужную сторону. Но это уже тема opencv-python и pytesseract.
Установка оболочки:
apt-get install python3-pip pip3 install scikit-build pip3 install cmake pip3 install opencv-python pip3 install pytesseract