Оптическое распознавание текста в Linux на базе Tesseract последней версии 5.0.0

Тот пакет Tesseract, что идёт «из коробки» 3-х версий никуда не годится совсем, разве что для определения четких текстов в палец толщиной, так что его можно даже не пробовать ставить, поставим реальную ocr штуку самой крайней версии со всеми зависимостями и опробуем на практике.

# ставим зависимости
apt-get install g++ 
apt-get install autoconf automake libtool
apt-get install autoconf-archive
apt-get install pkg-config
apt-get install libpng-dev
apt-get install libjpeg8-dev
apt-get install libtiff5-dev
apt-get install zlib1g-dev
apt-get install libleptonica-dev
# качаем себе исходники
git clone https://github.com/tesseract-ocr/tesseract.git
# собираем из исходников
cd tesseract/
./autogen.sh
./configure
make
make install
ldconfig
make training
make training-install
# проверяем версию
tesseract --version
# проверяем языки (пока естественно будет пусто)
tesseract --list-langs
# загружаем нужные языки в нужную папку
cd /usr/local/share/tessdata
wget https://raw.githubusercontent.com/tesseract-ocr/tessdata_best/master/eng.traineddata
wget https://raw.githubusercontent.com/tesseract-ocr/tessdata_best/master/rus.traineddata

Ещё языки https://github.com/tesseract-ocr/tessdata_best

Практически готово и можно пользоваться:

tesseract image.png - -l eng
tesseract image.png - -l rus+eng

Однако предварительно изображение желательно готовить, очищать и разворачивать в нужную сторону. Но это уже тема opencv-python и pytesseract.

Установка оболочки:

apt-get install python3-pip
pip3 install scikit-build
pip3 install cmake
pip3 install opencv-python
pip3 install pytesseract

Оставить ответ Отменить ответ