1. PPA(パーソナル・パッケージ・アーカイブ)を追加
$ sudo add-apt-repository ppa:alex-p/tesseract-ocr
$ sudo apt-get update
2. Tesseractインストール
$ sudo apt install tesseract-ocr
$ sudo apt install libtesseract-dev
$ tesseract -v
tesseract 4.1.1-rc2-25-g9707
$ tesseract –list-langs
List of available languages (2):
eng
osd
3. 日本語、簡体字中国語、繁体字中国語、スペイン語をインストール
$ sudo apt install tesseract-ocr-jpn tesseract-ocr-chi-sim tesseract-ocr-chi-tra tesseract-ocr-spa
$ tesseract –list-langs
List of available languages (6):
chi_sim
chi_tra
eng
jpn
osd
spa
4. pyocr install
$ pip install pyocr
5. 中国語の画像を読み取る
$ tesseract chinabank.jpeg output -l chi_sim
中国平安
PINGAN
保险’ 银行. 投资
6. pythonで書く
from PIL import Image import sys import pyocr tools = pyocr.get_available_tools() langs = "chi_sim" img = Image.open('images.jpeg') txt = tools[0].image_to_string( img, lang=langs, builder=pyocr.builders.TextBuilder(tesseract_layout=6) ) print(txt)
$ python app.py
中国平安
PINGAN
保险; 银行.投资
さて、これをDjangoで実装したい。
思ったより考えるの難しいな。