[tesseract4.1.1] Ubuntuにtesseract(Eng、日本語、簡体字中国語、繁体字中国語、スペイン語)を入れよう

1. PPA(パーソナル・パッケージ・アーカイブ)を追加
$ sudo add-apt-repository ppa:alex-p/tesseract-ocr
$ sudo apt-get update

2. Tesseractインストール
$ sudo apt install tesseract-ocr
$ sudo apt install libtesseract-dev

$ tesseract -v
tesseract 4.1.1-rc2-25-g9707
$ tesseract –list-langs
List of available languages (2):
eng
osd

3. 日本語、簡体字中国語、繁体字中国語、スペイン語をインストール
$ sudo apt install tesseract-ocr-jpn tesseract-ocr-chi-sim tesseract-ocr-chi-tra tesseract-ocr-spa
$ tesseract –list-langs
List of available languages (6):
chi_sim
chi_tra
eng
jpn
osd
spa

4. pyocr install
$ pip install pyocr

5. 中国語の画像を読み取る

$ tesseract chinabank.jpeg output -l chi_sim
中国平安
PINGAN

保险’ 银行. 投资

6. pythonで書く

from PIL import Image
import sys
import pyocr

tools = pyocr.get_available_tools()
langs = "chi_sim"

img = Image.open('images.jpeg')
txt = tools[0].image_to_string(
		img,
		lang=langs,
		builder=pyocr.builders.TextBuilder(tesseract_layout=6)
	)
print(txt)

$ python app.py
中国平安
PINGAN
保险; 银行.投资

さて、これをDjangoで実装したい。
思ったより考えるの難しいな。

[RaspberryPi 4] cronでカメラモジュールの画像をS3にアップロード

1. shellでカメラモジュールを実行する。
app.sh

#!/bin/bash
raspistill -w 800 -h 600 -o /home/pi/image.jpg

$ chmod +x app.sh
// テスト
$ sudo sh ./app.sh

2. raspi4のcronを有効にする
$ sudo vim /etc/rsyslog.conf
-> コメントアウト

cron.*                          /var/log/cron.log

$ sudo /etc/init.d/rsyslog restart
$ sudo /etc/init.d/cron status

3. カメラモジュールを起動するシェルを実行するcronを書く
テストの為、1分おきの実行にする。
$ crontab -e

*/1 * * * * sudo sh /home/pi/app.sh

$ /etc/init.d/cron restart
$ sudo journalctl -f -u cron
// 写真がとれてることを確認

4. raspi4にboto3をインストール
$ python3 -V
$ pip3 -V
$ pip3 install boto3

5. S3にアップロードするpythonスクリプトを書く
// 省略

6. S3にアップロードするcronを追加してテスト
$ which python3

*/1 * * * *  /usr/bin/python3 /home/pi/upload.py

$ /etc/init.d/cron restart
$ sudo journalctl -f -u cron

7. S3のバケットでraspi4で撮った写真がアップロードされているか確認

OK。数日かかると思ってたけど意外と早くできた。
ドキュメント修正して、次はDjangoにtesseract4->cv2の実装やな

ubuntu bionicでpython3のcronを設定する

まず実行したいpyファイルを用意します。
/home/vagrant/local/cron/app.py

$ crontab -l
no crontab for vagrant
$ crontab -e

Select an editor.  To change later, run 'select-editor'.
  1. /bin/nano        <---- easiest
  2. /usr/bin/vim.basic
  3. /usr/bin/vim.tiny
  4. /bin/ed

Choose 1-4 [1]: 2

$ which python
/usr/bin/python

$ crontab -e

*/5 * * * * /usr/bin/python /home/vagrant/local/cron/app.py

// cronリスタート
$ /etc/init.d/cron restart
// 実行ログの確認
$ sudo journalctl -f -u cron

実行テストは、5分おき(*/5 * * * *)ではなく、1分おきの方が良いですね。
続いて、raspberry pi4でcronを設定します。

[Python 3.8.0] S3に画像をアップロード・ダウンロードする

### S3へupload
1.まず送信したい画像を用意します。SVMで使用したgeorgia.jpgを使いましょう。

2.AWSコンソールにログインし、S3からbucketを作成します。
取り敢えず、hanbai-raspi としておきます。

画像の送受信のみに利用する為、Block all public accessにします。

3.AmazonS3FullAccessのユーザを作成

4.ubuntu側でAWS SDKのboto3をインストール
$ pip -V
pip 20.1.1 from /home/vagrant/.local/lib/python3.8/site-packages/pip (python 3.8)
$ pip install boto3

import boto3

accesskey = "****"
secretkey = "****"
region = "ap-northeast-1"

s3 = boto3.client('s3', aws_access_key_id=accesskey, aws_secret_access_key= secretkey, region_name=region)

filename = "georgia.jpg"
bucket_name = "hanbai-raspi"

s3.upload_file(filename,bucket_name,filename)
print("upload {0}".format(filename))

$ python app.py
upload georgia.jpg

はい、アップロードできてます。

続いて、downloadもやっちゃいましょう。

### download

import boto3

accesskey = "****"
secretkey = "****"
region = "ap-northeast-1"

s3 = boto3.resource('s3', aws_access_key_id=accesskey, aws_secret_access_key= secretkey, region_name=region)

bucket = s3.Bucket("hanbai-raspi")
filename="georgia.jpg"
path="img/georgia.jpg"


bucket.download_file(filename,path)
print("upload {0}".format(filename))

アップロードとダウンロードだと書き方が若干異なるので注意が必要ですね。
さあ、続いて、ubuntuとラズパイ4でcronの実行の仕方。

[RaspberryPi 4] カメラモジュールの起動手順

RaspberryPi 3 model B+ を持っていましたが、カメラモジュールを差し込んだ途端、電源はつくがHDMIでモニターにシグナルが送れなくなってしまったので、RaspberryPi 4を買い直すことにした。

1) 秋葉原の秋月電子通商で「RaspberryPi 4」と「ラズパイ4用の電源アダプター」を購入
2) ラズパイnoobsからsdカード(32GB)にdownload
https://www.raspberrypi.org/downloads/noobs/
3) sdカードをRaspberryPi 4に差し込んで、Rasbianをインストール
4) 「設定」->「Raspberry Piの設定」->「インターフェイス」->「カメラ」->「有効」
5) コマンドライン
$ vcgencmd get_camera
supported=1 detected=1

$ sudo raspistill -o image.jpg
/home/pi/image.jpg

来た!
RaspberryPi3のNo Signalの原因が不明で、もしからたモニターに原因があるのでは?と思って、実はモニター(6000円位)も買い直してしまったorz… モニターは必要なかった。。。。
何れにしても、カメラモジュールはクリア!
さー次はcron x python作るぞー

[OpenCV4.5.0] 画像をランダムフォレストで学習して判定したい3 ~ 判定

学習データを coffee.pkl に保存します。

clf = RandomForestClassifier()
clf.fit(x_train, y_train)

joblib.dump(clf, 'coffee.pkl')

学習データの画像とは別に判定したいターゲット画像を用意します。

fire_11.jpg

black_11.jpg

georgia_11.jpg

学習データを作ったように同じようリサイズ、リシェイプして判定(predict)します。

import cv2
import joblib

def predict_coffee(filename):
	clf = joblib.load("coffee.pkl")

	path = "img/target/"
	img = cv2.imread(path + filename)
	img = cv2.resize(img, (48, 64))
	img = img.reshape((-1, 9216))
	res = clf.predict(img)

	if res[0] == 0:
		print(filename + " = BLACK無糖")
	elif res[0] == 1:
		print(filename + " = FIRE微糖")
	else:
		print(filename + " = Georgia blend")
	

predict_coffee("black_11.jpg")
predict_coffee("fire_11.jpg")
predict_coffee("georgia_11.jpg")

$ python3 app.py
black_11.jpg = BLACK無糖
fire_11.jpg = FIRE微糖
georgia_11.jpg = Georgia blend

やば。。。。
blackに関しては、”Black”の文字ないのに判定できちゃうんだ。。。

ちょっと人生頑張ってみるわ。。

[OpenCV4.5.0] 画像をランダムフォレストで学習して判定したい2 ~学習

画像を用意済み。

画像サイズは864x1152pxなので、(48, 64)にします。
データラベルは、FIRE微糖=0、Georgia blend=1、BLACK無糖=2 とします。
リサイズして、一次元に展開して配列に入れる。

import cv2
import os, glob
import joblib

from sklearn.model_selection import train_test_split
from sklearn import datasets, metrics
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score


image_size = (48, 64) # 864:1152(3:4)の画像の為
path_black = "img/black"
path_fire = "img/fire"
path_georgia = "img/georgia"

x = [] # 画像
y = [] # ラベル

def read_dir(path, label):
	files = glob.glob(path + "/*.jpg")
	for f in files:
		img = cv2.imread(f)
		img = cv2.resize(img, image_size)
		img_data = img.reshape(-1, )
		x.append(img_data)
		y.append(label)

read_dir(path_black, 0)
read_dir(path_fire, 1)
read_dir(path_georgia, 2)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

clf = RandomForestClassifier()
clf.fit(x_train, y_train)

y_pred = clf.predict(x_test)
print(accuracy_score(y_test, y_pred))

6回テストしてaccuracy_scoreはこんな感じ。平均して91%くらい。
$ python3 app.py
0.8333333333333334
$ python3 app.py
1.0
$ python3 app.py
1.0
$ python3 app.py
1.0
$ python3 app.py
0.6666666666666666
$ python3 app.py
1.0

91%の精度ってどうなんだろう。画像を取る角度を一定にすれば、もっと精度は上がりそうな気がする。

[OpenCV4.5.0] 画像をランダムフォレストで学習して判定したい1 ~写真の用意

まず画像の用意から。
缶コーヒーで(1)FIRE微糖、(2)Georgia blend、(3)BLACK無糖を用意する。

続いて、各缶コーヒーの写真を取る。取り敢えず、10枚ずつ位。
(1)FIRE微糖

(2)Georgia blend

(3)BLACK無糖

どの写真がどの缶コーヒーかラベリングをしたいので、画像の名前を変更する。
fireは fire_${i}.jpg、 Georgia blendは georgia_${i}.jpg、BLACK無糖は black_${i}.jpgにする。

centos8
imgフォルダの中にblack, fire, georgiaフォルダを作成し、その中にそれぞれの画像を入れる。

続いて、これらの画像を学習していきます。

[AWS] IAMでユーザのEC2操作権限を制御したい

まずユーザ作成

続いて、set permissionsでcreate policy
sidはユニークであればなんでも良い。

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Action": [
        "ec2:Describe*",
      ],
      "Sid": "Stmt1373379895000",
      "Resource": "*"
      "Effect": "Allow"
    },
    {
      "Action": [
        "ec2:StartInstances",
        "ec2:RebootInstances",
        "ec2:StopInstances",
      ],
      "Sid": "Stmt1373378552000",
      "Resource": [
        "arn:aws:ec2:ap-northeast-1:${account_id}:instance/${instance_id}"
      ],
      "Effect": "Allow"
    }
  ]
}

ec2:Describe*は、リソースレベルで管理できない。
よって、リージョンを変えるか、AWSアカウントを変えるしかない。

どういう風に制御しているのか理解できれば、間接的にセキュリティ方針を俯瞰して観れるようになりますね。

[AWS] Route53でSTG用サブドメインの設定をしたい

### 前提
– 既にお名前.comで取得したドメインをRoute53で割り当てている
– ACMで証明書を発行し、HTTP/HTTPSのinbound rule設定済み

### やりたいこと
– STG用に、商用ドメインの前に「stg.${domain}」としてサブドメインを使いたい
eg. http://stg.hoge.com

色々試した結果、上手くいく方法がわかった。

### 手順
1. EIPの作成
EC2 -> Elastic IPs -> Allocate Elastic IP addressで、EIPを作成し、Associate Elastic IP addressで、STGのインスタンスに紐づける。

2. Route53でサブドメイン用のHosted Zoneの作成
Route53 -> Hosted Zone -> Create hosted zone で Domain nameに stg.${domain}で hosted zoneを新規に作成する。
すると、NSレコード4つとSOAが作られる。※AレコードのEIPは後で追加したもの。

3. NSレコード4つをお名前.comの対象のドメインのDNS設定で追加する。ホスト名は「stg」で、タイプは「NS」、Valueは上記で作られた値
※お名前.com側はこれで終わり

4. サブドメインのHosted ZoneにEIPを追加
create recordでrecord nameはnull、ValueにEIP、Record TypeはAを選択して、EIPを設定

5. 上記で作られた4のNSレコードを、商用ドメイン側のHosted zoneにも追加する。

6. ブラウザから stg.${domain} にアクセスして疎通確認

さードキュメント作るぞーーーーーーーーーーーーーーーー