英文の自然言語解析

日本語の形態素解析は、MeCab, ChaSen, Kuromojiあたりが有名
英語だと、TreeTagger, NLTK, Polyglotなどがある

### Polyglotの特徴
– Tokenization, Language detection, Named Entity Recognition, Part of Speech Tagging, Sentiment Analysis, Word Embeddings, Morphological analysis, Transliteration
– コマンドラインから直接叩ける
$ polyglot detect –input testdata/cricket.txt
– GPLv3 license

$ mkdir polyglot
$ cd polyglot

$ sudo yum install libicu-devel
$ pip3 install numpy
$ pip3 install polyglot
$ pip3 install morfessor
$ pip3 install six
$ pip3 install icu

### モデルのインストール
Polyglotは使用する言語に応じてモデルをダウンロードする必要がある
$ sudo yum install python3-tkinter

# -*- coding:utf-8 -*-

from polyglot.detect import Detector

t = "Hé ! bonjour, Monsieur du Corbeau.Que vous êtes joli ! Que vous me semblez beau !"
detector = Detector(t)
print(detector)

$ python3 app.py
Traceback (most recent call last):
File “app.py”, line 3, in
from polyglot.detect import Detector
File “/home/vagrant/.local/lib/python3.7/site-packages/polyglot/detect/__init__.py”, line 1, in
from .base import Detector, Language
File “/home/vagrant/.local/lib/python3.7/site-packages/polyglot/detect/base.py”, line 11, in
from icu import Locale
ImportError: cannot import name ‘Locale’ from ‘icu’ (/home/vagrant/.local/lib/python3.7/site-packages/icu/__init__.py)

うーん、環境構築がうまく行かないな。。。