Skip to content

IshidaMotohiro/python_de_textmining

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

52 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

python_de_textmining

『Pythonで学ぶテキストマイニング』

拙著『Rによるテキストマイニング入門』(森北出版 2017)で扱ったデータを、Pythonでも分析できるように構成し直し、さらに単語分散表現の使い方、最近の自然言語処理で主流の Transformers についても解説した入門書です。

なお、Windows で MeCab を利用する場合は 64bit UTF-8 辞書版が必要です。公式の 32 bit 版 MeCab をすでにインストールしている場合は必ずアンインストールしてから、64bit版をインストールし直してください。 https://github.com/ikegami-yukino/mecab/releases

動画

解説動画を公開します。

MeCab_Install

Mac における MeCab のインストール

本書の手順で MeCab を導入しても、import MeCab を実行したときに、ライブラリが見当たらないというエラーが生じることがあります。 この場合、いったん Python 用の mecab-python3 をアンインストールし、今度は手元のMacでビルドし直してみます。

pip uninstall  mecab-python3
pip install --no-binary :all: mecab-python3

改めて import MeCab を実行してみます。再度エラーが生じた場合は、Macにデフォルトでインストールされている"/usr/lib/libmecab.dylib" に誤って関連付けられている可能性があります。otool でエラーでライブラリの関連付けと _MeCab.cpython-311-darwin.so の場所を確認し、そして(本書の記載通りにインストールした場合に存在するはずの) /usr/local/lib/libmecab.2.dylib に、手作業で関連付けをやり直します。以下は筆者の環境で実行した例です。

## _MeCab.cpython-311-darwin.so の関連付けを確認し
otool -L /Users/ishida/.pyenv/versions/3.11.1/lib/python3.11/site-packages/MeCab/_MeCab.cpython-311-darwin.so
## 誤った関連付けを修正する
### 以下の例では、誤って "/usr/lib/libmecab.dylib" と設定されているので、/usr/local/lib/libmecab.2.dylib と修正する
install_name_tool -change "/usr/lib/libmecab.dylib" /usr/local/lib/libmecab.2.dylib /Users/ishida/.pyenv/versions/3.11.1/lib/python3.11/site-packages/MeCab/_MeCab.cpython-311-darwin.so

本書の分析をRで実行する方法

『Rによるテキストマイニング入門』 出版社:森北出版 ISBN: 978-4627848429 https://www.amazon.co.jp/dp/4627848420

『実践 R によるテキストマイニング:センチメント分析・単語分散表現・機械学習・Pythonラッパー』 出版社:森北出版 ISBN: 978-4627885110 https://www.amazon.co.jp/dp/4627885113/

変更履歴

  • Chapter02 emoji-2.0.0では UNICODE_EMOJI が削除され EMOJI_DATA を利用する
  • Chapter07 CountVectorizer とファイルジェネレーターの項で引数指定を修正
  • Chapter09 transformers で日本語モデルを読み込む処理を行うセルがノートブックから削除されていたので修正

About

『Pythonで学ぶテキストマイニング』

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published