NLP学習記録

1  MeCabの導入

  • MeCab-Macのインストール
  • Mecab-Pythonのインストール
  • 簡単な分かち書きスクリプトをうごかす
  • LINEの会話履歴から頻出単語を検索しようとしてみる

 

2  やってみた系記事を真似てみる
scikit-learnとgensimでニュース記事を分類する

 

3「 入門 自然言語処理 」を読み始める
– テキスト検索用関数 – text.concordance('hoge')
– リストの基本操作
nltk.bigrams(text)text.collocations()
( bigramのいい例 )
– 頻度分布の計算 (FreqDist(text))
– NLTK提供のテキストコーパスの処理
– 条件付き頻度分布の計算 (nltk.ConditionalFreqDist())
– Webからの生テキストのtokenize (nltk.word_tokenize(raw))
– Pythonの正規表現
– NPLにおける一般的なアルゴリズムデザインの基礎

コメントを残す