collocation関数

bigram – 文章中で連続している二つの単語。

testText = ['more','is','said','than','done']
testText = nltk.Text(testText)
nltk.bigrams(testText)

で出力することができる。

nltk.collocationx()関数はこのbigramの中で特に出現頻度が高いものを抽出してくれる。

type(text)
<type 'nltk.text.Text'>

text.collocations()

と使用する。

コメントを残す