nltk.word_tokenize(raw) でのエラー

 

raw = urlopen(url).read()
tokens = nltk.word_tokenize(raw)

web textからデータを取ってこようとこのようにしたところ。


TypeError: cannot use a string pattern on a bytes-like object

とエラーが出た。

 

調べたところ文字コードも問題のようだったので、

raw = urlopen(url).read().decode('utf-8')
tokens = nltk.word_tokenize(raw)

としたところうまくいった。

 

コメントを残す