下载nltk数据包报错,我之前就是因为直接把


安装nltk需要两步:安装nltk和安装nltk_data数据包

安装nltk

安装nltk很简单,可以直接在pycharm环境中安装,flie —> settings—> Python Interpreter —> 点击+ —> 搜索nltk —> intall Package

接下来需要安装nltk_data数据包才能使用nltk

手动安装nltk

最简单的办法:在pychram里使用下面两行代码安装:

1 import nltk
2 nltk.download()

但通常这样安装都会提示:getaddrinfo failed

这是因为这里自动弹出的server index里提供的网址找不到对应的IP

可见,直接代码安装不行

因为其他方法我都试过了,都没有成功,这里推荐我试了之后成功的方法

先进入这个网站:https://github.com/nltk/nltk_data/tree/gh-pages

依次点击Code—>Download Zip下载压缩包

接着执行以下代码:

1 import nltk
2 from nltk_book import *

因为此时还没有安装nltk_data安装包,它会提示找不到数据,并且提示他找数据时的默认路径:

 

所以我们把nltk_data安装包里packages里的这些文件解压到上述任意路径,重命名为nltk_data即可,我解压到D:\Anaconda3

 

注意:下载下来的压缩包中,除了packages还有其他文件,这里只需要把packages中的文件就行。我之前就是因为直接把下载下来的压缩包全部解压到Aconda3中,导致后面验证的时候还是一直报错找不到数据!!!

完后以上步骤,执行下面代码试验一下有没有安装成功

1 import nltk
2 from nltk.book import *

出现以下内容,即成功!

注意:Github上下载的这个压缩数据包,里面的一些子文件夹下还有压缩内容,例如,如果调用nltk进行句子分割,会用到这个函数: word_tokenize()

1 import nltk
2 
3 sen = 'hello, how are you?'
4 res = nltk.word_tokenize(sen)
5 print(res)

会提示 Resource punkt not found. Please use the NLTK Downloader to obtain the resource: 即punkt数据未找到:

类似这样的错误,其实如果找到查找的路径,也就是上面我们放数据包的地方,是可以在tokenizers文件夹下找到这个punkt的,原因就在于没有解压,那么,把punkt.zip解压到文件夹中,再运行分割句子的代码就没问题了。如果有其他的一些数据也是这样的,如果遇到显示没有找到某个数据包,不妨试一试。(如果打开其他的文件夹,发现里面也有未解压的那些文件,我们可以手动将其解压)

评论关闭