SnowNLP情感分析使用教程(中文文本处理库)
目录
SnowNLP简介
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。MIT licensed.
SnowNLP特性
- 中文分词(Character-Based Generative Model)
- 词性标注(TnT 3-gram 隐马)
- 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
- 文本分类(Naive Bayes)
- 转换成拼音(Trie树实现的最大匹配)
- 繁体转简体(Trie树实现的最大匹配)
- 提取文本关键词(TextRank算法)
- 提取文本摘要(TextRank算法)
- tf,idf
- Tokenization(分割成句子)
- 文本相似(BM25)
- 支持python3(感谢erning)
SnowNLP作者
- http://www.isnowfy.com/
- https://github.com/isnowfy/snownlp
SnowNLP使用介绍
代码一(分词,词性,情感):
1 2 3 4 5 6 7 8 9 10 |
# coding: utf-8 from snownlp import SnowNLP s = SnowNLP(u"这个东西真心很不错呀") # 分词 print(s.words) # 词性 print(s.tags) # 情感: positive概率 print(s.sentiments) |
代码一输出:
1 2 3 |
[u'这个', u'东西', u'真心', u'很', u'不错', u'呀'] [(u'这个', u'r'), (u'东西', u'n'), (u'真心', u'd'), (u'很', u'd'), (u'不错', u'a'), (u'呀', u'y')] 0.959021236049 |
代码二(主题词,摘要,情感):
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
# coding: utf-8 from snownlp import SnowNLP text = u''' 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。 它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 自然语言处理是一门融语言学、计算机科学、数学于一体的科学。 因此,这一领域的研究将涉及自然语言,即人们日常使用的语言, 所以它与语言学的研究有着密切的联系,但又有重要的区别。 自然语言处理并不是一般地研究自然语言, 而在于研制能有效地实现自然语言通信的计算机系统, 特别是其中的软件系统。因而它是计算机科学的一部分。 垃圾,今天天气真的很差,风很大。 ''' s = SnowNLP(text) # 主题词 print(s.keywords(3)) # 摘要 print(s.summary(3)) # 情感: positive概率 print(s.sentiments) |
代码二输出:
1 2 3 |
[u'语言', u'自然', u'计算机'] [u'而在于研制能有效地实现自然语言通信的计算机系统', u'这一领域的研究将涉及自然语言', u'自然语言处理是计算机科学领域与人工智能领域中的一个重要方向'] 1.0 |
SnowNLP训练介绍
代码一:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
# coding: utf-8 from snownlp import SnowNLP text = u''' 今天xxx战队打野真的很菜鸡,迷之走位,几次大招放空,辅助玩的也菜鸡。 xxx战队今天失败了! ''' s = SnowNLP(text) # 主题词 print(s.keywords(3)) # 摘要 print(s.summary(3)) # 情感: positive概率 print(s.sentiments) |
代码一使用默认词库输出:
1 2 3 |
[u'菜鸡', u'战队', u'空'] [u'今天xxx战队打野真的很菜鸡', u'迷之走位', u'几次大招放空,辅助玩的也菜鸡'] 0.657116516575(与真实情感出入较大,by:cpp.la) |
代码一使用自定义标注词库训练输出:
1、cd /usr/local/lib/python2.7/dist-packages/snownlp/sentiment
2、积极词库pos.txt尾部增加
- 牛逼
- 666666
- 风骚走位
3、消极词库neg.txt尾部增加
- 菜鸡
- 迷之走位
- 大招放空
- 失败
4、训练,保存为sentiment.marshal.2
1 2 3 4 5 6 |
from snownlp import sentiment sentiment.train( '/usr/local/lib/python2.7/dist-packages/snownlp/sentiment/neg.txt', '/usr/local/lib/python2.7/dist-packages/snownlp/sentiment/pos.txt' ) sentiment.save('/usr/local/lib/python2.7/dist-packages/snownlp/sentiment/sentiment.marshal.2') |
5、切换成新训练集。vim __init__.py
data_path处修改为sentiment.marshal.2
6、
1 2 3 |
[u'菜鸡', u'战队', u'空'] [u'今天xxx战队打野真的很菜鸡', u'迷之走位', u'几次大招放空,辅助玩的也菜鸡'] 0.195107836491(接近真实情感,by:cpp.la) |
SnowNLP情感测试
大数据测试集,测试了约18w负向(%90+精准)聊天数据集,SnowNlp默认词库准确率大概在%68-%75左右。
by:cpp.la
2 Replies to “SnowNLP情感分析使用教程(中文文本处理库)”
想问:积极词库和消极词库的尾部增加是直接打开文本文档输入增加吗?
对,自己加入pos 词库,neg 词库即可。词库越准确,越接近真实情感。