广州及时雨侦探调查公司
NEWS
公司新闻
您当前位置:首页 > 公司新闻
侦探价格
作者:  更新时间:2020-04-29 19:18:53  浏览数:601

关于舆情分析的例子分析,希望帮你带来一些帮助。

前言

距离今天文本挖掘小文章时间尚未过了3个月了,北京将要入冬,有人说北京的冬天很凉,但是喝上火锅最暖;也有人说北京的冬天雾霾严重,太干。这两句表达的是对北京冬天的情感,即有正面也有负面。

如果在舆情分析而言,我们在做营销探讨,分析产品、活动优劣,或者期望维护品牌PR,我们就必须对于消费者网络发声去探讨心灵,来帮助我们维护品牌,改善活动产品,来超过测量舆情分析效果。换句话说也就是我们现在分享的主题—sentiment

笔者5年前做舆情分析之后一般来说就是人工舆情,并没有加入高级点的预测工具削减人工投入。随着R,python等的流行,同时,随着诸多开源包tm,LDA,Rwordseg开发,以及高等概率数学的应用,例如分词算法依据隐性马尔科夫链算法编写而成(有兴趣的老师自己研究),让我们之前的工作量大大减少。因此人工舆情转换成人工纠正舆情大势所趋,即我们使用软件提高读帖子的时间,并且使机器学习,人工后期纠错。

一般而言,舆情分析报告分为以下几个步骤:

前两个可以成为统计预测-统计时间趋势音量情感文本,音量份额,后两个可以成为模型预测-主题探讨,情感判别。

这里有个小插曲:上次分享的是主题探讨,笔者最近又再次梳理了下LDA,发现tm包中文分词形成词频矩阵太不理想,这会导致LDA无法应用,因此,后续笔者会自己写个类库将词频矩阵实现,这样会便于LDA,会方便聚类分析,以及推测分析。

言回正传,情感分析就是表达发言人对一个主题的见解,有好有坏,或者中立。情感分析应用分类两类,第一是给定正负面词,算分值,高于甚至超过baseline则表示正面、负面心态。第二,根据深度学习,利用神经网络来区别正负情感。本文先实现第一类情感分析。

本次还是以上次文本为输入项,将content_Full 内容做文本处理

清理原则:

比如英文常规字符,‘的’‘地’‘得’‘我’等

由于本文是医用术语,需要添加的词义偏重医用或者品牌,不让分词拆成单个字符

例如:妈富隆,调经

文本处理后,根据词频出现频次,且过滤掉分词为单个词的英文,绘制词云图,鼠标所过的词可以显示文本发生数量,例如避孕药:767次

正面词记1;负面词为-1,便于以后算分值划定情感

将文本中的时态按照中英文词典的正负面词打分情感文本,计算分值,若中性词(不出现字典)则记为0。

分值计算原理

情感分值=∑i=1(正面+中性)*(-1)t

i 表示第i句话;t表示发生负面词的次数

正面发声分类结果:

负面发声结果

将词频矩阵脚本改写,重现LDA 或者 聚类对文本先人工预测,将此打分进行 confusion matrix,评估分类器目测而言负面分类基本正确,正面分类中包括这些中性发声,需要进一步剔除研究深度学习重现下情感分析

文本挖掘小探索:避孕药内容主题探讨

作者:冯大福,微信公众号:说说数据预测那些事儿

本文由 @shangyuan 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自unsplash,基于CC0协议

companynews公司新闻
公司名称:广州及时雨调查公司
24小时免费咨询电话:185-2064-4544
微信:185-2064-4544
Q Q:3123417795
邮  箱:3123417795@qq.com
地  址:广州