熊猫直播舆情架构分享
目录
2019年即将过去 ,以最简单的方式分享一下熊猫直播的舆情架构,再不记录可能再也没时间写了。记录一下关键技术和解决方案。2019年从3月份panda.tv倒闭换新坑之后忙的无暇顾及~
文章首发链接:https://cpp.la/375.html,作者:cpp.la
by:cpp.la,(c++,python,go),曾在数据部, 负责熊猫直播舆情项目。
项目背景
舆情是广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。带有广大网民的主观性,一般未经过媒体的验证和包装,直接通过多种形式发布于互联网上。这里结合熊猫直播行业特点,数据舆情数据常常分布于微信,QQ群,垂直论坛,贴吧,微博SNS等平台。
就直播行业来说,直播舆情它具有突发性、隐蔽性,特别是负面舆情,将给企业和相关个人带来严重的影响。比如说大量的XX裁员,XX倒闭,XX主播,XX新闻,XX校长。虽有不少正面的舆情新闻,但是仍然充斥着大量黑公关,黑稿,批量水军,对一些企业照成了严重的负面影响,所以舆情信息的分析能力,及时准确地掌握社会舆情动态,积极引导社会舆论,发掘热点舆论的倾向显得尤其重要。
项目特点
针对直播垂直行业,获取大量垂直渠道数据,QQ群,微信群,贴吧,新闻,微博SNS等。主动、及时、全面发现关注网络敏感信息,并基于重点事件进行全方位分析,为新媒体舆情热点的有效处置提供依据。
数据采集全面、快速、准确。通过数据深度采集和广度采集,实现重点站点数据采集分钟级内响应。而基于聊天的QQ群,微信全部采用监听方式,实时采集,秒级响应。
- 对用户关注的舆情信息进行舆情预警,分为红色、黄色、橙色等几个级别,采用智能告警分析机制,实现对重要舆情预测信息及时报警;
- 基于精准的垂直搜索,采用全新NLP平台,建立文本分类、 聚类、 命名实体识别等处理平台,为公关和市场以及运营提供干净 与我司相关的数据基础。
- 采用分布式海量数据处理架构,以hadoop生态圈以及ElasticSearch为基础,打造海量数据高效存储检索功能优势。
- 产品或者竞品负面信息公关监控,帮助市场运营对产品口碑,竞品对比
- 投诉信息能做到分钟之内采集->分析->落地->推送预警。
- 舆情项目结合容器(DOCKER),容器即服务,深度解耦,避免级联。
服务器监控
监控有比较成熟的zabbix方案,但是这里我们更希望在一个“监控大屏”轻松把所有的服务器负载状态优雅的显示出来,同时又能够宕机发出预警。于是我FORK了ServerStatus,做个一些特性修改,另外server端加入了检测线程,服务器在高负债、宕机、网络异常的情况下能立即推送到kafka,mirror_sms队列中,利用kafka消息队列上游服务和下游服务完全解藕,网络传输会更稳定、更高效、更均衡,避免级联效应,快速推送sms or sem 给相关负责人。
总监控服务器数量:50台+(包括自建代理池)
项目地址:ServerStatus:https://github.com/cppla/serverstatus
监控演示:
爬虫整体架构
panda spider manager wiki
- 管理所有通用爬虫子任务
- 设计冗余
- 高可用机制
- 支持大规模调度
- 即时告警
- 容器即服务
panda spider services wiki, proxy pool , webkit pool
- 7层RestFul API标准服务化接口
- 代理池加入了aliyun 弹性ip方案,真正互联互通全随机出口
- 代理方案为squid高匿名,同时加入了ssl自签证书
- 容器即服务
panda spider data flow(service by scrapy.org)
panda spider cluster solutions by redis
- 垂直网站数据抓取,采用多唤醒的方式。
- 全容器化,spiderManager拉起任务。
- 实时回传日志和状态监控
竞品和舆情总体架构
- 爬虫末端均采用流式数据管道接入
- 上下游数据完全解藕,避免级联效应
- 服务均做横向扩展支持大规模数据采集, 高并发、服务冗余
- 弹幕采用websocket实时接入方式。
- QQ和微信,采用QQbot 和 Weixinbot,实时采集,秒级响应。
Kafka消息队列Topic
- Mirror-sms:主要负责服务器整体状态监控,爬虫运行状态监控,告警通知
- Yuqing-stream:大规模舆情采集信息,例如:贴吧,论坛,微信,主播垂直网站等等
- Jingpin-stream:竞品数据采集,例如:huya,douyu等。
- Barrage-stream:各大平台实时弹幕,websocket接入。
数据落地以及可视化
舆情信息的分析能力,及时准确地掌握熊猫直播与竞品公司所关心内容舆情动态,发掘主播热点舆论、网友的舆情倾向极其重要。能够极大的帮助公关、市场、运营作出重要决策!采用实时预警,周报+月报的推送方案和数据可视化大屏实时展示相关动态。
舆情预计效果
竞品和舆情实际效果(未完)
以上,包括一些曾经未完成的事儿。相逢有时,后会无期!
直播技术架构,转载请务必保留链接:https://cpp.la/375.html
农历2019年腊月二十八日,by:cpp.la,