熊猫直播舆情架构分享

熊猫直播舆情架构分享

2019年即将过去 ,以最简单的方式分享一下熊猫直播的舆情架构,再不记录可能再也没时间写了。记录一下关键技术和解决方案。2019年从3月份panda.tv倒闭换新坑之后忙的无暇顾及~

文章首发链接:https://cpp.la/375.html,作者:cpp.la

by:cpp.la,(c++,python,go),曾在数据部, 负责熊猫直播舆情项目。

项目背景

舆情是广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。带有广大网民的主观性,一般未经过媒体的验证和包装,直接通过多种形式发布于互联网上。这里结合熊猫直播行业特点,数据舆情数据常常分布于微信,QQ群,垂直论坛,贴吧,微博SNS等平台。

就直播行业来说,直播舆情它具有突发性、隐蔽性,特别是负面舆情,将给企业和相关个人带来严重的影响。比如说大量的XX裁员,XX倒闭,XX主播,XX新闻,XX校长。虽有不少正面的舆情新闻,但是仍然充斥着大量黑公关,黑稿,批量水军,对一些企业照成了严重的负面影响,所以舆情信息的分析能力,及时准确地掌握社会舆情动态,积极引导社会舆论,发掘热点舆论的倾向显得尤其重要。

项目特点

针对直播垂直行业,获取大量垂直渠道数据,QQ群,微信群,贴吧,新闻,微博SNS等。主动、及时、全面发现关注网络敏感信息,并基于重点事件进行全方位分析,为新媒体舆情热点的有效处置提供依据。

数据采集全面、快速、准确。通过数据深度采集和广度采集,实现重点站点数据采集分钟级内响应。而基于聊天的QQ群,微信全部采用监听方式,实时采集,秒级响应。

  1. 对用户关注的舆情信息进行舆情预警,分为红色、黄色、橙色等几个级别,采用智能告警分析机制,实现对重要舆情预测信息及时报警;
  2. 基于精准的垂直搜索,采用全新NLP平台,建立文本分类、 聚类、 命名实体识别等处理平台,为公关和市场以及运营提供干净 与我司相关的数据基础。
  3. 采用分布式海量数据处理架构,以hadoop生态圈以及ElasticSearch为基础,打造海量数据高效存储检索功能优势。
  4. 产品或者竞品负面信息公关监控,帮助市场运营对产品口碑,竞品对比
  5. 投诉信息能做到分钟之内采集->分析->落地->推送预警。
  6. 舆情项目结合容器(DOCKER),容器即服务,深度解耦,避免级联。

服务器监控

监控有比较成熟的zabbix方案,但是这里我们更希望在一个“监控大屏”轻松把所有的服务器负载状态优雅的显示出来,同时又能够宕机发出预警。于是我FORK了ServerStatus,做个一些特性修改,另外server端加入了检测线程,服务器在高负债、宕机、网络异常的情况下能立即推送到kafka,mirror_sms队列中,利用kafka消息队列上游服务和下游服务完全解藕,网络传输会更稳定、更高效、更均衡,避免级联效应,快速推送sms or sem 给相关负责人。

总监控服务器数量:50台+(包括自建代理池)

项目地址:ServerStatus:https://github.com/cppla/serverstatus

监控演示:

爬虫整体架构

panda spider manager wiki

  • 管理所有通用爬虫子任务
  • 设计冗余
  • 高可用机制
  • 支持大规模调度
  • 即时告警
  • 容器即服务

panda spider services wiki,  proxy pool , webkit pool

  • 7层RestFul API标准服务化接口
  • 代理池加入了aliyun 弹性ip方案,真正互联互通全随机出口
  • 代理方案为squid高匿名,同时加入了ssl自签证书
  • 容器即服务

panda spider data flow(service by scrapy.org)

panda spider cluster solutions by redis

  • 垂直网站数据抓取,采用多唤醒的方式。
  • 全容器化,spiderManager拉起任务。
  • 实时回传日志和状态监控

竞品和舆情总体架构

  • 爬虫末端均采用流式数据管道接入
  • 上下游数据完全解藕,避免级联效应
  • 服务均做横向扩展支持大规模数据采集,
高并发、服务冗余
  • 弹幕采用websocket实时接入方式。
  • QQ和微信,采用QQbot 和 Weixinbot,实时采集,秒级响应。

Kafka消息队列Topic

  • Mirror-sms:主要负责服务器整体状态监控,爬虫运行状态监控,告警通知
  • Yuqing-stream:大规模舆情采集信息,例如:贴吧,论坛,微信,主播垂直网站等等
  • Jingpin-stream:竞品数据采集,例如:huya,douyu等。
  • Barrage-stream:各大平台实时弹幕,websocket接入。

数据落地以及可视化

舆情信息的分析能力,及时准确地掌握熊猫直播与竞品公司所关心内容舆情动态,发掘主播热点舆论、网友的舆情倾向极其重要。能够极大的帮助公关、市场、运营作出重要决策!采用实时预警,周报+月报的推送方案和数据可视化大屏实时展示相关动态。 

舆情预计效果

图片来源于互联网
图片来源于互联网

竞品和舆情实际效果(未完)

以上,包括一些曾经未完成的事儿。相逢有时,后会无期

直播技术架构,转载请务必保留链接:https://cpp.la/375.html

农历2019年腊月二十八日,by:cpp.la

发表评论

电子邮件地址不会被公开。 必填项已用*标注