项目背景描述

随着近几年汽车销量下滑,广汽本田想借助互联网营销技术,来提升本公司的汽车销量。通过采用最近火热的大数据精准营销,为广本带来一定销量。由于大数据精准营销平台的不稳定与容量不足,导致广本在2018年4月18日的促销活动,以失败告终。
大数据精准营销平台(简称:DMP),通过在第三方与小轿车有关的专业网站,进行数据埋点,然后,将与汽车相关的用户数据,引流到广本DMP上,进行数据分析,定位用户的需求,推送相关车型广告。
原本广本的整个大数据分析系统经(DMP)都部署在本地机房,由于4.18活动的访问量瞬间突增,导致DMP已准备的基础资源容量不足,系统直接崩溃;本身日常维护对广本来讲,也是相当困难,因为需要具备很多能力,例如:Hadoop/HDFS/Hive/Kafa/Redis等,带宽资源也是头大难题。考虑到以上众多问题,以及4.18事件,广本决定把DMP迁移到AWS,并核心的数据处理组件,采用EMR和S3。如下图:

架构描述

1.ELB负载均衡分为两种,一种位于http(s)应用层(ALB),另一种位于网络层(NLB)。因为DMP本地使用http协议,所以我们选择ALB,从而可以直接重复利用现有程序,无需要修改代码。
2.ALB收集的数据平分给EC2群组内各个EC2进行初步数据处理,从而实现负载均衡。这里有两个EC2群组,分别位于不同可用区(AZ)。两个可用区地理位置至少相隔50公里,当一个可用区发生自然灾害时,另一个可用区可接管所有工作,系统可用性高。
3.EC2群组可以根据组内平均CPU利用率、平均网络IO字节、平均硬盘IO操作数等指标自动扩展或收缩。
4.初步处理过的数据经过Kafka分发给3个下游子系统使用。
5.EMR支持两种数据处理框架:实时处理(Spark streaming)和批量处理(Hadoop)。EMR群集可以根据业务量配置自动伸缩策略。
6.实时EMR处理完的数据可存储在S3,S3数据在宁夏区域的3个AZ中均有复本,实现数据同城灾备。S3还可定义数据生命周期 将冷数据根据一定规则自动转存到Glacier以节省成本。
7.批量EMR只在需要的时候才启动,以节省资源使用成本。当数据量积累得足够多时,启动批量EMR处理并根据业务需要存储到MariaDB或S3。
8.MariaDB是AWS托管的服务,AWS负责数据库的维护工作,用户只管使用数据库即可。
9.Redis和Druid,目前DMP暂时没有业务需求,所以并没有部署。但是将来如有需要可迅速部署,AWS云资源可在分钟级别的时间内即可用。
10.AWS有丰富的运维工具:CloudWatch可监控EC2等系统资源使用情况、CloudTrail可监控dmp系统的任何API调用,适合安全审核、SNS可以发送邮件等方式通知操作员目前系统运行状况、IAM用于控制每个系统用户的权限管理。

- 服务热线:0755-86250923