欢迎来到佳杰云计算官方网站!
24小时免费咨询热线:010-57303000

首页 > 解决方案 > AWS上云迁移解决方案

四川奥博克软件有限公司大数据分析平台上云

Abacus

Abacus(四川奥博克软件有限公司)专注于流通业信息技术应用研究的企业,提供从单店到连锁、从单业态到多业态、从单一业态使用到集团整合应用、从企业内部到上下游供应链、全渠道营销;从C/S到B/S, 从参数化配置到SOA架构,全供应链高效协同,始终因业务发展而变革,对企业信息化的应用广度和深度提供从业务咨询、解决方案、项目实施、售后服务全方面业务。

项目背景

在本次项目中,客户业务系统受传统IDC技术限制,无法满足客户业务增加需求;IDC基础架构扩展成本高昂且上线时间周期较长。 第二点就是随着客户业务体量快速增加,IT基础架构运维越来越复杂,成本越来越高,各种技术支持都面临着严峻的挑战,基于以上问题客户决定将IDC资源迁移到AWS 新加坡 region. 由于客户对亚马逊云服务技术了解程度不够,需要专业的亚马逊云技术支持,将业务迁移至亚马逊云;为了帮助客户规划设计好迁移工作安排,邀请了伟仕佳杰团队负责项目的“计划阶段”、“设计阶段”、“迁移实施”工作, 帮助客户规划与制定迁移流程、解决方案、成本评估、以及技术人员配合协调,并组织会议,沟通解答迁移中客户提出的问题,并加快推动迁移工作内容,同时通过合理的云上业务架构设计,保障客户系统上云后的高可用性和数据安全性。 伟仕佳杰团队为客户部署设计一套安全稳定的网络架构,通过ALC和安全组对网络实现内部资源的隔离;通过部署sd-wan线路打通IDC与AWS云间的私有网络链接,实现混合组网;制定迁移流程、解决方案、成本评估,客户对成本有严格控制; 协调客户技术团队,制定数据,应用,存储迁移方案;梳理客户复杂的数仓环境HBbase、Hive、HDFS、ClikHouse情况,协助用户部署迁移到新的环境中。


项目介绍

迁移前客户业务系统架构

1.当前本地基于CDH5.7自建集群,架构主要为应用层,数据仓库和数据元三层;应用系统部署Web服务以及后端服务

2.BTC(Blockchain-Enabled Tracking and Coordination)供应链系统此系统利用区块链技术来增强供应链的透明度和可追溯性并且提供实时的货物追踪信息、安全的数据存储和去中心化的操作,增加信任度和降低欺诈风险。

3.ETH(Efficient Transaction Handling)收银这个系统提供高效的交易处理能力主要包含功能提供加速结账,减少排队时间,并提高整体客户满意度。

4.BSC(Buyer-Seller Connect )购物平台这个平台主要是改善买家和卖家之间的连接和交互。它包含一个高度用户友好的界面、个性化的购物推荐、以及增强的客户服务功能,以提升购物体验和促进销售。其中供应链BTC大约1.3TB数据,收银系统ETH 大约15TB数据,购物系统BSC 节点大约20T数据。

5.CDH集群中NN40核,128GB内存,DN80核,128G内存,当前集群涉及Hbase,Spark,Hive。Hive跑批任务资源,每个任务大约需要300-500G内存资源。

6.Clikhouse 80核 512G内存,需要做迁移,目前数据量2T。

7.表数量四十多张。单表最大约10亿记录,2.5T数据


迁移后客户业务系统架构

1.BTC(Blockchain-Enabled Tracking and Coordination)供应链系统此系统利用区块链技术来增强供应链的透明度和可追溯性并且提供实时的货物追踪信息、 安全的数据存储和去中心化的操作,增加信任度和降低欺诈风险。

2.ETH(Efficient Transaction Handling)收银这个系统提供高效的交易处理能力主要包含功能提供加速结账,减少排队时间,并提高整体客户满意度。

3.BSC(Buyer-Seller Connect )购物平台这个平台主要是改善买家和卖家之间的连接和交互。它包含一个高度用户友好的界面、个性化的购物推荐、以及增强的客户服务功能,以提升购物体验和促进销售。 BSC购物平台:M6i.xlarge EC2实例 EBS 128G 6台 ETH收银系统:M6i.xlarge EC2实例 EBS 128G 7台 BTC供应链系统:M6i.xlarge EC2实例 EBS 128G 5台


大数据业务系统介绍


1.原CDH集群替换为AWS EMR集群,AWS EMR提供了在云中运行大数据框架(如 Apache Hadoop 和 Apache Spark)的能力, 可以快速的扩展EMR允许用户根据需求轻松地增加或减少资源。你可以开始从几个实例进行处理,然后根据需要扩展到数以千计的实例; EMR 简化了设置、操作和扩展分布式数据框架的过程。它管理硬件和配置,使用户能够专注于分析数据;EMR支持支持使用AWS Spot实例降低成本。

2.原CDH集群中NN40核,128GB内存,DN80核,128G内存,根据与客户深入的测试沟通发现客户目前CDH集群CPU和内存平均使用率在40%左右; 基于云的快速部署特性,我们建议客户先使用m6g.4xlarge作为task node,根据后续业务再对配置进行升级。

3.EMR部署Hadoop 3.2.1,Hive 3.1.3,HBase 2.4.12,JupyterEnterpriseGateway2.1.0,JupyterHub 1.4.1, Livy 0.7.1, Presto 0.273, Spark 3.3.0, Tez 0.9.2, ZooKeeper 3.5.10组件;集群使用2台m6g.2xlarge实例做为主节点, 另外部署两台m6g.4xlarge作为核心常用节点;根据客户现有业务调度情况每天预计运行任务7小时,使用台15 m6g.4xlarge作为节点,每月任务时长约2000小时。

4.自建ClickHouse集群将原集群数据迁移到云上集群中,在客户原架构中采用的是80核 512G内存的服务器,在与客户沟通咨询中发现原服务器利用率在20%左右, 因此基于AWS上快速扩容的优势,我们建议客户先采用3台r6i.4xlarge实例构建高可用集群,每台实例配置4TB SSD GP3存储,后续业务规模增长的再快速增加服务资源配置, 这样既能节约成本同时也不会影响业务运行。

5.BSC系统,ETH系统,BTC系统本次依旧采用层架构方式进行部署,即前端,后端,数据库。使用AWS ALB负责均衡作为前端与用户的接入接口,数据库采用托管的AWS RDS for MySQL 数据库,并且均采用Graviton芯片实例;使用托管服务可以帮助客户降低运维成本,采用Graviton芯片不仅能提升实例的计算能力同时要比AWS同配置的X86实例便宜30%的价格。 原自建MySQL数据库和Redis采用AWS 托管服务RDS for MySQL和Elasticache for Redis替换,降低客户运维复杂程度,MySQL数据量约300GB。 RDS:3套db.m6g.xlarge 多可用区部署 存储500GB Elasticache:cache.m6g.xlarge

6.数据摄入依旧采用kafka和Flume进行数据传输,kafka采用AWS托管服务MSK部署,Flume通过自建方式部署。 MSK:m5.xlarge 3节点 Flume: M6i.large 3节点

7.Dolscheduler作为数据平台的任务调度系统,Dolphin有可视化平台,可以直接拖拽配置,客户使用更方便,本项目采用3台m6i.xlarge通过EC2自建。

8.部署一套solr系统,采用5台m6i.xlarge实例进行部署。


网络规划

在解决方案设计过程中AWS 架构完善的框架,给我们指明了确保工作负载架构设计符合最佳实践的关键元素。架构完善的框架还定义了一系列一般性设计原则,帮助我们为客户构建良好的分析应用程序云端设计。AWS 架构完善的框架建立在卓越运营、安全性、可靠性、性能效率和成本优化的基础上。对于分析工作负载和环境,AWS 提供了多个核心组件,可以为客户设计可靠的架构。参考AWS架构最佳实践,帮助客户构建云上网络方案。


迁移工作说明


数据库迁移

MySQL数据迁移采用AWS DMS工具,AWS DMS AWS Database Migration Service (AWS DMS) 是一项云服务,可轻松迁移关系数据库、数据仓库、NoSQL 数据库及其他类型的数据存储。您可以使用 AWS DMS 将数据迁移到 AWS 云,在本地实例之间(通过 AWS 云设置)进行迁移,或者在云与本地设置的组合之间进行迁移。 利用 AWS DMS,可以执行一次性迁移,而且可以复制持续更改以保持源和目标同步。可以使用 AWS DMS 迁移数据。由于 AWS DMS 是 AWS 云的一部分,您将获得 AWS 服务提供的成本效益、上市速度、安全性与灵活性。 迁移采用全备+增量+持续复制的模式进行备份,全备采用MySQL自带的备份工具如mysqldump或者mydumper备份业务库,记录binlog日志点,增量部分使用DMS通过binlog日志点开始持续复制,一直保持到业务切换测试完成。



Elasticsearch迁移架构图

采用ES自带的快照备份和恢复对原ES进行迁移,新环境版本和原环境一致,创建IAM获取AK/SK同时创建一个存储桶,使用该存储桶做为ES快照存储库。通过ES手动创建快照或者SLM策略进行快照创建,快照创建完成之后,通过该快照在AWS中恢复数据。

对象存储迁移

 数据传输解决方案(Data Transfer Hub)为 Amazon Simple Storage Service(Amazon S3)对象和 Amazon Elastic Container Registry(Amazon ECR)镜像提供安全、可扩展和可跟踪的数据传输。将数据从其他云服务提供商的对象存储服务(包括阿里云OSS、腾讯COS和七牛Kodo)传输到Amazon S3。 Data Transfer Hub 中的每一种数据类型都对应于一个独立插件,这些插件通过 CloudFormation 打包,托管于统一的 S3 存储桶中。当用户在前端界面创建传输任务后,Lambda 将自动触发 CloudFormation 以开始创建传输任务所需要的资源。所有任务及任务的状态都存储在 DynamoDB 表中。