2024年5月8日发(作者:)

2023年陕西省高等职业院校技能大赛

“大数据应用开发”赛项竞赛规程

一、赛项名称

赛项名称:大数据应用开发

赛项组别:高职组

赛项专业大类:电子与信息

二、竞赛目的

“十四五”时期,大数据产业对经济社会高质量发展的赋能作用

更加突显,大数据已成为催生新业态、激发新模式、促进新发展的技

术引擎。习近平总书记指出“大数据是信息化发展的新阶段”,“加

快数字化发展,建设数字中国”成为《中华人民共和国国民经济和社

会发展第十四个五年规划和2035年远景目标纲要》的重要篇章。

本赛项旨在落实国家“建设数字中国”战略,协同推动大数据相

关产业的创新与发展,大力推进大数据技术及相关专业的技术技能型

人才培养,全面提升相关专业毕业生的综合能力,展现选手团队合作、

工匠精神等职业素养,赋能经济社会高质量发展。竞赛内容结合当前

大数据相关产业中的新技术、新要求,如数据湖、OLAP数据库应用

等,全面检验参赛选手的工程实践能力和创新能力,推进教学过程与

生产过程对接、课程内容与职业标准对接、专业设置与产业需求对接,

促进职普融通、产教融合、科教融汇,引领专业建设和教学改革。竞

赛内容围绕大数据相关产业岗位的实际技能要求进行设计,通过竞赛

搭建校企合作的平台,强化竞赛成果转化,促进相关教材、资源、师

资、认证、实习就业等方面的全方位建设,满足产教协同育人目标,

为国家战略规划提供大数据领域高素质技能型人才。

6

三、竞赛内容

赛项以大数据应用开发为核心内容和工作基础,重点考查参赛选

手基于Hadoop、Spark、Flink平台环境下,充分利用SparkCore、

SparkSQL、Flume、Kafka、Flink、Hive、HBase、Redis、Maxwell、

ClickHouse、MySQL等技术的特点,综合软件开发相关技术,解决实

际问题的能力,具体包括:

(一)掌握Hadoop平台、基于Spark的离线分析平台、基于Flink

的实时分析平台,在容器环境下,按照项目需求安装相关技术组件并

按照需求进行合理配置。

(二)掌握基于Spark的离线数据采集方式方法,完成指定数据

的抽取并写入Hive分区表中。掌握基于Flume、Maxwell的实时数据

采集,将数据写入Kafka中。

(三)综合利用Flink、Kafka、Hive、Redis、HBase、ClickHouse

等技术,使用Scala开发语言,完成某电商系统的实时数据处理,包

括使用Flink处理Kafka中的数据、实时数据仓库、将数据备份至

HBase中、建立Hive外表、将数据处理结果存入Redis、ClickHouse

中等操作。

(四)综合利用Spark、Hive、MySQL、HBase、ClickHouse等相

关技术,使用Scala开发语言,完成某电商系统的离线数据处理,包

括Hive数据仓库、使用Spark处理离线数据、数据合并、去重、排

序、数据类型转换、将数据处理结果存入MySQL、HBase、ClickHouse

中等操作。

(五)综合运用HTML、CSS、JavaScript等开发语言,

前端技术,结合ECharts数据可视化组件,利用后端数据接口完成数

7

据可视化。

(六)根据竞赛过程,完成综合分析报告的编写。

(七)竞赛时间8小时,竞赛连续进行。

竞赛内容构成如下:

考核环节

Docker基本操作

Hadoop完全分布式安装配置

Spark安装配置

Flink安装配置

大数据平台环境搭建Hive安装配置

Kafka安装配置

Flume安装配置

ClickHouse安装配置

HBase安装配置

使用Spark抽取MySQL指定数据表中的增量数据到ods层的指定

的分区表中

使用Flume采集某端口的实时数据流并存入Kafka指定的Topic

使用Maxwell采集MySQL的binlog日志并存入Kafka指定的

Topic中

使用Flink消费Kafka中的数据并将数据分发至Kafka的dwd

层中

使用Flink消费Kafka中的数据的同时能够将数据备份至HBase

中,同时建立Hive外表

使用Flink对实时数据进行处理并将处理计算结果存入Redis

使用Flink对实时数据进行处理并将处理计算结果存入

ClickHouse中

使用Spark对ods层中的离线数据进行清洗,包括数据合并、去

重、排序、数据类型转换等操作

将清洗完的数据存入dwd层中

考核知识点和技能点

数据采集

实时数据处理

离线数据处理

8

数据可视化

综合分析报告

根据dwd层的数据使用Spark对数据进行处理计算,并将计算结

果存入MySQL中

根据dwd层的数据使用Spark对数据进行处理计算,并将计算结

果存入HBase中

根据dwd层的数据使用Spark对数据进行处理计算,并将计算结

果存入ClickHouse中

根据后端数据接口,基于、ECharts的数据可视化编码(柱

状图、折线图、饼状图等)

文档能力、综合分析能力

竞赛各阶段分值权重和时间分布如下:

阶段

大数据平台环境搭建

离线数据抽取

离线数据统计

数据采集与实时计算

数据可视化

综合分析报告

团队分工明确合理、操作规范、文明竞赛

竞赛时间分值权重

权重10%

权重15%

权重20%

权重20%

权重20%

权重10%

权重5%

8小时

四、竞赛方式

本次竞赛为线下比赛,组队方式为师生同赛,具体要求如下:

(一)参赛学生须为高等职业学校专科、高等职业学校本科全日

制在籍学生,五年制高职四、五年级学生也可报名参赛。参赛教师须

为校内专任教师,并提供在职证明,需加盖学校公章。凡在往届全国

职业院校技能大赛中获一等奖的选手,不能再参加同一项目同一组别

的比赛。

(二)每支参赛队由4名选手组成,其中1名教师,3名学生。

本赛项为师生同赛不设指导教师,报名获得确认后不得随意更换人员

或调换顺序,各学校可另设领队1名。

(三)本赛项为单一场次,所有参赛队在现场根据给定的任务说

明,在8小时内相互配合,采用小组合作的形式完成任务,最后以提

交的结果文档作为最终评分依据。

9

五、竞赛时间和地点

时间:2023年5月9日-10日

地点:陕西交通职业技术学院(陕西省西安市文景路19号)

六、竞赛流程

根据竞赛任务要求,参赛队伍在8小时竞赛时间内须完成竞赛任

务,每项任务用时可自行掌握。

(一)竞赛时间安排

日期时间内容地点

14:00-16:30

各参赛队报到、领取服装及资

明远楼1层

5月9日

15:00-16:00领队会、抽取加密号明远楼18层1812室

16:00-16:30选手熟悉赛场明远楼11层

8:00-9:00

赛场检录,竞赛选手二次加密

明远楼12层(封闭待考区)

后进入工位

5月10日

9:00-17:00竞赛选手完成竞赛任务明远楼11层

18:00-21:00

对选手提交的结果文件进行

明远楼12层

评分

10

(二)竞赛流程

(由裁判长决定是否延时)

七、竞赛试题

本赛项样题详见附件1。

八、竞赛规则

(一)比赛时间为8个小时,比赛过程连续进行。

(二)参赛队的竞赛工位号采用抽签方式确定。赛题以任务书形

式发放,竞赛参考资料在赛前植入参赛选手的计算机,参赛队根据任

务书要求完成竞赛任务。

(三)赛项组委会统一布置竞赛需要的软硬件环境。选手不得私

自携带任何移动存储、辅助工具、移动通信等进入赛场。

(四)参赛选手报到当天可预先熟悉比赛场地,但不得进行现场

练习。参赛选手按规定时间到达指定地点,凭参赛证、学生证(在职

证明)和身份证(三证必须齐全)进入赛场。选手迟到10分钟取消

比赛资格。

11

(五)各队观摩人员在赛场指定的观摩区观摩比赛。

(六)参赛选手不得携带通讯工具和其它未经允许的资料、物品

进入比赛场地,不得中途退场。如出现较严重的违规、违纪、舞弊等

现象,经裁判组裁定取消比赛成绩。

(七)新闻媒体在赛场设定的媒体采访区工作,并且听从现场工

作人员的安排和管理,不能影响比赛进行。

(八)在竞赛过程中,参赛选手如有疑问,应举手示意,现场裁

判应按要求及时予以答疑。如遇设备或软件等故障,参赛选手应举手

示意,现场裁判、技术人员等应及时予以解决。确因计算机软件或硬

件故障,致使操作无法继续的,经裁判长确认,予以启用备用设备。

(九)比赛过程中,参赛选手须严格遵守操作标准和规范,保证

自身安全,并接受裁判员的监督和警示;若因设备故障导致选手中断

或终止比赛,由裁判长视具体情况做出裁决。

(十)参赛选手不得因各种原因提前结束比赛。如确因不可抗因

素需要离开赛场的,须向现场裁判举手示意,经裁判长许可并完成记

录后,方可离开。凡在竞赛期间内提前离开的选手,不得返回赛场。

(十一)现场比赛结束,经裁判长确认后方可离开赛场。

(十二)竞赛由评分裁判现场评分,经裁判长签字确认后予以公

布,如有异议请直接向赛项仲裁工作组申请复核。

(十三)参赛选手应严格遵守赛场纪律,服从指挥,着装整洁,

仪表端庄,讲文明礼貌。各代表队之间应团结、友好、协作,避免发

生任何形式的矛盾。

(十四)其它未尽事宜,将在赛前向各领队做详细说明。

12

九、竞赛环境

(一)竞赛场地

竞赛场地分为:竞赛现场、裁判休息区、指导老师休息区、服务

区。其中,竞赛现场又划分为:检录区、场内竞赛区、技术支持区。

(二)竞赛设备

场内竞赛区按照参赛队数量准备比赛所需的软硬件平台,为参赛

队提供统一竞赛设备和备用设备。选手无需自带任何工具及附件。

(三)竞赛工位

竞赛现场各个工作区配备单相220V/3A以上交流电源。每个比赛

工位上标明编号。

(四)技术支持区

为技术支持人员提供固定工位、电源保障。

(五)服务区

提供医疗等服务保障。

十、技术规范

本赛项引用的国际、国家、行业技术、职业资格标准与规范如下:

(一)基础标准

标准号/规范简称

GB/T11457-2006

GB8566-88

GB/T12991.1-2008

GB/Z21025-2007

GB/T28821-2012

LD/T81.1-2006

名称

信息技术软件工程术语

计算机软件开发规范

信息技术数据库语言SQL第1部分:框架

XML使用指南

关系数据管理系统技术要求

职业技能实训和鉴定设备通用技术规范

(二)大数据技术相关标准

13

标准号/规范简称

GB/T35295-2017

GB/T37721-2019

GB/T37722-2019

GB/T38672-2020

GB/T38673-2020

GB/T38675-2020

GB/T38633-2020

GB/T41778-2022

GB/T41818-2022

名称

信息技术大数据术语

信息技术大数据分析系统功能要求

信息技术大数据存储与处理系统功能要求

信息技术大数据接口基本要求

信息技术大数据大数据系统基本要求

信息技术大数据计算系统通用要求

信息技术大数据系统运维和管理功能要求

信息技术工业大数据术语

信息技术大数据面向分析的数据存储与检索技术要求

(三)软件开发与软件工程相关标准

标准号/规范简称

GB/T14079-1993

GB/T15853-1995

GB/T17544-1998

GB/T8566-2007

GB/T22032-2021

名称

软件维护指南

软件支持环境

信息技术软件包质量要求和测试

信息技术软件生存周期过程

系统与软件工程系统生存周期过程

十一、技术平台

(一)竞赛设备

序号

1

设备名称

服务器

数量

远程访问构建大数据平台集群

备注

2

1.系统基于K8S、Docker引擎,支持镜像上传存储、镜

像复制、私有镜像仓库管理等;支持K8S集群的导入并

进行权限控制;支持在名称空间中以微服务方式将工作

负载划分到不同层;支持图形化的工作负载编辑,快速

完成对容器的编排;在工作负载中可将部署的历史版本、

Pod列表、Pod关联事件、容器信息进行有效组织及展示;

可对接NFS、CephFS等常用存储类型,支持对CephFS

大数据实训

每组1套类型存储卷声明执行扩容和快照;支持从容器中进行文

管理系统

件的上传和下载。

2.系统基于Linux部署,支持多角色(管理员、教师、

学生)管理、专业管理、班级管理、用户管理、镜像环

境、环境配置、资源监控、实训管理、课程管理、实践

项目、实训监控、个人实验环境、讨论区、个人中心等

功能;支持通过VNC、SSH等模式访问。

3.支持模拟竞赛全业务流程,提供大数据竞赛操作环境。

14

3PC机

CPU:i5及以上

内存:不少于16GB

每组4台

硬盘:不少于1TBSATA

显示器:1920*1080及以上

(二)软件环境

设备类型软件类别

竞赛环境大数据集群操

作系统

软件名称、版本号

CentOS7

Hadoop2.7.7

Hive2.3.4

Spark2.1.1

Kafka2.0.0

Redis4.0.1

Flume1.7.0

Flink1.10.2

JDK1.8

MySQL5.7

Ubuntu18.0464位

Chrome

Scala2.11

IDEA2019

(CommunityEdition)

VisualStudioCode1.63

MySQLWorkbench

Asbru-cm或UbuntuSSH客户端

PostmanAPIPlatform

3.0

ECharts5.1

WPSlinux版

搜狗拼音输入法Linux版

竞赛服务器

大数据平台组件

PC操作系统

浏览器

开发语言

开发工具

开发客户端

数据库连接工具

SSH工具

API测试工具

数据可视化组件

文档编辑器

输入法

十二、成绩评定

(一)奖项设定

本赛项奖项设团体奖。设奖比例为:以赛项实际参赛队总数为基

数,一、二、三等奖获奖比例分别为10%、20%、30%(小数点后四舍

五入)。

15

如出现参赛队总分相同情况,按照任务分值权重顺序的得分高低

排序,即总成绩相同的情况下比较任务C的成绩,任务C成绩高的排

名优先,如果任务C成绩也相同,则按任务D、任务B、任务A、任

务E、任务F的成绩进行排名,以此类推完成相同成绩的排序。如果

所有任务分值相同,则查看文档撰写规范、职业素养的分值进行排序。

(二)评分标准制定原则

竞赛评分制定严格遵守公平、公正的原则,大数据应用开发赛项

评分采用赛项结果评分方法,始终贯彻落实竞赛一贯坚持的公平、公

正和公开原则。

参与竞赛成绩管理的组织机构包括裁判组、监督组和仲裁组等。

裁判组实行“裁判长负责制”,设裁判长1名,全面负责竞赛的裁判

与管理工作。

裁判员根据竞赛工作需要分为检录裁判、加密裁判、现场裁判和

评分裁判。检录裁判负责对参赛队伍(选手)进行点名登记、身份核

对等工作;加密裁判负责组织参赛队伍(选手)抽签并对参赛队伍(选

手)的信息进行加密、解密;现场裁判按规定做好赛场记录,维护赛

场纪律;评分裁判负责对参赛队伍(选手)的技能展示、操作规范和

竞赛成果等按赛项评分标准进行评定。

监督组对裁判组的工作进行全程监督,并对竞赛成绩抽检复核。

仲裁组负责接受由参赛队领队提出的对裁判结果的申诉,组织复

议并及时反馈复议结果。

(三)评分方法

选手在完成任务之后,将任务完成结果拷贝至U盘中,由参赛选

手队长签字确认(签工位号)。

16

评分采取分步得分、累计总分的计分方式。

不计参赛选手的个人得分,只记录团体得分。

参赛队提交比赛任务结束请求或者在比赛时间终止后,不得再进

行任何操作。否则,视为比赛作弊,给参赛队记警告一次。

在竞赛过程中,选手如有不服从裁判判决、扰乱赛场秩序、舞弊

等不文明行为,由裁判长按照规定扣减相应分数并且给予警告,情节

严重的取消竞赛资格,竞赛成绩记0分,队员退出比赛现场。

(三)评分标准

任务

大数

据平

台环

境搭

(10

分)

离线

数据

抽取

(15

分)

离线

数据

统计

(20

分)

数据

采集

与实

时计

(20

分)

考查点

大数据

相关平

台组件

安装配

离线数

据抽取

代码编

描述评分标准

分值

(分)

主要评分点包括Hadoop

完全分布式安装配置、

在指定的主机上完成Hadoop完全

Spark安装配置、Flink

分布式、Spark、Flink、Hive、Kafka、

安装配置、Hive安装配

Flume的安装配置。

置、Kafka安装配置、

Flume安装配置。

按照要求使用Scala语言完成特定

主要评分点包括Spark

函数的编写,使用Spark抽取MySQL

数据读取、数据存储操

指定数据表中的新增的数据到ODS

作。

层的指定的分区表中。

使用Scala语言编写程序获取ODS

层指定分区表中的数据进行清洗,

并完成销量前5的商品统计、某月

的总销售额统计、指定月份的销售

额统计、各用户在线总时长统计,

并将统计后的数据存入MySQL数据

库中。

启动业务系统,按照要求使用

Flume将用户操作日志采集并存入

Kafka中并使用Flink、Scala消费

Kafka中的数据将其进行聚合计算

出商城在线人数,将结果存入

Redis中,并统计该系统的UV与PV

存入MySQL中。

10

15

离线数

据统计

代码编

主要评分点包括Spark

数据清洗、数据统计相

关操作。

20

数据采

集与实

时计算

代码编

主要评分点包括Flume、

Kafka、Flink、Redis

相关操作。

20

17

数据

可视

(20

分)

综合

分析

报告

(10

分)

职业

素养

(5

分)

数据可

视化代

码编写

编写前端Web界面,调用后台数据主要评分点包括可视化

接口,使用、ECharts完成前端代码开发、前端展

数据可视化。示。

20

文档编

主要评分点包括能够按

根据项目要求,完成综合分析报告

照赛项要求进行综合分

编写。

析。

主要评分点包括:竞赛

团队分工明确合理、操作规范、文

团队分工明确合理、操

明竞赛

作规范、文明竞赛。

10

职业素

5

(五)成绩审核方法

竞赛结束后,由裁判长向裁判员核实竞赛过程中有无异常。如无

异常,成绩单由裁判长签字确认并封存直至公布成绩时开启。

如有异常,在裁判长主持下,由专家组成员、裁判员、仲裁员和

监督员共同处理。

(六)成绩公布方法

竞赛成绩经复核无误后,经裁判长、监督人员审核签字后,以赛

项组委会最终公布结果为准。

竞赛结束后,如参赛队对比赛成绩有异议,提出异议申诉或仲裁,

可按照相关规定进行申诉和仲裁,按照仲裁结果公布竞赛成绩。

十三、竞赛须知

(一)参赛队须知

1.参赛队名称:统一使用规定的学校代表队名称,不使用其他组

织、团体的名称。

2.参赛队组成:每支参赛队由4名选手组成,其中1名教师,3

名学生。本赛项为师生同赛不设指导教师,报名获得确认后不得随意

18

更换。不接受跨校组队,同一学校的报名参赛队伍不超过2支。

3.各参赛院校应指定1名负责人任赛项领队,全权负责该校参赛

事务的组织、协调和领导工作。

4.参赛选手在报名获得确认后,原则上不再更换。如在筹备过程

中,参赛选手因故不能参赛,须由其所在学校供职部门于赛项开赛前

10个工作日之前出具书面说明,经赛项执委会办公室核实后予以更

换。

5.参赛队按照赛项竞赛规程安排,凭赛项执委会颁发的参赛证和

有效身份证件参加比赛及相关活动。

6.赛项执委会统一安排各参赛队在比赛前一天进入赛场熟悉环

境和设施情况。

7.参赛队选手、领队要有良好的职业道德,严格遵守比赛规则和

比赛纪律,服从裁判,尊重裁判和赛场工作人员,自觉维护赛场秩序。

8.领队应负责赛事活动期间本队所有选手的人身及财产安全,如

发现意外事故,应及时向赛项执委会报告。

9.各学校组织代表队时,须为参赛选手购买竞赛期间的人身意外

伤害保险。

(二)领队须知

1.严格遵守赛场的各项规定,服从裁判,文明竞赛。如发现弄虚

作假者,取消参赛资格,名次无效。

2.领队务必带好有效身份证件,在活动过程中佩戴相关证件参加

竞赛相关活动。

3.各代表队领队要坚决执行竞赛的各项规定,加强对参赛人员的

管理,做好赛前准备工作,督促选手带好证件等竞赛相关材料。

19

4.在比赛期间要严格遵守比赛规则,不得私自接触裁判人员。

5.竞赛过程中,未经裁判许可,领队及其他人员一律不得进入竞

赛现场。

6.如对竞赛过程有疑议,由领队负责以书面形式向赛项仲裁委员

会反映,但不得影响竞赛进行。

7.对申诉的仲裁结果,领队要带头服从和执行,并做好选手工作。

参赛选手不得因申诉或对处理意见不服而停止竞赛,否则以弃权处

理。

8.领队应及时查看有关赛项的通知和内容,认真研究和掌握本赛

项竞赛的规程、技术规范和赛场要求,指导选手做好赛前的一切技术

准备和竞赛准备。

(三)参赛选手须知

1.参赛选手应严格遵守赛场规章、操作规程和工艺准则,保证人

身及设备安全,接受裁判员的监督和警示,文明竞赛。

2.参赛选手应按照规定时间抵达赛场,凭身份证、学生证(在职

证明),以及统一发放的参赛证,完成入场检录、抽签确定竞赛工位

号,不得迟到早退。

3.参赛选手凭竞赛工位号进入赛场,不允许携带任何电子设备及

其他资料、用品。

4.参赛选手应在规定的时间段进入赛场,认真核对竞赛工位号,

在指定位置就座。

5.参赛选手入场后,迅速确认竞赛设备状况,填写相关确认文件,

并由参赛队长确认签字(竞赛工位号)。

6.参赛选手在收到开赛信号前不得启动操作。在竞赛过程中,确

20

因计算机软件或硬件故障,致使操作无法继续的,经裁判长确认,予

以启用备用计算机。

7.参赛选手应在竞赛规定时间内完成任务书内容,并按照要求,

将相应文档拷贝到U盘。

8.参赛选手需及时保存工作记录。对于因各种原因造成的数据丢

失,由参赛选手自行负责。

9.参赛队所提交的答卷采用竞赛工位号进行标识,不得出现地

名、校名、姓名、参赛证编号等信息,否则取消竞赛成绩。

10.竞赛过程中,因严重操作失误或安全事故不能进行比赛的(例

如因操作原因发生短路导致赛场断电的、造成设备不能正常工作的),

现场裁判有权中止该队比赛。

11.在比赛中如遇非人为因素造成的设备故障,经裁判确认后,

可向裁判长申请补足排除故障的时间。

12.参赛选手不得因各种原因提前结束比赛。如确因不可抗因素

需要离开赛场的,须向现场裁判举手示意,经裁判长许可并完成记录

后,方可离开。凡在竞赛期间内提前离开的选手,不得返回赛场。

13.竞赛操作结束后,参赛选手需要根据任务书要求,将相关成

果文件拷贝至U盘,填写结束比赛相关确认文件,并由参赛队长签字

确认(竞赛工位号)。因参赛选手未能按要求,将相应的文档等拷贝

至U盘的,竞赛成绩计为零分。

14.竞赛时间结束,选手应全体起立,停止操作。将资料和工具

整齐摆放在操作平台上,经工作人员清点后可离开赛场,离开赛场时

不得带走任何资料。

15.在竞赛期间,未经执委会批准,参赛选手不得接受其他单位

21

和个人进行的与竞赛内容相关的采访。参赛选手不得将竞赛的相关信

息私自公布。

16.符合下列情形之一的参赛选手,经裁判组裁定后中止其竞赛:

(1)不服从裁判员/监考员管理、扰乱赛场秩序、干扰其他参赛

选手比赛,裁判员应提出警告,二次警告后无效,或情节特别严重,

造成竞赛中止的,经裁判长确认,中止比赛,并取消竞赛资格和竞赛

成绩。

(2)竞赛过程中,由于选手人为造成计算机、仪器设备及工具

等严重损坏,负责赔偿其损失,并由裁判组裁定其竞赛结束与否、是

否保留竞赛资格、是否累计其有效竞赛成绩。

(3)竞赛过程中,产生重大安全事故、或有产生重大安全事故

隐患,经裁判员提示没有采取措施的,裁判员可暂停其竞赛,由裁判

组裁定其竞赛结束,保留竞赛资格和有效竞赛成绩。

(四)工作人员须知

1.竞赛现场设现场裁判组,裁判长1名,现场裁判若干名。裁判

要秉公裁判,监督检查参赛队安全有序竞赛。如遇疑问或争议,须请

示裁判长裁决,裁判长的决定为现场最终裁定。

2.赛场工作人员由赛项执委会统一聘用并进行工作分工,进入竞

赛现场须佩戴赛项执委会统一提供的胸牌。

3.赛场工作人员需服从赛项执委会的管理,严格执行赛项各项比

赛规则,执行各项工作安排,积极维护好赛场秩序,坚守岗位,为赛

场提供有序的服务。

4.赛场工作人员进入现场,不得携带任何通讯工具或与竞赛无关

的物品。

22

5.参赛队进入赛场,现场裁判应按规定审查参赛选手带入赛场的

物品,如发现不允许带入赛场的物品,交由参赛队随行人员保管,赛

场不提供保管服务。

6.赛场工作人员在竞赛过程中不回答选手提出的任何有关比赛

技术问题,如遇争议问题,应及时报告裁判长。

十五、申诉与仲裁

(一)本赛项在比赛过程中若出现有失公正或有关人员违规等现

象,参赛队领队可在当日比赛结束后2小时内向仲裁组提出申诉。

(二)赛项仲裁组在接到申诉后的2小时内组织复议,超过时效

将不予受理。申诉时,应按照规定的程序由参赛队领队向相应赛项裁

判委员会递交书面申诉报告。报告应对申诉事件的现场、发生的时间、

涉及到的人员、申诉依据与理由等进行充分、实事求是的叙述。事实

依据不充分、仅凭主观臆断的申诉将不予受理。申诉报告须有申诉的

参赛选手、领队签名。

(三)赛项裁判委员会收到申诉报告后,应根据申诉事由进行审

查,2小时内书面通知申诉方,告知申诉处理结果申诉方对复议结果

仍有异议,可由领队向赛区监督仲裁委员会提出申诉。赛区监督仲裁

委员会的仲裁结果为最终结果,仲裁工作组的裁决为最终裁决,参赛

队不得因对仲裁处理意见不服而停止比赛或滋事,否则按弃权处理。

(四)申诉人不允许采取过激行为刁难、攻击工作人员,否则视

为放弃申诉。

(五)申诉方可随时提出放弃申诉。

23

“大数据应用开发”赛项竞赛试题(样卷)

一、竞赛时间、内容及总成绩

(一)竞赛时间

竞赛时间共为8小时,参赛队自行安排任务进度,休息、饮水、

如厕等不设专门用时,统一含在竞赛时间内。

(二)竞赛内容概述

序号

任务一

任务名称

大数据平台环境搭建

具体内容

按照大数据分析平台需求,需要完成Hadoop

完全分布式、Spark安装配置、Flink安装

配置、Hive安装配置、Kafka安装配置、Flume

安装配置

按照要求使用Scala语言完成特定函数的编

写,使用Spark抽取MySQL指定数据表中的

新增的数据到ODS层的指定的分区表中

使用Scala语言编写程序获取ODS层指定分

区表中的数据进行清洗,并完成销量前5的

商品统计、某月的总销售额统计、指定月份

的销售额统计、各用户在线总时长统计,并

将统计后的数据存入MySQL数据库中

启动业务系统,按照要求使用Flume将用户

操作日志采集并存入Kafka中并使用

Flink、Scala消费Kafka中的数据将其进行

聚合计算出商城在线人数,将结果存入

Redis中,并统计该系统的UV与PV将结果

存入MySQL中

编写前端Web界面,调用后台数据接口,使

用、ECharts完成数据可视化

根据要求编写综合分析报告

任务二离线数据抽取

任务三离线数据统计

任务四数据采集与实时计算

任务五

任务六

数据可视化

综合分析报告

(三)竞赛总成绩

“大数据应用开发”赛项竞赛总成绩为100分,其中包含赛场职

业素养5分。

二、任务须知

(一)每组参赛队分配四台客户机,拥有独立IP组。

24

(二)本次比赛采用统一网络环境比赛,请不要随意更改客户端

的网络地址信息,对于更改客户端信息造成的问题,由参赛选手自行

承担比赛损失。

(三)请不要恶意破坏竞赛环境,对于恶意破坏竞赛环境的参赛

者,组委会根据其行为予以处罚直至取消比赛资格。

(四)比赛过程中及时保存相关文档。

(五)比赛相关文档中不能出现参赛学校名称和参赛选手名称,

以工位号代替。

(六)参赛选手请勿删除模板内容,若因删除导致任何问题后果

自负。

(七)若同一文档由不同选手完成,须将文档合并后作为最终结

果提交到U盘中。

(八)比赛中出现各种问题及时向现场裁判举手示意,不要影响

其他参赛队比赛。

三、任务说明

本项目要求完成离线电商数据统计分析,完成大数据平台环境搭

建、离线数据抽取、离线数据统计、数据采集与实时计算、数据可视

化及综合分析报告编写等工作。

提供的相关资源包括:

(一)大数据环境搭建中需要用到的组件安装包

(二)电商相关数据

(三)大数据分析集群环境

(四)离线数据抽取开发环境

(五)离线数据统计开发环境

25

(六)数据采集与实时计算开发环境

(七)数据可视化开发环境

(八)综合分析报告文档模板

任务一:大数据平台环境搭建

按照大数据分析平台需求,需要完成Hadoop完全分布式、Spark

安装配置、Flink安装配置、Hive安装配置、Kafka安装配置、Flume

安装配置。

任务二:离线数据抽取

按照要求使用Scala语言完成特定函数的编写,使用Spark抽取

MySQL指定数据表中的新增的数据到ODS层的指定的分区表中。

任务三:离线数据统计

使用Scala语言编写程序获取ODS层指定分区表中的数据进行清

洗,并完成销量前5的商品统计、某月的总销售额统计、指定月份的

销售额统计、各用户在线总时长统计,并将统计后的数据存入MySQL

数据库中。

任务四:数据采集与实时计算

启动业务系统,按照要求使用Flume将用户操作日志采集并存入

Kafka中并使用Flink、Scala消费Kafka中的数据将其进行聚合计

算出商城在线人数,将结果存入Redis中,并统计该系统的UV与PV

将结果存入MySQL中。

任务五:数据可视化

编写前端Web界面,调用后台数据接口,使用、ECharts

完成数据可视化。

任务六:综合分析报告

26

根据项目要求,完成综合分析报告编写。

四、竞赛结果提交要求

(一)提交方式

任务成果需拷贝至提供的U盘中。在U盘中以XX工位号建一个

文件夹(例如01),将所有任务成果文档保存至该文件夹中。

(二)文档要求

竞赛提交的所有文档中不能出现参赛队信息和参赛选手信息,竞

赛文档需要填写参赛队信息时以工位号代替(XX代表工位号)。

27