tag 标签: 运营

相关资源
  • 所需E币: 0
    时间: 2024-2-26 10:46
    大小: 2.97KB
    上传者: 开心就很好了
    一、Spark3.0.0运行环境安装Spark常见部署模式:Local模式:在本地部署单个Spark服务所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等。在IDEA中运行代码的环境称之为开发环境,和Local模式还是有区别的。Standalone模式:Spark自带的任务调度模式。(国内常用)YARN模式:Spark使用Hadoop的YARN组件进行资源与任务调度。(国内常用)Windows模式:为了方便在学习测试spark程序,Spark提供了可以在windows系统下启动本地集群的方式,这样,在不使用虚拟机或服务器的情况下,也能满足Spark的基本使用。Mesos&K8S模式:(了解)。Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核,在Twitter得到广泛使用,管理着Twitter超过30,0000台服务器上的应用部署,但是在国内,依然使用着传统的Hadoop大数据框架,所以国内使用Mesos框架的并不多,但是原理都差不多。容器化部署是目前业界很流行的一项技术,基于Docker镜像运行能够让用户更加方便地对应用进行管理和运维。容器管理工具中最为流行的就是Kubernetes(k8s),而Spark也在最近的版本中支持了k8s部署模式。1、配置javajdk1.8环境变量配置路径:电脑→属性→高级系统设置→环境变量path中加入:%JAVA_HOME%/bin。注:jdk版本不宜过高。2、配置scala2.12.0下载scala安装包,选择对应版本,这里我选择的是scala2.12.0版本。3、配置scala环境环境变量配置路径:此电脑→属性→高级系统设置→环境变量path中加入:%SCALA_HOME%/bin。验证配置cmd验证配置:scala-version4、配置Hadoop3.1.0Hadoop下载从Apache官网下载Hadoop,官网下载速度较慢,也可使用国内镜像下载。Hadoop环境变量配置,配置步骤同Scala配置。注意:需要把%HADOOP_HOME%\bin与%HADOOP_HOME%\sbin一同加入path中。5、配置Spark3.0.3Spark下载Spark环境配置,配置步骤同scala配置。注意:需要把%SPARK_HOME%\bin与%SPARK_HOME%\sbin一同加入path中。配置验证cmd命令:spark-shellSpark配置成功。二、spark实战Spark是用于大规模数据处理的统一分析引擎,也可以说是目前用于可伸缩计算的最广泛的引擎,成千上万的公司包括财富500强中的80%都在使用。Spark生态系统集成了丰富的数据科学、机器学习、SQL分析和BI、存储和基础设施等框架,并将这个生态使用可以扩展到数千台机器大规模数据使用。Spark提供了Java、Scala、Python和R的高级api,以及支持通用执行图的优化引擎。Spark支持一系列丰富的高级工具,包括用于SQL和结构化数据处理的SparkSQL,用于pandas工作负载的Spark上的pandasAPI,用于机器学习的MLlib,用于图形处理的GraphX,以及用于增量计算和流处理的StructuredStreaming。Spark自身节点运行的集群模式,也就是我们所谓的独立部署(Standalone)模式,Spark的Standalone模式体现了经典的master-slave模式。#拷贝一个部署spark-standalone目录cp-rspark-3.3.0-bin-hadoop3spark-standalone#进入目录cdspark-standalone/cdconf#准备workers配置文件mvworkers.templateworkers#修改workers内容为viworkershadoop1hadoop2hadoop3#准备spark-env.sh配置文件mvspark-env.sh.templatespark-env.sh#spark-env.sh添加如下内容vispark-env.sexportJAVA_HOME=/home/commons/jdk8SPARK_MASTER_HOST=hadoop1SPARK_MASTER_PORT=7077#分发到其他两台上scp-r/home/commons/spark-standalonehadoop2:/home/commons/scp-r/home/commons/spark-standalonehadoop3:/home/commons/#进入根目录下sbin执行目录和启动cdsbin/./start-all.sh由于spark-shell停止掉后,集群监控页面就看不到历史任务的运行情况,所以开发时都配置历史服务器记录任务运行情况。#先停止前面启动的集群./stop-all.sh#准备spark-defaults.confcd../confmvspark-defaults.conf.templatespark-defaults.conf#修改spark-defaults.confvimspark-defaults.confspark.eventLog.enabled     truespark.eventLog.dir       hdfs://myns:8020/sparkhis#需要启动Hadoop集群,HDFS上的目录需要提前存在hadoopfs-mkdir/sparkhis#修改spark-env.sh文件,添加如下配置:vispark-env.shexportSPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.fs.logDirectory=hdfs://myns:8020/sparkhis-Dspark.history.retainedApplications=30"#参数1含义:WEBUI访问的端口号为18080#参数2含义:指定历史服务器日志存储路径(读)#参数3含义:指定保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。由于hadoop是HA模式因此配置为hdfs-site.xml下的dfs.nameservices的value值  <property>    <name>dfs.nameservices</name>    <value>myns</value><!--core-site.xml的fs.defaultFS使用该属性值-->  </property>#分发配置到另外两台上scpspark-defaults.confspark-env.shhadoop2:/home/commons/spark-standalone/conf/scpspark-defaults.confspark-env.shhadoop3:/home/commons/spark-standalone/conf/#启动集群./start-all.sh#启动历史服务./start-history-server.sh
  • 所需E币: 1
    时间: 2023-5-12 16:53
    大小: 18.05MB
    亚马逊跨境电商运营手册-史先贺(epub格式,附阅读器安装程序)
  • 所需E币: 1
    时间: 2023-5-9 14:44
    大小: 36.52MB
    我在阿里做运营-芮曦
  • 所需E币: 1
    时间: 2023-5-9 15:13
    大小: 14.67MB
    增长飞轮:亚马逊跨境电商运营精要(epub格式,附阅读器安装程序)
  • 所需E币: 1
    时间: 2023-4-26 09:31
    大小: 8.16MB
    智能家居产品-从设计到运营(epub格式,附阅读器安装程序)
  • 所需E币: 1
    时间: 2023-4-18 11:38
    大小: 17.77MB
    Python数据分析与数据化运营-(数据分析与决策技术丛书)-宋天龙
  • 所需E币: 0
    时间: 2023-2-11 22:32
    大小: 1.72MB
    上传者: ZHUANG
    大规模网络化运营下城市轨道交通通信系统设备维护要点.
  • 所需E币: 5
    时间: 2023-2-9 09:43
    大小: 1.08MB
    上传者: ZHUANG
    基于LSTM网络的地铁隧道运营期间沉降预测研究
  • 所需E币: 5
    时间: 2023-2-7 22:20
    大小: 1.7MB
    上传者: ZHUANG
    基于文本数据特征识别的电力运营信息模型设计
  • 所需E币: 5
    时间: 2023-2-7 11:01
    大小: 2.49MB
    上传者: czd886
    浅析O2O模式下智能家居运营模式
  • 所需E币: 4
    时间: 2022-10-11 16:10
    大小: 215.12KB
    上传者: czd886
    运营级视频监控的视频编解码与流媒体分发技术研究和应用
  • 所需E币: 3
    时间: 2022-10-8 16:39
    大小: 610.47KB
    上传者: ZHUANG
    高速公路视频监控及运营管理系统设计与实现
  • 所需E币: 0
    时间: 2022-10-6 09:01
    大小: 434.26KB
    上传者: ZHUANG
    大规模可运营视频监控网络系统的安全机制
  • 所需E币: 2
    时间: 2022-9-26 22:54
    大小: 908.35KB
    上传者: czd886
    运营级智能视频监控业务架构与应用
  • 所需E币: 2
    时间: 2022-9-25 22:03
    大小: 1.23MB
    上传者: czd886
    人工智能在城市运营指挥中心中的应用研究
  • 所需E币: 0
    时间: 2022-7-15 22:11
    大小: 1.51MB
    上传者: czd886
    快递无人机运营系统设计与前景预测
  • 所需E币: 0
    时间: 2022-7-9 13:48
    大小: 960.23KB
    上传者: czd886
    黑龙江省农用植保无人机运营作业服务现状综述
  • 所需E币: 0
    时间: 2022-7-8 22:45
    大小: 1.16MB
    上传者: ZHUANG
    通信网络大数据的深度运营
  • 所需E币: 0
    时间: 2022-7-8 10:16
    大小: 841.05KB
    上传者: ZHUANG
    通信网络大数据的深度运营分析
  • 所需E币: 1
    时间: 2022-7-7 12:27
    大小: 478.78KB
    上传者: ZHUANG
    关于电力信息通信网络的建设与运营探究