安装python3#首先是更新源sudo apt update#然后是安装Pythonsudo apt install python3#最后升级Pythonsudo apt upgrade python3运行python3python3退出quit()ctrl+d也可以退出游乐场符号含义()括号含义

以下知识点和题目在面试中属于中等频率(大概面10道题会遇到一次),时间不足的情况下,不必准备。并查集(Union Find):把两个或者多个集合合并为一个集合基础知识:如果数据不是实时变化,本类问题可以用BFS或者DFS的方式遍历,如果数据实时变化(data stream)则并查集每次的时间复杂度可

基础知识:前缀和本质上是在一个list当中,用O(N)的时间提前算好从第0个数字到第i个数字之和,在后续使用中可以在O(1)时间内计算出第i到第j个数字之和,一般很少单独作为一道题出现,而是很多题目中的用到的一个小技巧常见题目:Leetcode 53 Maximum SubarrayLeetcode

课前复习启动 SparkWordCount 案例实战Spark SQL 概述与架构概述Spark SQL 的架构Spark SQL 的优点Spark SQL 的简单使用DataFrames&DataSetsDataFrameDataFrame 和 RDD 的区别DataFrame 操作Act

技术介绍及其在项目中的运用SparkStreaming 简介SparkStreaming 是基于 Spark 核心 API 的拓展,用于实时数据流的处理,具有低延迟、高吞吐和基于内存计算等特点。通过设置的批处理时间间隔生成的一批 RDD 来生成 Dstream,用于进行数据的处理。项目中使用 Kaf

技术介绍及其在项目中的运用Zookeeper 简介Flume 简介Kafka 简介Flume 与 Kafka 结合使用的好处源数据预期成果Flume 与 Kafka 的整合启动 Zookeeper、Kafka在 Kafka 中创建项目所需的各个 Topic编写 Flume 作为 Kafka 数据源的

Spark简介快如闪电的统一分析引擎.Apache Spark™是用于大规模数据处理的统一分析引擎。核心概念Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次都写入 HD

实时分析Kafka简介Kafka重要概念Flink简介Flink详解Flink的组成Flink抽象级别Flink程序的基本构成时间窗口Flink的优势同时支持高吞吐、低延迟、高性能支持事件时间(Event Time)概念支持有状态计算支持高度灵活的窗口(windows)操作基于轻量级分布式快照(Sn

实验 2Flink 部署模式知识点: 1.介绍Flink的三种部署模式 2.搭建Standalone伪分布式集群 3.向集群提交WordCount任务实验 3流处理之基础算子知识点: 1.流处理流程 2.基础算子 3.map 4.filter 5.flatMap实验 4流处理之基于 Key 的算子知

Flink环境准备开发工具及环境要求首先我们需要在环境中搭建 Flink 运行环境,总共可以分为下面这几步:安装 jdk 并配置环境变量安装 scala 并配置环境变量安装 maven 并修改中心仓库为阿里云地址安装 IDEA 开发工具IDE最好使用IntelliJ IDEA (eclipse存在插