big_第3页_内存溢出

java

windows10配置spark与pyspark

最近重新装了系统，需要对spark与pyspark重新配置下。于是写了这篇文章，希望对从事这个行业的人员能有所帮助： 1.准备阶段准备以下版本的安装包&#xff0c

code

2022-5-16

41 0 0 0

java

Kafka中必知必会的基础概念

Broker：Kafka服务端，负责接收和处理生产者和消费者的请求。Producer：生产者。Comsumer：消费者。ComsumerGr

code

2022-5-16

30 0 0 0

java

OLTP、OLAP、即席查询

对于目前来讲，对数据的处理主要集中在两个方面，一种是联机事务处理 OLTP（on-line transaction processing）&#x

code

2022-5-16

110 0 0 0

python

Python项目（Django）：国内新冠肺炎疫情大数据可视化平台

Python项目（Django）：国内新冠肺炎疫情大数据可视化平台 1、项目简介2、运行项目1.运行SaveMysqlData.py脚本爬取数据2.查看数据库中数据3.运行D

code

2022-5-16

29 0 0 0

python

python数据分析之pandas数据预处理（数据合并与数据提取、loc、iloc、ix函数详解）

文章目录一、准备工作二、数据合并1、merge数据表连接2、添加数据三、数据提取1、索引列2、loc函数（⭐）3、ix函数4、iloc函数5、排序6、特定标记7、分列8、提取字符生成新表9

code

2022-5-16

58 0 0 0

java

在spark集群运行scala程序报错 Scala signature package has wrong version expected: 5.0

问题在spark集群运行scala程序报错 Error:scalac: error while loading package, class file C:Program Files (x86)scalalibscala-libr

code

2022-5-16

59 0 0 0

java

hive -f 报错 FAILED:ParseException line 1:5 cannot recognize in ‘set‘ ‘hive‘ ‘.‘ instatement

问题：hive -f 执行sql文件，报错。 FAILED:ParseException line 1:5 cannot recognize in ‘set’ ‘hive’ ‘.’ instate

code

2022-5-16

53 0 0 0

java

Spark离线开发框架设计与实现

目录 Spark离线开发框架设计与实现一、背景二、框架设计 2.1 基础框架 2.2 可扩展工具 2.3 应用程序 2.3.1 SQL应用 2.3.2 Java应用 2.3.3 数据回溯应用三、使用方式 3.1 使用介绍 3.2 使用

code

2022-5-16

40 0 0 0

java

大数据技术原理与应用实验1——熟悉常用的HDFS *** 作

文章目录一、实验目的二、实验环境三、实验内容（一）编程实现以下功能，并利用Hadoop提供的Shell命令完成相同任务：1. 向HDFS中上传任意文本

code

2022-5-16

39 0 0 0

java

Flink 实战问题（五）：The transaction timeout is larger than the maximum value allowed by the broker

一、背景设置kafka producer为Semantic.EXACTLY_ONCE会报Unexpected error in InitProducerIdResponse; The transaction timeout is larg

code

2022-5-16

17 0 0 0

java

Spark mapPartitions算子注意事项与编程技巧

最近不是很忙，把之前写的代码review了一遍，发现一个关于mapPartitions算子小问题。在我们的业务中有一个需求就是要把收集的日志里面的Long型时间戳转换成年月日String类型&am

code

2022-5-16

28 0 0 0

java

Akka编程入门

注重版权，若要转载烦请附上作者和链接作者：Joshua_yi链接：https:blog.csdn.netweixin_44984664articledeta

code

2022-5-16

25 0 0 0

python

Python数据分析师自学（01）

Python数据分析师大家好！在大数据时代，数据分析师成为了不可或缺的热门行业，数据的处理分析能力也成为计算机人才的全面能力要求，所以&#xf

code

2022-5-16

33 0 0 0

python

spark python

spark 常用函数介绍（python） - 记忆书签 - 博客园Spark中foreachPartition和mapPartitions的区别_三劫散仙的博客-CSDN博客_foreachpar

code

2022-5-16

44 0 0 0

java

CanalServerException: rollback error, clientId:1001 batchId:xxx

canal 问题描述,看日志： canal-instance.log 2022-05-12 19:03:41.863 [pool-26-thread-12] ERROR c.a.o.canal.connector.ka

code

2022-5-16

35 0 0 0

python

spark-统计各岗位招聘信息行数

任务： 搭建集群重新开一个端口还是在spark-master里面运行一直在不停的统计数据 job.py代码： # import findspark# finds

code

2022-5-16

24 0 0 0

python

Flink 分流之 FilterSplitSideOutPut 比较

应用场景： 我们在生产实践中经常会遇到这样的场景，需把输入源按照需要进行拆分，比如我期望把订单流按照金额大小进行拆分，或者把用户访问日志按照访问者的地理

code

2022-5-16

33 0 0 0

python

spark-统计各岗位招聘信息行数

任务： 搭建集群重新开一个端口还是在spark-master里面运行一直在不停的统计数据 job.py代码： # import findspark# finds

code

2022-5-15

22 0 0 0

python

Flink 分流之 FilterSplitSideOutPut 比较

应用场景： 我们在生产实践中经常会遇到这样的场景，需把输入源按照需要进行拆分，比如我期望把订单流按照金额大小进行拆分，或者把用户访问日志按照访问者的地理

code

2022-5-15

32 0 0 0