Flink-算子（1）——DataSet_物联网

fromCollection：从本地集合读取数据

例：

readTextFile：从文件中读取：

readTextFile可以对一个文件目录内的所有文件，包括所有子目录中的所有文件的遍历访问方式：

对于以下压缩类型，不需要指定任何额外的inputformat方法，flink可以自动识别并且解压。但是，压缩文件可能不会并行读取，可能是顺序读取的，这样可能会影响作业的可伸缩性。

因为Transform算子基于Source算子 *** 作，所以首先构建Flink执行环境及Source算子，后续Transform算子 *** 作基于此：

将DataSet中的每一个元素转换为另外一个元素：

将DataSet中的每一个元素转换为0n个元素：

将一个分区中的元素转换为另一个元素：

过滤出来一些符合条件的元素，返回 boolean值为true 的元素：

可以对一个dataset或者一个group来进行聚合计算，最终 聚合成一个元素：

将一个dataset或者一个group 聚合成一个或多个元素。
reduceGroup是reduce的一种优化方案；
它会先分组reduce，然后在做整体的reduce；这样做的好处就是可以减少网络IO：

选择具有最小值或最大值的 元素：

在数据集上进行聚合求最值（最大值、最小值）：

Aggregate只能作用于元组上

去除重复的数据：

取前N个数：

将两个DataSet按照一定条件连接到一起，形成新的DataSet：

左外连接,左边的Dataset中的每一个元素，去连接右边的元素

此外还有：

rightOuterJoin：右外连接,左边的Dataset中的每一个元素，去连接左边的元素

fullOuterJoin：全外连接,左右两边的元素，全部连接

下面以 leftOuterJoin 进行示例：

交叉 *** 作，通过形成这个数据集和其他数据集的笛卡尔积，创建一个新的数据集

和join类似，但是这种交叉 *** 作会产生笛卡尔积，在 数据比较大的时候，是非常消耗内存的 *** 作：

联合 *** 作，创建包含来自该数据集和其他数据集的元素的新数据集, 不会去重：

Flink也有数据倾斜的时候，比如当前有数据量大概10亿条数据需要处理，在处理过程中可能会发生如图所示的状况：

这个时候本来总体数据量只需要10分钟解决的问题，出现了数据倾斜，机器1上的任务需要4个小时才能完成，那么其他3台机器执行完毕也要等待机器1执行完毕后才算整体将任务完成；所以在实际的工作中，出现这种情况比较好的解决方案就是接下来要介绍的— rebalance （内部使用round robin方法将数据均匀打散。这对于数据倾斜时是很好的选择。）

按照指定的key进行hash分区：

根据指定的key对数据集进行范围分区：

根据指定的字段值进行分区的排序：

将数据输出到本地集合：

将数据输出到文件

Flink支持多种存储设备上的文件，包括本地文件，hdfs文件等

Flink支持多种文件的存储格式，包括text文件，CSV文件等

流应用程序的一个常见要求是，为了增大或较小输入数据的速率，需要灵活地调整算子的并行度。对于无状态算子而言，并行度的调整没有任何问题，但更改有状态算子的并行度显然就没那么简单了，因为它们的状态需要重新分区并分配给更多或更少的并行任务。

Flink支持四种模式来调整不同类型的状态。

具有键控状态的算子通过将键重新分区为更少或更多任务来缩放并行度。不过，并行度调整时任务之间会有一些必要的状态转移。

为了提高效率，Flink并不会对单独的key做重新分配，而是用所谓的“键组”（key group）把键管理起来。键组是key的分区形式，同时也是Flink为任务分配key的方式。

下图显示了如何在键组中重新分配键控状态。

具有算子列表状态的算子，会通过重新分配列表中的数据项目来进行并行度缩放。从概念上讲，所有并行算子任务的列表项目会被收集起来，并将其均匀地重新分配给更少或更多的任务。如果列表条目少于算子的新并行度，则某些任务将以空状态开始。

下图显示了算子列表状态的重新分配。

具有算子联合列表状态的算子，会通过向每个任务广播状态的完整列表，来进行并行度的缩放。然后，任务可以选择要使用的状态项和要丢弃的状态项。

下图显示了如何重新分配算子联合列表状态。

具有算子广播状态的算子，通过将状态复制到新任务，来增大任务的并行度。这是没问题的，因为广播状态保证了所有任务都具有相同的状态。而对于缩小并行度的情况，我们可以直接取消剩余任务，因为状态是相同的，已经被复制并且不会丢失。

下图显示了算子广播状态的重新分配。

SELECT 语句和 VALUES 语句需要使用 TableEnvironment 的 sqlQuery() 方法加以指定，会以 Table 的形式返回 SELECT （或 VALUE）的查询结果。Table 可被用于 SQL 或 Table API 查询、转换为 DataSet 或 DataStream、输出到 TableSink。SQL 与 Table API 的查询可以进行无缝融合、整体优化。

为了可以在 SQL 查询中访问到表，需要先在 TableEnvironment 中 注册表 （可以通过 TableSource、Table、CREATE TABLE 语句、DataStream 或 DataSet 注册）。为方便起见 TabletoString() 将会在其 TableEnvironment 中以唯一的名称自动注册表，并返回名称。

注意：查询若包括了不支持的 SQL 特性，将会抛出 TableException 。

以下示例显示如何在已注册和内联表上指定 SQL 查询。

SELECT 语句或者 VALUES 语句可以通过 TableEnvironmentexecuteSql() 方法来执行，该方法返回 TableResult 对象用于包装查询的结果，一个 Table 对象可以通过 Tableexecute() 方法执行获取查询结果。 TableResultcollect() 方法返回一个可以关闭的行迭代器（除非所有的数据都被收集到本地，否则一个查询作业永远不会结束。所以通过 CloseableIterator#close() 方法主动地关闭作业以防止资源泄露）。还可以通过 TableResultprint() 方法将查询结果打印到控制台。TableResult 中的结果数据只能被访问一次，因此一个 TableResult 实例中， collect() 方法和 print() 方法不能被同时使用。

TableResultcollect() 与 TableResultprint() 的行为在不同的 checkpointing 模式下略有不同。

Flink 通过支持标准 ANSI SQL的 Apache Calcite 解析 SQL。以下“BNF-语法”描述了批处理和流处理查询中所支持的 SQL 特性的超集。

Flink SQL 对于标识符（表、属性、函数名）的命名策略类似于 Java 的词法约定：

字符串文本常量需要被单引号包起来（如 SELECT 'Hello World' ）。两个单引号表示转义（如 SELECT 'It''s me' ）。字符串文本常量支持 Unicode 字符，如需明确使用 Unicode 编码，请使用以下语法：

WITH 提供了编写辅助语句的方法，以便在更大的查询中使用。这些语句通常被称为公共表表达式（Common Table Expression，CTE），可以认为它定义了只存在于一个查询中的临时视图。

WITH 语法：

下面的示例定义了一个 CTE： orders_with_total ，并在 GROUP BY 查询中使用它。

SELECT 语句的一般语法为：

table_expression 可以是任何数据源（表、视图、VALUES 子句、多个表的 Join 结果、子查询）。下面的事例读取 Orders 表的所有列：

select_list 指定表示解析所有的列，但是不建议在生产环境中使用，会降低性能，建议只查询需要的列：

查询可以使用 VALUES 子句，每个元组（Tuple）对应一个 Row，并且可以设置别名：

WHERE 语句可以过滤 Row：

可以对每行数据的指定列调用函数（内置、自定义函数，自定义函数必须提前注册）：

如果指定 SELECT DISTINCT，则将从结果集中删除重复行（每组重复中保留一行）。

对于流式查询，计算查询结果所需的状态（State）可能会无限增长。状态大小取决于不同行的数量。可<u>以为查询配置适当的状态生存时间（TTL），以防止状态大小过大。这可能会影响查询结果的正确性</u>。

Window 是流处理的核心。Windows 将流拆分为有限大小的片段应用计算。只有流处理支持。

Flink 113 提供了几个 Table-valued functions（TVF，区别于 Group Window Function），将表中的元素划分为 windows，包括：

- 滚动窗口（Tumbling windows）

- 滑动窗口（Hop, Sliding windows）

- 累加窗口（Cumulate windows）

- 会话窗口（Session windows，TVF 暂不支持）

每个元素在逻辑上可以属于多个窗口，具体取决于所使用的窗口函数。TVF 必须和聚合 *** 作一起使用：

假设存在一个 Bid 表

指定一个固定大小的窗口，并且不重叠，语法：

设定一个10分钟大小的滚动窗口，

指定一个固定大小的窗口，设定滑动间隔，元素会被指定给多个窗口，语法：

设定一个10分钟大小，每5分钟滑动的窗口，

指定一个窗口的最大规模，按照指定时间间隔增长累加，直到达到窗口的最大规模，每次窗口增长会进行一次计算，可以理解为多次计算的滚动窗口，语法：

设定一个10分钟大小，每2分钟累计一次的窗口，

这种模式我们一般是在用IDE调试程序的时候用到,当我们在本地用IDE开发程序的时候，执行main方法，flink会在本地启动一个包含jobmanager和taskmanager的进程的minicluster，程序运行完成之后，这个cluster进程退出。

这种模式就是直接在物理机上启动flink集群。我们可以通过 {FLINK_HOME}/conf/flink-confyaml
此外，我们可以用 ${FLINK_HOME}/bin/taskmanagersh start 再启动一个taskmanager。

这时我们通过jps命令查看一下启动的进程

我们看到这时候启动了两个taskmanager

这种部署模式对flink集群的资源管理是flink自己维护的，在生产环境下用的不多，所以我们也不做过多描述

启动集群的命令如下：

这个命令有很多的参数，可以在后面加 -h 看下，我这里着重介绍一下 -d参数。
加上-d之后，指的是隔离模式，也就是启动之后和客户端就断了联系，如果要停止集群，需要通过yarn application -kill {applicationId} 来停止集群

提交成功之后，我们会在yarn的管理页面看到一个类似的任务

这个启动命令也有很多的参数，我就不一一讲解了，我用大白话讲讲我认为最核心的几个参数。

第二，通过命令行来停止：

这个时候需要指定yarn applicationId和flink job id
第三，通过程序来停止

>与批计算相比，State是流计算特有的，批计算的failover机制，是失败后重新计算；流计算在大多数场景下是增量计算，数据逐条处理，每次计算是在上一次计算结果之上进行处理的，这就要求对上一次的计算结果进行存储，当因为机器，网络，脏数据等原因导致程序错误的时候，可以重启Job进行state恢复。Flink就是基于state存储，通过CheckPoint机制来保证数据的准确性。

此外，State存储的内容还有流计算过程中计算节点的中间结果或元数据属性，比如Window方面的 *** 作，需要累加数据；在aggregation过程中的中间聚合结果；在以Apache Kafka作为数据源时候，记录已经读取数据的offset等

Flink内部有三种state的存储实现，如果不做配置，Flink默认使用的是MemoryStateBackend，三种实现分别是：

1 基于内存的MemoryStateBackend- 在debug模式使用，在生产模式下不建议使用；

2基于HDFS的FsStateBackend –基于分布式文件系统的持久化，每次读写都产生网络IO，整体性能不太好；

3基于RocksDB的RocksDBStateBackend - 本地文件+异步HDFS持久化，当前版本在生产环境下使用的

选择用RocksDB+HDFS的方式进行State的存储，State存储分两个阶段，首先本地存储到RocksDB，然后异步的同步到远程的HDFS。这样的而设计既消除了HeapStateBackend的局限（内存有限，宕机数据丢失），也减少了纯分布式存储的网络IO开销。RocksDBStateBackend存储value的大小是有限制的，

RocksDB’s的bridge API是基于byte[]的，所以这种state存储支持的每个key的value最大不超过2^31，有些merge *** 作的值可能会超过2^31 bytes，这点要注意。

StateBackend的控制粒度到job级别，如果想为所有job设置StateBackend，可以通过更改flink-confyaml文件里statebackend的值，上述3类sate backend对应的值是；

jobmanager(MemoryStateBackend),filesystem(FsStateBackend),和 rocksdb(RocksDBStateBackend)；也可为单独的job设置StateBackend的方法：

StreamExecutionEnvironment env = StreamExecutionEnvironmentgetExecutionEnvironment(); envsetStateBackend(new FsStateBackend("hdfs://namenode:40010/flink/checkpoints"));

KeyedState - 这里面的key就是我们用KeyBy(x)里面的key，key与key之间的State是不可见的。KeyedState只能用在KeyedStream上的数据处理上。OperatorState是和Operator联系在一起的，比如Source Connector的实现中会用OperatorState来记录source数据读取的offset。

无论选用何种stateBackend，这些state都是优先存在本机上，当计算并行度发生变化，这些state也会被重新分发到不同机器上去。

OperatorState的分发，需要在Source Connector中实现，重点是把source的partition重新分配，并把之前记录的每个partition的offset也告诉新分配到的Source Connector。

KeyedState存的数据量比较大，如果调整并发度，copy的东西可能比较多，Flink为了避免过多的拷贝，采用了一个keygroup的机制。每个key通过hash方法分配到不同的keygroup中，当并发度调整的时候，调整粒度是keygroup，也就是一个key通过hash后所在的keygroup保持不变。

managed state是我们常用的那些ValueState，ListState，MapState等，这些State类型，由Flink控制它们的数据结构和存取方法。

Raw state是在自己实现operator的时候使用，相当于自定义state类型，自己控制数据结构和存取方式。

State可以手动地删除已存的值，也可以设置Time-To-Live (TTL)，让state过期自动失效。存取State前，要先创建StateDescriptor，StateDescriptor含有state名称和state值的数据类型，有时候还需要自定义函数。在keyedstream上应用的函数，存取state的时候，key是由Flink自动提供的，直接使用xxxvalue()函数就可以取到当前key对应的值；由Flink自动控制的话，可以统一控制state和stream的分区。

欢迎阅读，有问题可以通过邮件kaiyuan0989爱特163com一起探讨。

一场编程语言之战

@Author：Runsen

本人懂一点Python，Java，根据自己想法而来，纯属虚构。

现状

进入2020年3月，新的编程语言排行榜新鲜出炉，TIOBE最新发布了3月编程语言排行榜。

从榜单中我们可以看到，前三名分别为Java、C、Python。相较于上个月，Python继续以185%上升至1011%，以1011%的份额稳居第三。

我们先了解下比较常见的编程语言的，如Java，Python，JavaScript，C/C++，Go，C#各编程语言的用途。

“众口难调”，面对多种多样的编程语言，大家众说纷纭，每种编程语言都有其存在的意义，编程之战从未停止，“战火”一触即发。

家庭内战

最近，编程语言家族开了一场“家庭聚会”，都是在讨论自己的排名。

下面是家庭成员的对话。

老三Py：最近，我可厉害了。从2015年，人工智能的开始，人人学我，基本上我成为最无敌的大佬。

老四C++：可不是嘛，老三，你的爬虫，数据分析，机器学习，深度学习，自然语言处理再加上你的Django，flask等Web开发等，就连你的PyQt也想占领我的QT图形界面市场，都是你这个流氓，害得我从老三变成老四。

老三Py：那都是你太难写了，学我就是几分钟就能入门的，谁叫你这么难懂，什么面向对象，你的一百行代码，我十几行就搞定了，谁还会学你，很快，我就是老大，你就是我的小弟。

老四C++对老大Java说：大哥，有人想谋权篡位。

老大Java：现在，确实是老三的时代，现在个个数据分析师只会Python，都喊出了：人生苦短，我用Python。要怪就怪数据分析人员编程水平太低了，写来写去就是py代码，完全学不会其他语言。

老二C鄙视的说：就算写Python太厉害，也最多就是一个导包侠，没有什么了不起的。老三，话说你有什么本事当老大，我都不敢谋权篡位。

老三Py：不如我们比一比，看看现在开发者需要我多些还是老大多先。

老大Java：好，比就比。谁怕谁，我到底看看你有什么本事。

老三Py：我代码简单，写起来轻松易懂，比如我打印一句HelloWorld，就是一个，就是这么简单。就问你们服不服？

老大Java：打印一个HelloWorld，我确实需要好几行代码，还要声明一个HelloWorld对象。

老二C:我还要定义一个main的主函数，打印一个HelloWorld确实有点多。

老四C++：我是抄老二的，写个HelloWorld比老二还要多。

老三Py：看见没有，这就是差距，谁会写那么多代码，直接简单粗暴我就是一个打印HelloWorld。

老大Java：老三，你这样不行啊，万物都是对象，写一行代码，我觉得都要声明一个对象。

老三Py：什么对象，我能打印出来就Ok了。

其他人：确实老三写的代码太简单了，连小学生基本都能学会，我们自愧不如，老三，你还要什么本事吗？

老三Py：要说我牛逼莫过我的第三方库，超过上万个，安装也简单，一个就轻松搞定，还给人看到安装进度条，你们说我牛不牛逼。

老大Java：这我可不服，你去的maven仓库看看

我的jar包任何一种场景都有，我的生态系早就完善，怎么不如你老三？

老三Py：你在pomxml安装什么任何信息告诉别人，而且你的dependency鬼死那么长，人家愿意写吗？

老二C和老四C++：我们gcc和cmake添加第三方库还要编译才可以。

老三Py：我的requests，selenium，beautifulsoup，pyquery，lxml，Scrapy，Crawley，Pyspider等一系列爬虫库和爬虫框架厉害到爆，几乎所有爬虫都是我来编写的，你们的爬虫市场早没有你们的份了。

老大Java：我的WebMagic，Nutch，Heritrix，Jsoup，SeimiCrawler，JLiteSpider爬虫编写的代码确实比你多了好几倍，以前爬虫的市场都是基本用我，现在给你占去，悲哀。

老二C老四C++：爬虫，小心爬进监狱，现在首例爬虫禁令，禁止爬取微信公众号，都是老三你的爬虫造成多少假流量，造成多少网站奔溃，就说12306有尽20%以上都是爬虫访问流量，有多少人抢票，再提价出售，官方发票，又被他们抢了，你以前让多少人抢不票，这背后引发了一系列的肮脏的资产链。

老三Py：这关我毛事，现在的百度蜘蛛爬取，多少网站双手叫好，这都是他们的问题。

其他人：你除了爬虫，还有什么？

老三Py：我的数据分析三剑客numpy，pandas，matplotlib，在加上Seaborn，Scipy，StatModels，Pyecharts，Bokeh，Blaze，Plotly，NetWorkX，Biopython，SymPy和gwpy等数据科学库简直无敌，都喊出了，从excel学Python了。

老大Java：数据分析我虽然也有jar提供，但是我派了我的儿子scala去帮我完善。

老二C老四C++：这东西不是SPSS，stata，tableau，powerbi，excel，Echart，FineReport等强大的数据分析工具就可以解决了，都是用我们和老大开发的，干嘛还要写代码。

老三Py：我一把屠龙剑Pycharm，一把倚天剑anaconda，一个开发，一个数据分析，双剑合并，威力无敌。

老大Java：比IDE开发工具，我可不怕，我有Eclipse，MyEclipse，IntellijIDEA，NetBeans功能厉害到爆。

老二C老四C++：Dev-C++，C-free，CLion，Code::Blocks，CodeLite，C++Builder，我们觉得同样没问题。

老三Py：我的Web开发Django社区非常庞大，江湖上，Python有两条腿跑，一腿就是我的django，因为两万个包，一万以上都是我的Django，再加上了其他儿子flask，tornado，我开发了国内的豆瓣、知乎，国外：Instagram、Disqus、NationalGeographic、NASA

老大Java：Web开发，你还敢比，我就拿出一个Spring家族就够了，SpringMVC，SpringBoot,SpringCloud，再说了我还有自己的Tomcat，Jetty应用服务器，微服务的架构早就深化人心。如果以前的网站不是用php开发，那基本就是我以前的Servlet，jsp开发的（虽然落后了，但基本都在维护），现在网站开发首选我的Spring家族。

老二C老四C++：虽然在网站开发我们几乎没有市场，但是软件开发都是采用我们的，比如早期的QQ，微信，支付宝等大部分软件都是我们开发的。

老三Py：有本事比一比现在最火的人工智能，我的机器学习sklearn，深度学习keras，Pytorch，tensorflow，Caffe，PaddlePaddle，哪个不知道，哪个不用？就是因为这个，我才算最近的王者。

老大Java：你是不是想王者荣耀想多了，王者荣耀的客户端应该是C#（Unity3D）开发的，核心后端服务是C++开发，可没有你的份。人工智能，我怎么实现不了，我的深度学习库——DL4J、ND4J以及Deeplearning4j，深度学习框架就是因为数据分析者只会用Python，才让你火到现在。

老四C++：CPP-Call-Tensorflow，Caffe2C++API，PyTorch-CPP，我的性能比你的好不知道多少倍。对了，说说性能，老三，你这不怎么行。

老大Java补刀：连数据都没有，老三你做什么人工智能，看看得我的apache社区的大数据框架ApacheHadoop，ApacheHive，ApacheHbase，ApacheSqoop，ApacheFlume，ApacheSpark，ApacheBeam，ApacheFlink，ApacheStorm，SparkStreaming，ApacheOozie还有CloudersManager（CDH）都是我开发出来，大数据平台都是我干的，没有了数据，你做什么Ai，你是不是猴子请来的逗逼？

老三Py：游戏方面，我可以有我的Pygame，性能方面，我承认比较低效，大数据不是还有我的pyspark？

老五C#：你的Pygame就是小孩子过家家的，游戏市场我已经占领，老三你可不要来。

老大Java笑道：spark是我的儿子scala开发的，spark就是为了你们这些数据分析的人不会我（Java）和我儿子（scala），你们的压力下，不好意思的开发了pyspark，对Python提供了APi，再说了我们也给R提供了Rspark。话说，老R从前十掉下到了十一。

老R：就是你老三一直打击我，害得现在数据分析的人员不学习R了，都以为学你，就天下无敌了。

老四C++：就是明明每个人占领一种市场就够了，现在提出了”人生苦短，我学Python“口号。

老三Py：就是要”人生苦短，我学Python“。

老大Java：就是因为你，害得所有人的编程水平只降下来。Java开发人员学习Python，就是分分钟的事情。

老二C：不要说，大学我敢保证所有人都必须学习我开始。

老四C++：有本事你让学Python的来学我或者老大，我不信他能学得了。学我的人基本被我折磨死了，学你py就是分分钟的事情，有本事继续聊性能，我好像记得知乎得推荐系统用go重写了，还不是因为你的效率。

老十go：今天我难得上了前十，什么”人生苦短，我学Python“，明明就是”2020年，我们一起学go“。

老三Py：我去你的，你老十有什么资格说话？再说了我有cpython，Numba提高运行速度不就可以了吗？

老大Java：那你老三有什么资格在我面前说话，你连多线程和并发都处理不好，还不如提出我的口号”OnceWrite，RunAnywhere“，一次编写,到处运行，我的强大的JVM，你老三有吗？

老三Py：我可以用Pyinstall打成exe，到处运行，不就是”一次编写,到处运行“，

老大Java：我的强大，你不知道，你还是在mac和liunx运行你的exe吧。我还有一个儿子Kotlin和我占领APP市场，你有APP市场吗，还想当大佬，这日子是不是有点早了。

老三Py：我有kivy开发APP。

老二C老四C++：老三，你怎么不说用flutter开发APP？

老三Py：那是Google开源的UI工具包，关我毛事。

老二C老四C++：flutter的底层是基于我们的开发的。

老三Py：我不管，反正现在人人学Py，我的市场就是慢慢变大，我就是当老大。

老二C:我从1972年诞生，可以说我是老三你的长辈。Java可是运行在全球的三十亿设备上的，我都没有把握当老大，你哪里来的勇气？

老三Py：我是从1991年出生，Java可是1995年出生，这样我不就是老大的长辈吗？

老大Java：老三说得没错，老三要当老大，他膨胀了，要先超越老二你了。

老二C:什么？老三，他连编译器都没有，一个解释器基于我的编译器，竟然敢叫嚣超越我，用我编译器，底层封装我的代码，没有我，哪里来你，脚本就是脚本，动态语言就是动态语言，老大，老四和我哪个不是静态语言，哪个没有自己的编译器？信不信我不给你用我的编译器，让你从前十消失。

老三Py：卧槽，爸爸，我错了，别让我从前十消失啊。

一声不吭的老八php叫道：php才是最好的语言。

我想说的

Python这语言，只适合作为加分项，不适合作为技术支撑。因为它写不了复杂逻辑。只适合写一个爬虫，计算器，记事本,Qt之类的小程序。Python超越了Java和C，那是不可能的。Python从老四超越了C++，已经是一个很震惊的大事了。

说这个也许有人不服，凭什么Python就写不了复杂逻辑？豆瓣和知乎不是用Python写的吗？

先声明，豆瓣的后端，已经废弃了绝大部分的Python代码，重新写过了。youtube也正在重写中。目前以Python为主的网站，就只有知乎这么个独苗，而且知乎的推荐算法已经用go重写了。

为什么？不是因为Python的性能慢，而是因为Python的语法太悲剧了。也许Python的语法简洁，在初学者看来是优点。因为初学者一般练手，都只写1000行以下的小玩意，Python的语法简直爽翻了，真没任何缺点。

但如果你真的尝试用Python封装几十个类，去写个一万行以上的东西，自然就明白它的语法问题有多严重了。不只是难受，而是根本写不下，去维护成本太大了。没有静态类型检查是主要原因。能解决么？也能，好的模块设计还有codereview能回避掉一些，不过这样一来也就抵消掉一些Python能带来的快速开发的优势了。

还是江湖那句话，动态一时爽，重构火葬场。并不适合大项目，Python还是适合原型，前期项目。

搞it要想混得好，如果哪能只会一样东西呢，除非你不想混好，拼得就是综合素质，除非你Python登峰造极的程度，python五分钟都能入门，Python的语法和英语完全一样。学Python的人，去学Java，真的觉得很难。

如果按难度评分0-5的话，Python没有难度指数0，php难度指数1，go难度指数2，Java难度指数3，C++/C难度指数4。静态语言的难度是比动态脚本难的，如果你是编程零基础，建议从学习Python，再深入到Java。一手Python，一手Java基本在市场属于比较靠前的水平。

阿里基本Java的天下，腾讯的前世是靠C/C++出生，华为主要业务是在硬件方面，也需要C/C++的编程基础。百度，字节相反用的Python，go，ruby比较多。

不过如果自己想要有更长远的发展，只学python肯定是不够的，个人觉得Java、Python这二门语言都熟练掌握最好。如果想成为大神，那就补充一个C++，你就是无敌的存在。

@Author：Runsen公众号：润森笔记

这个分好多种，比如前段、后台、嵌入式开发、全栈、移动开发等。

如前端开发的语言有：HTML、CSS、JavaScript、HTML5、CSS3、JQuery库、Vue框架、微信小程序等；后端开发的语言有：PHP、Java、SpringBoot、Python、C、C++、C#等；移动开发的语言有：Android、IOS等。

太多了，使用人数较多的有java，C#，C，C++，html，javascript，

php

现在最火热的就是python

对于很多初学编程，或者刚刚转行IT领域的程序小猿来讲，究竟该选择哪一门编程语言学习，一直是个很费脑子的事。毕竟，大多数初学者，相关IT知识都还比较欠缺，并不是太了解编程。

那么这么多的编程语言，学习什么比较好呢？

Java

Java拥有跨平台、面向对象、泛型编程的特性，非常受企业的喜欢，广泛应用于企业级Web应用开发和移动应用开发。

Java发展到现在，按应用来分主要分为三大块：J2SE、J2ME、J2EE。三块应用范围不同，但却相互补充。广泛应用于PC、数据中心、游戏控制台、科学超级计算机、移动电话和互联网，同时拥有全球最大的开发者专业社群。

Python

Python是一门易读、易维护，并且被大量用户所欢迎的、用途广泛的语言。由于具有丰富和强大的库，又被称为胶水语言，Python极其容易上手，主要源于Python有极其简单的说明文档。

Python的应用领域分为系统编程，用户图形接口，Internet脚本，组件集成，数据库编程，快速原型，数值计算和科学计算编程，游戏、图像、人工智能、XML、机器人编程等等。

常见的一种应用情形是，使用Python快速生成程序的原型（有时甚至是程序的最终界面），然后对其中有特别要求的部分，用更合适的语言改写，比如3D游戏中的图形渲染模块，性能要求特别高，就可以用C/C++重写，而后封装为Python可以调用的扩展类库。Python是做服务器开发与物联网开发。

信息安全，大数据处理，数据可视化机器学习，物联网开发，各大软件的api，桌面应用，都需要python。

PHP

PHP(HypertextProcessor)是一种免费的强大的服务器端脚本语言，主要目标是允许网络开发人员快速编写动态页面，同时也被广泛应用于其他领域，如Web开发并可嵌入HTML中去，受到web开发者的欢迎。包括Wordpress、Digg以及Facebook在内均使用了该语言。

PHP的语法利用了C、Java和Perl，易于学习。目前PHP的应用范围已经相当广泛，尤其是在网页程式的开发上。一般来说PHP大多执行在网页服务器上，透过执行PHP程式码来产生使用者浏览的网页。PHP可以在多数的服务器和 *** 作系统上执行，而且使用PHP完全是免费的。

JavaScript

JavaScript是一种基于对象和事件驱动并具有相对安全性的客户端脚本语言。听起来好像和java有些关系，然而却不是的，只不过名字像而已。

同时JavaScrip也是一种广泛用于客户端Web开发的脚本语言，常用来给HTML网页添加动态功能，比如响应用户的各种 *** 作。JavaScript也可以用在游戏开发等方面。

js最广泛的应用毫无疑问是在web前端。简单的说，网站给你传过来的是一堆用各种标签表示格式的文档，而js负责 *** 纵这些文档实现一些客户端动态效果。js的领地还不仅如此，现在的Nodejs还可以用于服务器端的开发。

GO语言

Go语言主要用作服务器端开发，其定位是用来开发“大型软件”的，适合于很多程序员一起开发大型软件，并且开发周期长，支持云计算的网络服务。Go语言能够让程序员快速开发，并且在软件不断的增长过程中，它能让程序员更容易地进行维护和修改。它融合了传统编译型语言的高效性和脚本语言的易用性和富于表达性。

Go语言作为服务器编程语言，很适合处理日志、数据打包、虚拟机处理、文件系统、分布式系统、数据库代理等；网络编程方面，Go语言广泛应用于Web应用、API应用、下载应用等；除此之外，Go语言还可用于内存数据库和云平台领域，目前国外很多云平台都是采用Go开发。

不过，总的来讲，这只是一个大概方向上的划分，具体到每个人的兴趣特点和编程特点，还有更为细致的划分。

据各大语言类的排行榜，目前比较流行的编程语言包括Java、C、Python、PHP、C++、C#、JavaScript、R、Go、OC、Swift等，不同语言排行榜的顺序有一定的区别，但是整体上的差别并不大。判断一门编程语言是否流行一方面要看用户的整体数量，另一方面也要结合语言的使用场景，有的语言虽然用户整体数量不大，但是在具体的应用场景却有非常高的占比，比如OC。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/13183009.html

Flink-算子（1）——DataSet

发表评论

评论列表（0条）