R语言教程是指导使用R语言的手册,用于统计分析,图形表示和报告的编程语言和软件环境。
R语言由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建,目前由R语言开发核心团队开发。R语言在GNU通用公共许可证下免费提供,并为各种 *** 作系统(如Linux,Windows和Mac)提供预编译的二进制版本。
这种编程语言被命名为R语言,基于两个R语言作者的名字的第一个字母(Robert Gentleman和Ross Ihaka),并且部分是贝尔实验室语言S的名称。
适用人群
本教程是为期待使用R编程开发统计软件的软件程序员,统计学家和数据挖掘者设计的。如果你试图理解R编程语言作为一个初学者,本教程将给你足够的了解语言的几乎所有的概念,从那里你可以把自己的更高水平的专业知识。
学习前提
在继续学习本教程之前,您应该基本了解计算机编程术语。对任何编程语言的基本理解将帮助您理解R语言编程概念,并在学习轨道上快速移动。
变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量。类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。因子(factor)是R语言中比较特殊的一个数据类型, 它是一个用于存储 的类型,举个例子,从性别上,可以把人分为:男人和女人,从年龄上划分,又可以把人分为:未成年人(<18岁),成年人(>=18)。
R把表示分类的数据称为因子,因子的行为有时像字符串,有时像整数。因子是一个向量,通常情况下,每个元素都是字符类型,也有其他数据类型的元素。因子具有因子水平(Levels),用于限制因子的元素的取值范围,R强制:因子水平是字符类型,因子的元素只能从因子水平中取值,这意味着,因子的每个元素要么是因子水平中的字符(或转换为其他数据类型),要么是缺失值,这是因子的约束,是语法上的规则。
通常情况下,在创建数据框变量时,R隐式把数据类型为字符的列创建为因子,这是因为R会把文本类型默认为类别数据,并自动转换为因子。前面我们在讲数据框时,就有提到。
通过class()函数检查gender列的类,结果是因子类型,而不是字符向量。
可以通过factor()函数创建因子,factor()函数的第一个参数必须是字符向量,通过levels参数显式设置因子水平。
参数注释:
例如,因子sex的值是向量c('f','m','f','f','m'),因子水平是c('f','m')
因子水平规定了 因子取值的范围 ,每一个因子,都包含因子水平的信息,例如,打印gender列,可以看到因子的元素和水平:
该因子中的每个值都是一个字符串,它们被限制为“f”、“m”和缺失值(NA)。如果把其他字符串添加到gender列中,R会抛出警告消息,并把错误赋值的元素设置为NA,例如:
因子水平,可以通过函数levels(factor)来查看:
水平的级数,相当于level的长度,可以由nlevels函数查询到:
使用factor函数创建因子,可以使用labels参数为每个因子水平添加标签,labels参数的字符顺序,要和levels参数的字符顺序保持一致,例如:
通常情况下,因子一般是无序的,这可以通过is.ordered()函数来验证:
因子的顺序,实际上是指因子水平的顺序,有序因子的因子水平是有序的。在特殊情况下,有些因子的水平在语义上大于或小于其他水平,R支持按顺序排列的因子,使用ordered函数,或通过给factor函数传入order=TRUE参数,把无序因子转换为有序的因子。
ordered()函数不能指定特定因子水平的顺序,通常情况下,因子中先出现的水平小于后出现的水平。例如,通过ordered函数把sex因子转换为有序的因子:
通过factor函数创建有序因子,通过levels指定因子的顺序。
因子的顺序,其实是因子水平的顺序,我们可以通过levels,使现有的因子按照指定的因子水平来排序。
例如,把heights数据框的gender,按照指定的levels,转换成有序因子:
在数据清理时,可能需要去掉与因子水平对应的数据,通常情况下,需要删除未使用的因子水平,可以使用droplevels函数,它接受因子或是数据框作为参数。
如果x是数据框,那么把数据框中未使用的因子删除。
在数据清理中,有时需要把因子转换为字符,通常情况下,使用as.character()函数,把因子转换为字符串:
使用as.numeric()或as.integer()函数可以把因子转换成对应的整数.
函数 cut() 能够把数值变量切成不同的块,然后返回一个因子.
参数注释:
例如,把身高数据,按照指定的切割点向量分割:
当需要把因子转换为有序因子时,要注意因子水平的顺序.
李东风r语言教程是一份面向初学者的r语言学习教材,该教程共分为五个部分,包括入门篇、数据分析篇、数据清洗篇、数据可视化篇和高级应用篇,每个部分包含多个章节。
在入门篇中,教程介绍了r语言的基本语法和常用数据结构,如向量、矩阵和数据框等。同时还介绍了如何在r环境中进行代码编写和运行,并展示了一些简单的数据处理 *** 作。
在数据分析篇中,教程介绍了如何利用r语言进行数据分析和统计学建模,详细讲解了线性回归、分类树、聚类等算法的实现步骤,并提供了相应的案例和代码示例。
在数据清洗篇中,教程着重讲解了如何对数据进行清洗、变换、汇总和聚合等 *** 作,以消除数据的噪声和错误,确保数据质量。
在数据可视化篇中,教程介绍了如何使用r语言进行数据可视化,包括绘制散点图、直方图、箱线图和折线图等,教学方式生动易懂,适合初学者掌握。
在高级应用篇中,教程涵盖了r语言在文本处理、网络分析、机器学习等方面的应用,介绍了一些高级的编程技巧和 *** 作方法,帮助读者更深入地了解r语言的应用场景和优势所在。
总之,李东风r语言教程是一份内容全面、易于理解的r语言学习教材,对于想要学习r语言的初学者具有较高的实用价值。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)