R语言 R软件问题_CMS教程

《R语言404软件》百度网盘资源免费下载:

3ts7

R语言404是一款专业的统计建模软件，与其它建模软件不同的是这款软件完全免费、开源，所以深受大家的青睐。R软件拥有数据存储和处理系统；数组运算工具（其向量、矩阵运算方面功能尤其强大）；完整连贯的统计分析工具；优秀的统计制图等多种功能，主要用于统计分析、绘图、数据挖掘。标准的安装文件身自身就带有许多模块和内嵌统计函数，安装好后可以直接实现许多常用的统计功能。

在r中看函数源代码：

在R中，代码可以分为如下几个级别：

首先，是你输入了函数对象名称，你可以直接看到代码的，如要获得函数对象fivenum的代码，就只需要在Console中键入函数对象名称fivenum就可以得到如下结果：

function (x, narm = TRUE)

{

xna <- isna(x)

if (narm)

x <- x[!xna]

else if (any(xna))

return(repint(NA, 5))

x <- sort(x)

n <- length(x)

if (n == 0)

repint(NA, 5)

else {

n4 <- floor((n + 3)/2)/2

d <- c(1, n4, (n + 1)/2, n + 1 - n4, n)

05 (x[floor(d)] + x[ceiling(d)])

}

<environment: namespace:stats>

从上面的例子可以看出，这类函数对象的代码是最容易看到的，也是我们学习的最好的材料了，而R中最大多数的函数对象是以这种方式出现的。

其次，我们在输入mean这类函数名次的时候，会出现如下结果：

function (x, )

UseMethod("mean")

<environment: namespace:base>

这表示函数作者把函数“封”起来了。这个时候我们可以先试一试methods(mean)，利用methods函数看看mean这个函数都有哪些类型的，我们得到的结果如下：

[1] meandataframe meanDate meandefault meandifftime meanPOSIXct meanPOSIXlt

其实对此可以有一个简单的理解，虽然不够精确。因为在R中，mean函数可以求得属于不同类型对象的平均值，而不同类型对象平均值的求法还是有一些小小差异的，比如说求一个向量的平均值和求一个数据框的平均值就有所差异，就要编写多个mean函数，然后“封”起来，以一个统一的mean出现，方便我们使用。这正好也反映了R有一种类似泛型编程语言的性质。

既然我们已经知道mean中还有这么多种类，我们可以输入meandefault试一试就可以得到：

function (x, trim = 0, narm = FALSE, )

{

if (!isnumeric(x) && !iscomplex(x) && !islogical(x)) {

warning("argument is not numeric or logical: returning NA")

return(asnumeric(NA))

}

if (narm)

x <- x[!isna(x)]

trim <- trim[1]

n <- length(x)

if (trim > 0 && n > 0) {

if (iscomplex(x))

stop("trimmed means are not defined for complex data")

if (trim >= 05)

return(stats::median(x, narm = FALSE))

lo <- floor(n trim) + 1

hi <- n + 1 - lo

x <- sortint(x, partial = unique(c(lo, hi)))[lo:hi]

n <- hi - lo + 1

}

Internal(mean(x))

}

<environment: namespace:base>

同样就可以得到meandataframe、meanDate、meandifftime、meanPOSIXct、meanPOSIXlt 的具体内容了。值得注意的是，在R中，出现有多个同样近似功能的函数封装为一个函数的时候（这时候在函数中多半会出现类似UseMethod函数使用的情况），我们不妨先输入meandefault试一试。这种形式的函数在R中一般作为默认的函数表示。

第三，这是一种特殊的情况，有人认为应该和第二种是一类，但是我还是要提出来单独归类。在这种情况也和第二种的原因有些类似，但并不是完全一致。

也许我们大家都很熟悉plot函数了吧，输入函数名plot的时候，我们会得到如下结果：

function (x, y, )

{

if (isnull(attr(x, "class")) && isfunction(x)) {

nms <- names(list())

if (missing(y))

y <- {

if (!"from" %in% nms)

else if (!"to" %in% nms)

else if (!"xlim" %in% nms)

NULL

}

if ("ylab" %in% nms)

plotfunction(x, y, )

else plotfunction(x, y, ylab = paste(deparse(substitute(x)),

"(x)"), )

}

else UseMethod("plot")

}

<environment: namespace:graphics>

请注意plot函数中也出现了UseMethod这个函数，但是和mean不同的是，前面有相当多的语句用于处理其他一些事情。这个时候，我们也使用methods(plot)来看看，得到如下结果：

plotacf plotdataframe plotDate plotdecomposedts plotdefault

plotdendrogram plotdensity plotecdf plotfactor plotformula

plothclust plothistogram plotHoltWinters plotisoreg plotlm

plotmedpolish plotmlm plotPOSIXct plotPOSIXlt plotppr

plotprcomp plotprincomp plotprofilenls plotspec plotspeccoherency

plotspecphase plotstepfun plotstl plottable plotts

plottskernel plotTukeyHSD

不看不知道，一看吓一跳，还以为我们输入plot的输出就是函数本身，结果也许不是如此。可能有人已经理解了，其实最后的UseMethod函数实在默认的调用plotdefault函数，赶快再看看plotdefault函数吧，发现它再调用plotxy函数，再看看plotxy函数，再plotxy函数中调用了一个Internal(plotxy(xy, type, pch, lty, col, bg, cex, lwd, ))函数，也许这就是真正起作用的函数了吧。思路基本上就是如此了，是否这个时候您可以获得一些阅读查找R函数内容的乐趣。

除了直接输入FUNdefault形式外，还可以使用getS3method(FUN,"default")来获得代码。这样就解决了绝大多数函数代码查看的工作了。

在第二种情况种，我们说了一般可以通过FUNdefault获得想要的结果。但是只有称为generic的函数才有这种“特权”。而lm等则没有，不过我们也可以尝试使用methods(lm)来看看结果如何，发现：

[1] lmfit lmfitnull lminfluence lmwfit lmwfitnull

Warning message:

function 'lm' appears not to be generic in: methods(lm)

出现了警告信息，表示说lm不是泛型函数，但是还是给出了结果lmfit等，大致上可以看成是和lm相关的系列函数吧。这样子就出现了有趣的局面，比如说既有plotts，也有tsplot。

依照第三种情况，我们发现竟然有的函数用星号标识了的，比如plotstl等，当我们输入plotstl，甚至是plotstl的时候都会给出要么找不到这个对象，要么干脆是代码错误的信息。原来凡是用了标识的函数，都是隐藏起来的函数，估计是怕被人看见（其实这是玩笑话）！我们要看这些函数的代码，我们该怎么办呢？其实也很容易，使用功能强大的getAnywhere(FUN)，看看这个函数的名称，就可以猜想到它的功能估计是很强大的， Anywhere的内容都可以找到！getAnywhere(plotstl)的结果如下：

A single object matching 'plotstl' was found

It was found in the following places

registered S3 method for plot from namespace stats

namespace:stats

with value

function (x, labels = colnames(X), setpars = list(mar = c(0,

6, 0, 6), oma = c(6, 0, 4, 0), tck = -001, mfrow = c(nplot,

1)), main = NULL, rangebars = TRUE, , colrange = "light gray")

{

sers <- x$timeseries

ncomp <- ncol(sers)

data <- drop(sers %% rep(1, ncomp))

X <- cbind(data, sers)

colnames(X) <- c("data", colnames(sers))

nplot <- ncomp + 1

if (rangebars)

mx <- min(apply(rx <- apply(X, 2, range), 2, diff))

if (length(setpars)) {

oldpar <- docall("par", aslist(names(setpars)))

onexit(par(oldpar))

docall("par", setpars)

}

for (i in 1:nplot) {

plot(X[, i], type = if (i < nplot)

"l"

else "h", xlab = "", ylab = "", axes = FALSE, )

if (rangebars) {

dx <- 1/64 diff(ux <- par("usr")[1:2])

y <- mean(rx[, i])

rect(ux[2] - dx, y + mx/2, ux[2] - 04 dx, y -

mx/2, col = colrange, xpd = TRUE)

}

if (i == 1 && !isnull(main))

title(main, line = 2, outer = par("oma")[3] > 0)

if (i == nplot)

abline(h = 0)

box()

right <- i%%2 == 0

axis(2, labels = !right)

axis(4, labels = right)

axis(1, labels = i == nplot)

mtext(labels[i], side = 2, 3)

}

mtext("time", side = 1, line = 3)

invisible()

}

<environment: namespace:stats>

注意到前面有一段解释型的语言，描述了我们要找的这个函数放在了什么地方等等。其实对任意我们可以在R中使用的函数，都可以先试一试getAnywhere，看看都有些什么内容。算是一个比较“霸道”的函数。

在上面plotxy函数中，我们还可以看到Internal这个函数，类似的也许还可以看到Primitive、External、Call等函数这就和R系统内部工作方式和与外部接口的定义有关了，如果对这些函数有兴趣的话，就要学习组成R系统的源代码了。

最后，如果真的想阅读组成R系统本身的源代码，在各个CRAN中均有下载。你可以得到组成R系统所需要的材料。其中很多C语言（还有就是F）的源代码，均是精心挑选过的算法，哪怕就是想学从头到尾编写具体的算法，也是学习的好材料。同时，你可以看到R系统内部是如何构成的，理解了这些对于高效使用R有至关重要的作用。这个范畴的材料就要着重看一看R-Lang和R-inits了。

至此，R中阅读代码的内容就依照我的理解介绍了一下。随后将有一些R代码示例的分析注解、语言本身、R应用的和行业使用的材料翻译和具体例子说明。欢迎大家多多和我交流，一起进步。

在R中，概率函数形如：

[dpqr]distribution_abbreviation

其中第一个字母表示其所指分布的某一方面：

d = 密度函数（density）

p = 分布函数（distribution function）

q = 分位数函数（quantile function）

r = 生成随机数（随机偏差）

以正态分布为例

1 什么是正态分布？

正态分布也被称为高斯分布，是统计学中极为常见的连续型概率分布。正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线。

2 正态分布的两个参数及图形

正态分布有两个参数，即均数和标准差。 1）概率密度曲线在均值处达到最大，并且对称； 2）一旦均值和标准差确定，正态分布曲线也就确定； 3）当X的取值向横轴左右两个方向无限延伸时，曲线的两个尾端也无限渐近横轴，理论上永远不会与之相交； 4）正态随机变量在特定区间上的取值概率由正态曲线下的面积给出，而且其曲线下的总面积等于1；

5）均值可取实数轴上的任意数值，决定正态曲线的具体位置；标准差决定曲线的“陡峭”或“扁平”程度：标准差越大，正态曲线越扁平；标准差越小，正态曲线越陡峭。这是因为，标准差越小，意味着大多数变量值离均数的距离越短，因此大多数值都紧密地聚集在均数周围，图形所能覆盖的变量值就少些，于是都挤在一块，图形上呈现瘦高型。相反，标准差越大，数据跨度就比较大，分散程度大，所覆盖的变量值就越多，图形呈现“矮胖型”。

3 标准正态分布

如果不指定一个均值和一个标准差，则函数将假定其为标准正态分布（均值为0，标准差为1）。

4 正态分布的概率函数

概率密度函数为dnorm()，分布函数pnorm()，分位函数qnorm()，随机数生成函数rnorm()。

dnorm(x, mean = 0, sd = 1, log = FALSE)

pnorm(q, mean = 0, sd = 1, lowertail = TRUE, logp = FALSE)

qnorm(p, mean = 0, sd = 1, lowertail = TRUE, logp = FALSE)

rnorm(n, mean = 0, sd = 1)

x - 是数字的向量。

p - 是概率向量。

n - 是观察次数(样本量)。

mean - 是样本数据的平均值，默认值为零。

sd - 是标准偏差，默认值为1。

pretty()创建美观的分割点。选取n+1等间距的取整数，将连续变量x分割为n个区间。pretty(x,n)

x:它被定义为矢量数据。

n:结果向量的长度。

返回：等长区间的数据向量。

设定随机数种子

setseed()

该函数是设定生成随机数的种子，种子是为了让结果具有重复性，保证你在执行和调试后，所创造的随机数保持不变。 24

runif(n, min = 0, max = 1)

该函数用于创建均匀分布的随机偏差。n表示观察次数，min和max分别为最小最大值。

其他概率分布见下表。

参考资料：

函数主体可以是一系列表达式，这些表达式需要用大括号括起来：function(param1,,paramN){expr1exprM}讨论函数的定义告诉R软件“用何种方式进行计算”。例如，R软件没有内置计算变异系数的函数，因此你可以定义函数如下：>cvcv(1:10)[1]05504819第一行定义了名为cv的函数，第二行引用该函数，以1∶10作为其参数x的值。函数对参数应用函数主体中的表达式sd(x)/mean(x)进行计算并返回结果。定义函数后，我们可以在任何需要函数的地方应用它，例如可以作为lapply函数的第二个参数（参见方法62）：>cvlapply(lst,cv)函数主体如果包含多行表达式，则需要使用大括号来确定函数内容的起始和结束位置。下面这一函数采用了欧几里德算法计算两个整数的最大公约数：>gcdlapply(lst,function(x)sd(x)/mean(x))由于本书重点不在于介绍R的编程语言，这里不对R函数编程的细微之处进行解释。下面给出几个需要注意的地方：返回值所有函数都有一个返回值，即函数主体最后一个表达式值。你也可以通过return(expr)命令给出函数的返回值。值调用函数参数是“值调用”——如果你改变了函数中的参数值，改变只是局部的，并不会影响该参数所引用的变量值。局部变量你可以简单地通过赋值来创建一个局部变量，函数结束后该局部变量会消失。条件执行R语法中包含if语句，详情可以使用help(Control)命令查看。循环语句

以上就是关于R语言 R软件问题全部的内容，包括:R语言 R软件问题、r语言中怎样查看函数源代码、《R语言实战》自学笔记26-概率函数等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/10163760.html

R语言 R软件问题

发表评论

评论列表（0条）