如何用R为MA模型模拟观察值_IT百科

在R语言中输入以下内容：x1
R是用于统计分析、绘图的语言和 *** 作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。

MA模型(movingaveragemodel)滑动平均模型，模型参量法谱分析方法之一，也是现代谱估中常用的模型。q阶移动平均模型的自相关系数q阶截尾，偏自相关系数拖尾。

R语言绘图系列：

标度控制着数据到图形属性的映射，标度将我们的数据转化为视觉上可以感知的东西，比如大小、位置、颜色、形状等。标度也为我们提供了读图时所使用的工具，比如说坐标轴和图例。总的来说，可以称为引导元素。标度函数控制元素的属性，可以理解为图形的遥控器，可以用它来调整画布大小、颜色等等。此前学的shape,color,size等参数和标度函数相比显得不够灵活。

scale_fill_brewer 调色板函数

geom_errorbar()

geom_crossbar()

geom_linerange() 绘制线段

geom_pointrange() 绘制点

pointrange：点画线

首先绘制一张盒形图

在图上显示出观测值

值得注意的是，图上点的多少并不能完全反应原始数据的多少，因为有的点可能因为点过于密集就会被覆盖，看起来是一个点，其实可能是多个点。

因此可以使用geom_jitter函数将不同的点区分开（jitter是震荡散点），width设置如果遇到相同的点，点向左右方平移的距离。alpha设置透明度。

黑色点是离群点

还可以绘制卡槽图

varwidth参数会根据该水平下观测值的个数（n值）改变盒形图的宽度。（这里宽度去的不是观测个数的绝对值，而是平方根，以缩小差距。）

给盒子上色

分组盒形图，用不同颜色区分

画水平的盒形图

使用coord_flip函数（坐标轴翻转函数）

绘制一张直方图

bins可以设置直方图条柱的数目，默认为30。当bins和binwidth（设置条柱宽度）同时设置时，默认以binwidth为准。

新加入变量cut，根据新变量在price水平上进行一个计数

y轴由count变为density，绘制概率密度

注意下面density的写法，前后都要加..

绘制概率密度曲线：geom_density函数

堆栈密度概率曲线

geom_line/geom_path/geom_step

绘制一个简单的线图

绘制点线图，点和线需要分别添加。

如上图，线在点之上，是因为先投射了点，又投射了线。

先投射线，点就出现在了线之上。

线的颜色出现了渐变

geom_smooth函数：绘制拟合曲线

methods还有其他的方法，如glm：广义线性模型；losses：纯粹平滑；gam：广义加性模型等等（lm和glm最常用）

geom_hline绘制水平线，geom_vline绘制垂直线。xintercept和yintercept是截距，slope是斜率。

R语言中存在一些空值（null-able values），当我们进行数据分析时，理解这些值是非常重要的。

通常来说，R语言中存在：

这四种数据类型在R中都有相应的函数用以判断。

NA即Not available，是一个 长度为1的逻辑常数 ，通常代表缺失值。NA可以被强制转换为任意其他数据类型的向量。

可以采用is.na()进行判断。另外，NA和“NA”不可以互换。

NULL是一个 对象（object） ，当 表达式或函数产生无定义的值 或者 导入数据类型未知的数据 时就会返回NULL。

可以采用is.null()进行判断。

NaN即Not A Number，是一个 长度为1的逻辑值向量 。

可以采用is.nan()进行判断。另外，我们可以采用is.finite()或is.infinite()函数来判断元素是有限的还是无限的，而对NaN进行判断返回的结果都是False。

Inf即Infinity无穷大，通常代表一个很大的数或以0为除数的运算结果，Inf说明数据并没有缺失（NA）。

可以采用is.finite()或is.finite()进行判断。

理解完四种类型数值以后，我们来看看该采取什么方法来处理最最常见的缺失值NA。

小白学统计在推文《有缺失值怎么办？系列之二：如何处理缺失值》里说“ 处理缺失值最好的方式是什么？答案是：没有最好的方式。或者说，最好的方式只有一个，预防缺失，尽量不要缺失。 ”

在缺失数很少且数据量很大的时候，直接删除法的效率很高，而且通常对结果的影响不会太大。

如数据框df共有1000行数据，有10行包含NA，不妨直接采用函数na.omit()来去掉带有NA的行，也可以使用tidyr包的drop_na()函数来指定去除哪一列的NA。

用其他数值填充数据框中的缺失值NA。

使用tidyr包的replace_na()函数。

使用tidyr包的fill()函数将上/下一行的数值填充至选定列中NA。

除此之外，类似原理的填充法还有均值填充法（用该变量的其余数值的均值来填充）、LOCF（last observation carried forward）、BOCF（baseline observation carried forward）、WOCF（worst observation carried forward）等。

当分类自变量出现NA时，把缺失值单独作为新的一类。

在性别中，只有男和女两类，虚拟变量的话以女性为0，男性为1。如果出现了缺失值，可以把缺失值赋值为2，单独作为一类。由于将缺失值赋值，在统计时就不会把它当做缺失值删除，避免了由于这一个变量缺失而导致整个观测值被删除的情况。

假定有身高和体重两个变量，要填补体重的缺失值，我们可以把体重作为因变量，建立体重对身高的回归方程，然后根据身高的非缺失值，预测体重的缺失值。

参考资料：

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/bake/11650354.html

如何用R为MA模型模拟观察值

发表评论

评论列表（0条）