作业5答案
练习1 数据质量分析
- 分析数据集nhanes中的缺失值分布
- 分析数据集sleep中的缺失值分布
> md.pattern(nhanes)
> md.pattern(sleep)
练习2 数据特征分析
- 数据特征分析的具体方法有哪些
- 用合适的方法对iris数据集中的各变量进行数据特征分析
> hist(iris$Sepal.Length)
> table(iris$Species)
> pie(table(iris$Species))
> summary(iris)
> var(iris$Sepal.Length)
> sd(iris$Sepal.Length)
练习3 统计特征分析
- 列举五个统计特征函数
- 生成100个服从标准正态分布的随机数并记为向量x
计算向量x的均值、方差、标准差、四分位距
生成100个服从N(1,1)的随机数并记为向量y
计算x与y的协方差、相关系数
> x <- rnorm(100)
> mean(x)
[1] 0.05929645
> var(x)
[1] 1.320958
> sd(x)
[1] 1.14933
> summary(x)
Min. 1st Qu. Median Mean
-3.14763 -0.78125 -0.01174 0.05930
3rd Qu. Max.
0.89814 2.89096
> y <- rnorm(100,1,1)
> cov(x,y)
[1] 0.07399299
> cor(x,y)
[1] 0.06139523
练习4 统计作图
- 统计绘图的具体函数有哪些,解释这些函数绘制什么图形
- 根据iris数据集,绘制散点矩阵图
- 选取iris数据集中的第三列绘制条形图查看数据分布
> colors <- c("red","green","blue")
> pairs(iris[1:4],main="鸢尾花数据散点矩阵图",pch=21,bg=colors[unclass(iris$Species)])
> par(xpd = TRUE)
> legend(0.2, 0.02, horiz = TRUE, as.vector(unique(iris$Species)),fill = colors, bty = "n")
> hist(iris$Petal.Length)