作业6答案
练习1 数据清洗
- 解释为什么要进行数据清洗
- 数据清洗的具体方法有哪些
练习2 数据集成
- 设计一个表格a,包含一个班学生的id、姓名
- 设计表格b,包含1中表格的id以及分数
- 用合适的函数根据学生id合并a、b,生成表格c
a =data.frame(ID=c(11,12,13),Name=c("Devin","Edward","Wenli"))
b = data.frame(ID=c(11,12,13),Grade=c(8,9,10))
c = merge(a,b,all.x = TRUE)
c
ID Name Grade
1 11 Devin 8
2 12 Edward 9
3 13 Wenli 10
练习3 数据变换
- 数据变换的方法有哪些
- 对iris数据集中的前四列做数据规范化
scale(iris[,1:4])
attr(,"scaled:center")
Sepal.Length Sepal.Width Petal.Length Petal.Width
5.843333 3.057333 3.758000 1.199333
attr(,"scaled:scale")
Sepal.Length Sepal.Width Petal.Length Petal.Width
0.8280661 0.4358663 1.7652982 0.7622377
练习4 数据规约
- 为什么要进行数据规约
- 数据规约的意义是什么
- 主成分分析的主要原理是什么
- 在iris数据集的前四列实现主成分分析
princomp(iris[,1:4],cor = TRUE)
Call:
princomp(x = iris[, 1:4], cor = TRUE)
Standard deviations:
Comp.1 Comp.2 Comp.3 Comp.4
1.7083611 0.9560494 0.3830886 0.1439265
4 variables and 150 observations.