作业6答案

练习1 数据清洗

  1. 解释为什么要进行数据清洗
  2. 数据清洗的具体方法有哪些

练习2 数据集成

  1. 设计一个表格a,包含一个班学生的id、姓名
  2. 设计表格b,包含1中表格的id以及分数
  3. 用合适的函数根据学生id合并a、b,生成表格c
 a =data.frame(ID=c(11,12,13),Name=c("Devin","Edward","Wenli"))
 b = data.frame(ID=c(11,12,13),Grade=c(8,9,10))
 c = merge(a,b,all.x = TRUE)
 c
  ID   Name Grade
1 11  Devin     8
2 12 Edward     9
3 13  Wenli    10

练习3 数据变换

  1. 数据变换的方法有哪些
  2. 对iris数据集中的前四列做数据规范化
 scale(iris[,1:4])
attr(,"scaled:center")
Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
    5.843333     3.057333     3.758000     1.199333 
attr(,"scaled:scale")
Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
   0.8280661    0.4358663    1.7652982    0.7622377

练习4 数据规约

  1. 为什么要进行数据规约
  2. 数据规约的意义是什么
  3. 主成分分析的主要原理是什么
  4. 在iris数据集的前四列实现主成分分析
 princomp(iris[,1:4],cor = TRUE)
Call:
princomp(x = iris[, 1:4], cor = TRUE)

Standard deviations:
   Comp.1    Comp.2    Comp.3    Comp.4 
1.7083611 0.9560494 0.3830886 0.1439265 

 4  variables and  150 observations.

results matching ""

    No results matching ""