实验目的
学会使用R集成数据
实验原理
数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储中。
在R中,数据集成是指将存储在两个数据框中的数据以关键字为依据,以行为单位做列合并,可通过函数merge()实现。
实验步骤
下面给出merge()函数的示例:
> install.packages("data.table")
> library(data.table)
> (dt1 <- data.table(A = letters[1:10], X = 1:10, key = "A"))
A X
1: a 1
2: b 2
3: c 3
4: d 4
5: e 5
6: f 6
7: g 7
8: h 8
9: i 9
10: j 10
> (dt2 <- data.table(A = letters[5:14], Y = 1:10, key = "A"))
A Y
1: e 1
2: f 2
3: g 3
4: h 4
5: i 5
6: j 6
7: k 7
8: l 8
9: m 9
10: n 10
> merge(dt1, dt2)
A X Y
1: e 5 1
2: f 6 2
3: g 7 3
4: h 8 4
5: i 9 5
6: j 10 6
> merge(dt1, dt2, all = TRUE)
A X Y
1: a 1 NA
2: b 2 NA
3: c 3 NA
4: d 4 NA
5: e 5 1
6: f 6 2
7: g 7 3
8: h 8 4
9: i 9 5
10: j 10 6
11: k NA 7
12: l NA 8
13: m NA 9
14: n NA 10