实验目的

学会使用Python进行数据规约

实验原理

在大数据集上进行复杂的数据分析将需要很长的时间,数据规约可以产生更小的但保持原数据完整行的新数据及,在规约后的数据集上进行分析和挖掘将更有效率。

实验步骤

属性规约:合并属性,逐步向前选择,逐步向后删除,决策树归纳,主成分分析。

主成分分析步骤:

1、设原始变量

的n次观测数据矩阵为:

2、将数据矩阵按列进行中心标准化

求相关系数矩阵R,

其中,

3、求R的特征方程

的特征根

4、确定主成分个数m:

根据实际问题确定,一般取0.8

计算m个相应的单位特征向量:

计算主成分:

实现代码如下:

  1. `import pandas as pd
  2. `
  3. `from sklearn.decomposition import PCA
  4. `
  5. `#参数初始化
  6. `
  7. `inputfile = '../data/principal_component.xls'
  8. `
  9. `outputfile = '../tmp/dimention_reducted.xls' #降维后的数据
  10. `
  11. `data = pd.read_excel(inputfile, header = None) #读入数据
  12. `
  13. `pca = PCA()
  14. `
  15. `pca.fit(data)
  16. `
  17. `print pca.components_ #返回模型的各个特征向量
  18. `
  19. `print pca.explainedvariance_ratio #返回各个成分各自的方差百分比
  20. `
  21. `#由上面可以看出前4个已经占了97%
  22. `
  23. `pca = PCA(3)
  24. `
  25. `pca.fit(data)
  26. `
  27. `low_d = pca.transform(data) #降低唯独
  28. `
  29. `pd.DataFrame(low_d).toexcel(outputfile) #保存结果
  30. `

`pca.inverse_transform(low_d) #复原数据

`

数值规约:通过选择替代的、较小的数据来减少数据量。

results matching ""

    No results matching ""