实验目的

学会使用Python进行数据变换

实验原理

数据变换主要是对数据进行规范化处理、连续变量的离散化以及变量属性的构造,将数据转换为适当的形式,以满足分析任务的需要。

实验步骤

数据转换

删除重复行数据

data=pd.DataFrame({'a':[1,3,3,4],

          'b':\[1,3,3,5\]}\)

print(data)

1

2

3

data=pd.DataFrame({'a':[1,3,3,4],

          'b':\[1,3,3,5\]}\)

print(data)

print(data.duplicated())

1

print(data.duplicated())

可以看出第三行是重复第二行的数据所以,显示结果为True

另外用drop_duplicates方法可以去除重复行

print(data.drop_duplicates())

1

替换值

除了使用我们上一篇文章中提到的fillna的方法外,还可以用replace方法,而且更简单快捷

data=pd.DataFrame({'a':[1,3,3,4], 'b':[1,3,3,5]})

print(data.replace(1,2))

1

2

3

data=pd.DataFrame({'a':[1,3,3,4],

          'b':\[1,3,3,5\]}\)

print(data.replace(1,2))

多个数据一起换

print(data.replace([1,4],np.nan))

1

print(data.replace([1,4],np.nan))

数据分段

data=[11,15,18,20,25,26,27,24]

bins=[15,20,25]

print(data)

print(pd.cut(data,bins))

结果为:

[11, 15, 18, 20, 25, 26, 27, 24][NaN, NaN, (15, 20], (15, 20], (20, 25], NaN, NaN, (20, 25]]

可以看出分段后的结果,不在分段内的数据显示为na值,其他则显示数据所在的分段。

print(pd.cut(data,bins).labels)

结果为:

[-1 -1 0 0 1 -1 -1 1]

results matching ""

    No results matching ""