bigdata
说明
数据分析语言学习实验
R语言编程基础实验
实验一:R基本环境
实验二:R包
实验三:查看帮助
实验四:定义变量
实验五:变量赋值
实验六:定义向量
实验七:定义数组
实验八:定义数据框
实验九:定义函数
实验十:条件判断语句
实验十一:循环语句
实验十二:可视化语句
作业1
作业1答案
R语言统计建模与分析基础实验
实验一:数据源连接
实验二:数据查看
实验三:数据切片
实验四:数据编辑
实验五:描述性统计
实验六:点图和条形图
实验七:直方图和核密度图
实验八:箱线图
实验九:Hexbin图
实验十:散点图矩阵
作业2
作业2答案
Python语言编程基础实验
实验一:打印Hello World
实验二:使用文本编辑器
实验三:输入和输出
实验四:数据类型和变量
实验五:字符串和编码
实验六:使用list和tuple
实验七:条件判断和循环
实验八:使用dict和set
实验九:函数
实验十:高级特性(切片、迭代、列表生成式、生成器)
作业3
作业3答案
Python语言统计建模与分析基础实验
实验一:连接数据库
实验二:数据导入
实验三:数据结构
实验四:数据切片
实验五:描述性统计
实验六:可视化处理
实验七:Numpy库操作
实验八:Scipy库操作
实验九:Pandas库操作
实验十:Sciki-learn库操作
作业4
作业4答案
数据分析与挖掘实验
R数据探索与预处理实验
实验一:数据质量分析实验
实验二:数据特征分析实验
实验三:统计特征函数实验
实验四:统计作图函数实验
实验五:数据清洗实验
实验六:数据集成实验
实验七:数据变换实验
实验八:数据规约实验
作业5
作业6
作业5答案
作业6答案
R数据挖掘实验
实验一:R语言分类预测基本流程实验
实验二:R语言数据预处理实验
实验三:R语言决策树分类方法实验
实验四:R语言高级分类方法实验
实验五:R语言聚类分析实验
实验六:R语言关联分析实验
实验七:R语言回归分析实验
作业7
作业8
作业7答案
作业8答案
Python数据探索与预处理实验
实验一:数据质量分析实验
实验二:数据特征分析实验
实验三:统计特征函数实验
实验四:统计作图函数实验
实验五:数据清洗实验
实验六:数据集成实验
实验七:数据变换实验
实验八:数据规约实验
作业9
作业9答案
作业10
作业10答案
Python数据分析实验
实验一:Python数据降维实验
实验二:Python聚类分析实验
实验三:Python K近邻分类实验
实验四:Python回归分析实验
实验五:Python决策树分类实验
作业11
作业12
作业11答案
作业12答案
大数据技术基础实验
Hadoop基础实验
实验一:Hadoop安装与配置实验
实验二:HDFS基本操作实验
实验三:HDFS进阶实验
实验四:Hadoop Streaming实验
作业13
作业14
作业13答案
作业14答案
MapReduce基础实验
实验一:MapReduce基本操作实验
实验二:MapReduce高级特性实验
实验三:迭代式MapReduce实验
作业15
作业16
Hive基本实验
实验一:Hive安装与配置实验
实验二:Hive基本操作实验
实验三:Hive进阶实验
作业18
HBase基本实验
实验一:HBase安装与配置实验
实验二:HBase基本操作实验
实验三:Zookeeper安装与配置
实验四:HBase进阶实验
作业17
作业17答案
大数据分析与挖掘实验
R大数据挖掘实验
实验一:KNN分类实验
实验二:支持向量机分类实验
实验三:决策树分类实验
实验四:随机森林分类实验
实验五:神经网络分类实验
实验六:不同算法的比较
作业19
作业20
作业19答案
作业20答案
Python大数据挖掘实验
实验一:KNN分类实验
实验二:支持向量机分类实验
实验三:决策树分类实验
实验四:随机森林分类实验
实验五:神经网络分类实验
实验六:不同算法的比较
作业21
作业22
作业21答案
作业22答案
大数据案例分析实验
案例一:泰坦尼克乘客生存预测
实验一:数据读取
实验二:数据探索
实验三:数据预处理
实验四:分析建模
实验五:模型评价与优化
实验六:可视化输出
作业23
作业23答案
案例二:优秀员工离职原因分析与预测
实验一:数据读取
实验二:数据探索
实验三:数据预处理
实验四:分析建模
实验五:模型评价与优化
实验六:可视化输出
作业24
作业24答案
案例三:用声音预测性别
实验一:数据读取
实验二:数据探索
实验三:数据预处理
实验四:分析建模
实验五:模型评价与优化
实验六:可视化输出
作业25
作业25答案
案例四:影响学生招生的因素
实验一:数据读取
实验二:数据探索
实验三:数据预处理
实验四:分析建模
实验五:模型评价与优化
实验六:可视化输出
作业26
作业26答案
案例五:电信行业客户流失分析
实验一:数据读取
实验二:数据探索
实验三:数据预处理
实验四:分析建模
实验五:模型评价与优化
实验六:可视化输出
作业27
作业27答案
Powered by
GitBook
作业25
作业25
练习1 数据导入
将数据集的csv文件导入
练习2 查看数据
用Hmisc包中describe 函数对数据集进行概述
练习3 数据操作
将数据集中的sp.ent属性由0.9作为阈值分为两类
练习4 图形绘制操作
用ggplot画出meanfreq,dfrange与label属性的散点图
results matching "
"
No results matching "
"