博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
怎么做数据的EDA分析?
阅读量:4106 次
发布时间:2019-05-25

本文共 745 字,大约阅读时间需要 2 分钟。

1.什么是EDA分析?

探索性数据分析

(Exploratory Data Analysis,简称EDA)
我的理解是,所谓“探索”,就是自己不受规则约束、用各种方法去找数据的特点、规律。

2.怎么去实现EDA分析?

首先要敢于假设,不设限。拿到一堆数据后,多少会有点猜想,那么就可以去大胆尝试和验证;

怎么验证猜想乃至挖掘出更多关系与规律呢?要多做图,通过将数据可视化来直观浅显地展示其中的数据关联。

3.具体要做哪些图?

单变量分析

基本统计量(中位数、四分位数、偏度、峰度等等) 
偏度、峰度:数据的大致分布情况,功能上与直方图类似,其虽然可量化,但不如直方图直观 
直方图 
- 对称? 
- 分散? 
- 异常值? 
- 有间隙? 
箱线图 
- 异常值? 
- 对称? 
- 比较几批数据的形状 
正态性检验 
- 图示法
- 直方图钟型? 
- 箱线图 
- QQ图 
- 非参数检验方法

两个变量的分析

线性相关? 
秩相关? 
关联性如何? 
注意: 
先绘制散点图 
要求两变量来自正态总体 
出现异常值慎用

报表

在进行了单变量与多变量的分析之后,应该得到一个展示成果性的报表。制作报表时应该思考以下的信息: 
- 数据缺失? 
- 有异常值? 
- 特征有冗余? 
- 分布情况? 
- 样本是否重复? 
- 样本是否平衡?
- 是否需要抽样? 
- 是否需要降维? 
- 能否构造更有价值的特征? 
- 连续特征是否需要离散化? 
- 是否需要对变量进行重新计算?
--------------------- 
作者:JasonBianzx 
来源:CSDN 
原文:https://blog.csdn.net/JasonBianZhang/article/details/78471846 
 

 

GitHub上可供参考的一个很好的例子:

 

 

你可能感兴趣的文章
解决SimpleDateFormat线程安全问题NumberFormatException: multiple points
查看>>
处理Maven本地仓库.lastUpdated文件
查看>>
计算机网络-OSI各层概述
查看>>
Java--String/StringBuffer/StringBuilder区别
查看>>
分布式之redis复习精讲
查看>>
(python版)《剑指Offer》JZ01:二维数组中的查找
查看>>
(python版)《剑指Offer》JZ06:旋转数组的最小数字
查看>>
(python版)《剑指Offer》JZ13:调整数组顺序使奇数位于偶数前面
查看>>
(python版)《剑指Offer》JZ28:数组中出现次数超过一半的数字
查看>>
(python版)《剑指Offer》JZ30:连续子数组的最大和
查看>>
(python版)《剑指Offer》JZ02:替换空格
查看>>
使用JSTL
查看>>
Java 8新特性:Stream API
查看>>
管理用户状态——Cookie与Session
查看>>
最受欢迎的前端框架Bootstrap 入门
查看>>
JavaScript编程简介:DOM、AJAX与Chrome调试器
查看>>
通过Maven管理项目依赖
查看>>
通过Spring Boot三分钟创建Spring Web项目
查看>>
Spring的IoC(依赖注入)原理
查看>>
Java编程基础:static的用法
查看>>