本文共 745 字,大约阅读时间需要 2 分钟。
探索性数据分析
(Exploratory Data Analysis,简称EDA) 我的理解是,所谓“探索”,就是自己不受规则约束、用各种方法去找数据的特点、规律。首先要敢于假设,不设限。拿到一堆数据后,多少会有点猜想,那么就可以去大胆尝试和验证;
怎么验证猜想乃至挖掘出更多关系与规律呢?要多做图,通过将数据可视化来直观浅显地展示其中的数据关联。
单变量分析
基本统计量(中位数、四分位数、偏度、峰度等等) 偏度、峰度:数据的大致分布情况,功能上与直方图类似,其虽然可量化,但不如直方图直观 直方图 - 对称? - 分散? - 异常值? - 有间隙? 箱线图 - 异常值? - 对称? - 比较几批数据的形状 正态性检验 - 图示法 - 直方图钟型? - 箱线图 - QQ图 - 非参数检验方法两个变量的分析
线性相关? 秩相关? 关联性如何? 注意: 先绘制散点图 要求两变量来自正态总体 出现异常值慎用报表
在进行了单变量与多变量的分析之后,应该得到一个展示成果性的报表。制作报表时应该思考以下的信息: - 数据缺失? - 有异常值? - 特征有冗余? - 分布情况? - 样本是否重复? - 样本是否平衡? - 是否需要抽样? - 是否需要降维? - 能否构造更有价值的特征? - 连续特征是否需要离散化? - 是否需要对变量进行重新计算? --------------------- 作者:JasonBianzx 来源:CSDN 原文:https://blog.csdn.net/JasonBianZhang/article/details/78471846
GitHub上可供参考的一个很好的例子: