Download Video and Audio from YouTube

数据分析的一般流程和数据预处理

11,970 views 112 5

更多的数据科学相关的教学视频见:http://scientistcafe.com。 如果想在线参与之后的演讲直播,可以关注twitter:@gossip_rabbit 或者加入meetup:http://www.meetup.com/Central-Iowa-R-... 本次沙龙将介绍常用的建模前的数据预处理、数据整合方法,以及如何用R实施。许多数据分析相关课程介绍模型,算法和统计推断。但在实际应用中,刚到手的原始数据通常都不能直接用于建模。数据预处理是将原始数据转化成能够用于建模的一致数据的过程。建模失败的原因有多种,其中之一就是在建模前没有对数据进行恰当的预处理。数据预处理会极大的影响建模结果,如缺失值填补和对离群点的处理显然会影响统计分析的结果。因此这是整个分析流程中非常关键的一个环节,这一步没有到位,之后的分析就如同在沙地上建房,及其不稳固。 在实际分析项目中,通常需要经历的数据预处理流程: 检查数据:变量分布,是不是存在错误的观测 缺失值填补:了解缺失原因,选择填补方式 数据变换:取决于需要建立的模型,对不符合正态分布假设,变量尺度差异大,有离群值的数据进行变换 检查共线性:找到高度线性相关的变量,决定删除变量,还是使用PCA,CFA这类非监督方法得到不相关的变量线性组合 稀疏变量:查找并且删除稀疏变量 编码名义变量:对于不能作用于分类变量的模型,将分类变量转化成0/1名义变量