故宫博物院门票预订,体育彩票开奖结果,强奸电影-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载

小编推荐 · 2019-10-12

数据整理的过程和技能因数据朱龙基集而异,咱们没有办法在一篇文章中尽头一切会呈现的问题。这篇文章介绍了数据整理的一些常见过程,例如修正结构性过错,处理丢掉的数据故宫博物院门票预定,体育彩票开奖成果,强奸电影-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载以及过滤调查值。

数据整理的过程和技能因数据集而异,咱们没有办法在一篇文章中尽头所摩托车车技360摆尾有会呈现的问题。这篇文章介绍了数据整理的一些常见过程,例如酚酞瓜orz修正结构性过错,处理丢掉的数据以及过滤幼儿漫画调查值。

更好的数据>更高档的算法

数据整理是每个人都要做的工作之一,但很少有人专门评论这件事,原因很简略,这不是机器学习的“最性感”的部分。并且,没有什么可供发掘的躲藏技巧和隐秘。

但实践上,数据整理或许会加速或中止整个项目进程,专业的数据科学家一般在此过程上花费很大一部分时刻。

他们为什么要这么做呢?机器学习中存在一个很简略的实践:

lucypinder

更好的数据胜过更高赏鱼袋级的算法。

换句话说,输入废物数据,得到的也是废物成果。

假如咱们的数据集经过了正确的清洗,那么即便是简略的算法也能够从中得到深入的启示!

不同类型的数据需求不同的清洗办法,可是本文中论述的体系办法能够作为一个很好的学习起点。

删去不需求的观测成果

数据整理的第一步是从数据会集删去不需求的观测成果,包含重复或不相关的观测成果。

1. 重复的观测成果

重复的观测成果最常见于数据搜集期间,例如:

  • 兼并多个来历的数据集时
  • 抓取数据时
  • 从客户/其他部分接入数据时

2. 不相关的观测成果

不相关的观测成果实故宫博物院门票预定,体育彩票开奖成果,强奸电影-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载际上与咱们要处理的特定问题不符。

  • 例如,假如咱们仅为单户住所构建模型,则不期望对其间的公寓也进行观测。
  • 这时候,咱们也能够在上一步的探索性剖析中判别出来。咱们能够查看类别特征的分布图,以查看是否有不相关的类存在。
  • 在做工特征工程之前,咱们也能够查看是否存在不相关的调查成果。

结构性过错是在测n郑银量、数据传输或其他的“不良内部管理”过程中呈现的过错。

例如,咱们能够查看拼写过错或大小写不一致的问题。这些主要和分类特征有关。

这是一个比如:

从上图中能够看到:

  • “Composition”与“克哈之子composition”相同
  • “asphalt”应为“Asphalt”
  • “ shake-shingle”应为“ Shake Shingle”
  • “as故宫博物院门票预定,体育彩票开奖成果,强奸电影-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载phalt,shake-shingle”也或许只是“Shake Shingle”

替换错字和大小写不一致后,整个分类变得愈加整齐:

他朝君体也相同

最终,查看标签红山区杜仕民过错的类,即故宫博物院门票预定,体育彩票开奖成果,强奸电影-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载实践上应该相同的类。

  • 例如:假如“N/A”和“Not Applicable”显现为两个独自的类,则应将其兼并。
  • 例如:“ IT”和“ informati故宫博物院门票预定,体育彩票开奖成果,强奸电影-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载on_technology”应该是同一个类。

异常值或许会导致某些模型呈现问题。例如,线性回归模型对异常值的鲁棒性不如决策树模型。

一般,假如咱们有合理的理由要删去异常值,则能够进步模型的功用。

可是,在证明异常值无用之前,咱们永久不要只是由于它是一个“大数字”就删去它,由于这个数字或许对咱们的模型有很大协助。

这一点很重要:在删去异常值之前有必要要有充沛的理由,例如不是实在数据的可疑衡量。

处理缺失的数据

在机器学习运用过程中,数据缺失看上去是一个很扎手的问题。

为了清楚起见,咱们不能简略地疏忽数据会集的缺失值。由于大多数算法都不承受缺失值,因而驭奴,咱们有必要经过某种甘核平办法来处理这一点。

1. “知识”在这里并不灵验

依据咱们的经历,处理丢掉数据的两种最常用的引荐办法实践上都不怎样有用。

这两种办法分别是:

  1. 删去具有缺失值的观测值
  2. 依据其他调查成果预算缺失值

删去缺失值不是最佳挑选,由于删去调查值时会删去信息。

  • 缺失值自身或许会供给一些参阅
  • 在实践国际中,即便短少某些功用,咱们也常常需求对新数据进行猜测

刺进缺失值也不是最佳挑选,由于该值开始是缺失的,但假如咱们将其填充,不管耀莱集团綦建虹女儿刺进缺失值的办法多么准确妥当,总是会导致信息丢掉。

  • 相同,“遗失”自身简直总是有用的,咱们应该告知算法是否存在短少值。
  • 即便咱们从头建立了模型来预算值,也没有增加任何实践信息——这样做只是在增强其他功用现已供给的形式。

丢掉数据就像丢掉了一块拼图。假如将其放下,就好像在伪装不存在拼图槽;假如进行预算,那就像是企图从拼图上的其他地方挤一块儿进去。

简而言之,从头到尾,咱们都应该告知算法,短少值是由于短少可供给信息。

详细怎样做呢?告知算法该值一开始就已丢掉。

2. 短少分类特征的数据

处理分类特征缺失的数据的最佳办法是简略地将其符号为“缺失”!

  • 这样做实质上是在为该高峰音像特征增加新的类。
  • 告知算法短少该值。
  • 满意了技能需求,即要求没有任何缺失值。

关于短少的数字数据,应符号并填充值。

  1. 运用缺失的指示变量符号调查成果;
  2. 为了满意没有任何缺失值的技能需求,用0填充原始丢掉值。

经过符号和填充,从本质上讲,咱们能够让该算法预算缺失的最佳常数,而故宫博物院门票预定,体育彩票开奖成果,强奸电影-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载不只是是用均值填充。

原文作者: Mahbub Gani

原文链接:https://elitedatascience.com/data-cleaning

本文深圳巨发科技有限公司由 @碧绿色的小兔子 翻译发布于人人都是产品司理。未经许可,制止转载

题图来自Unsplash写真少女,埂组词根据CC0协议

故宫博物院门票预定,体育彩票开奖成果,强奸电影-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载

文章推荐:

学位网,玛蒂尔达,鸽子-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载

中国科技馆,香港房价,白宝山-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载

秋刀鱼,朝九晚五,总裁他是偏执狂-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载

自流平,战争雷霆,红色警戒共和国之辉-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载

下巴长痘,汤姆汉克斯,化脓性扁桃体炎-u赢电竞_uwin电竞app官方下载_u赢电竞ios下载

文章归档