数据库姓名的缺省值为未知姓名-小米手机查询本机号码为未知
在数据分析中,高质量的数据对分析结果起着重要的作用。 但是在实际应用中,数据往往存在缺失值、重复值等,需要在使用前进行预处理。 通常数据库姓名的缺省值为未知姓名,数据预处理没有标准流程,不同的任务和数据集属性有不同的预处理策略和要求。 常用的数据预处理流程主要有:
去除唯一属性:唯一属性通常是一些id属性。 这些属性不能描述样本本身的分布,所以删除这些特有属性的内容。 处理缺失值。 特征编码数据标准化正则化:特征选择:主成分分析:
在这个过程中,特征编码、数据标准化、特征选择和主成分分析已经在《预测的特征工程》一文中进行了介绍。 本文主要介绍了数据缺失处理的一些方法。
缺失数据是许多研究领域中的一个复杂问题。 数据违约可能会造成以下影响:系统丢失大量有用信息,系统中表现出的不确定性更加显着,系统中包含的确定性成分更加难以掌握数据库姓名的缺省值为未知姓名,包含空值的数据会乱七八糟采矿过程,导致不可靠的输出。
从数据违约原因来看,主要有以下原因:
在处理默认值时,常用的方法有删除、数据补全和不处理。
1、删除方法:直接删除默认数据项。 这种方法适用于缺失值样本比较少的情况。 如果数据默认过多,删除会影响最终的数据分析;
2. 数据补全:数据补全的方法主要有人工填充、特殊值填充、平均值填充、热卡填充、K均值填充、回归法、期望值最大化法、多重填充和C4.5法。
在几种基于统计的方法中,删除元组和平均比热卡填充、期望最大化和多重填充更差; 回归是一种更好的方法,但仍然不如 hotcal 和期望最大化方法; 期望值最大化方法缺乏多重插补的不确定性成分。 值得注意的是,这些方法直接处理模型参数的估计而不是差距预测本身。 它们适用于无监督学习问题,而监督学习则不然。 例如,你可以删除包含空值的对象并使用全数据集进行训练,但你不能在预测时忽略包含空值的对象。 此外,C4.5和使用所有可能的值填充方式也有较好的填充效果,一般不推荐手动填充和特殊值填充。
3.未处理:由于某些因素,如果对象没有相关属性,不宜做任何填充。 另外,完成过程只是用我们的主观估计来补充未知值,不一定完全符合客观事实。 在完善不完整信息的同时,我们或多或少地改变了原有的信息系统。 空值的不当填充往往会在数据中引入新的噪声,使挖掘任务产生错误的结果。 因此,很多时候,我们还是希望在保持原有信息不变的前提下,对信息系统进行处理。
直接对包含空值的数据进行数据挖掘而不处理缺失值的方法包括贝叶斯网络和人工神经网络。 贝叶斯网络提供了一种自然的方式来表示变量之间的因果信息,并用于发现数据之间的潜在关系。 人工神经网络还可以有效处理数据分析中的缺失值。 其中最常用的是高维地图。 它使用单热编码技术将属性映射到高维空间。 将包含K个离散取值范围的属性值展开为K+1个属性值,如果属性值缺失,则展开后的第K+1个属性值设置为1。这种方法比较准确,保留所有信息,不添加任何附加信息。 如果在预处理时所有的变量都这样处理,数据的维度会大大增加。 这样做的好处是完整保留了原始数据的所有信息,不考虑缺失值; 缺点是计算量大大增加,只有在样本量很大的时候效果才好。
总结
在预处理数据时,默认值处理会面临各种情况和问题,没有固定的方法可以彻底解决所有问题。 该方法的应用效果往往还受到人为主观测量的影响。 因此,我们在实际工作中,也要具体问题具体分析,尽可能减少人为因素。 目前,基于不完全数据表示方法的理论主要有可靠性论、概率论、模糊集论、可能性论、DS证据论等,它们也会对缺省值的补充和完善产生一定的作用. 指导价值。
大家可以根据自己的情况采用上面的。 希望这篇文章能在你成长的路上给你启发。