简介:摘要:随机森林是当前一种常用的机器学习算法,其是Bagging算法和决策树算法的一种结合。本文就基于随机森林的相关性质及其原理,对它的改进发展过程给予了讨论。
简介:[摘要]本文对随机数均匀分布、正态分布的生成算法进行了探讨,给出了一种服从正态分布随机数生成方法,该方法用于描述取值范围较集中的现象,它在客观世界中有着广泛的应用。[关键词]随机数均匀分布正态分布教学一、引言在数据结构、算法分析与设计、科学模拟、信息安全等方面都需要用到随机数。特别是一些安全级别要求比较高的应用,对于随机数的质量提出了很高的要求。随机数的生成一般有两种方式,一种是硬件方式,一种是软件方式。一般情况下,硬件方式生成的随机数质量要好于软件方式生成的随机数。但是对于一般的用户来说,需要每位用户都配备一种硬件设备来生成随机数,这种方式可能不太现实。因此,通过软件方式来寻找高质量的随机数,这是一个很重要而且人们不断探讨的课题……
简介:针对现有页岩气储集层总有机碳含量预测模型存在的模型泛化能力弱、稳定性差的问题,提出了一种利用随机森林回归算法预测储集层总有机碳含量的方法。该方法使用地球物理测井提供的密度、铀含量、钍含量、自然伽马及光电吸收截面吸收指数等测井响应值作为输入,岩芯实验总有机碳含量作为输出,通过学习输入曲线与总有机碳含量的函数关系,动态预测整口井的总有机碳含量曲线。通过对焦石坝地区两口页岩气探井建模及预测可知,当随机森林中树的数量达到500时,建立的模型即可对训练样本中输入与输出的函数关系进行完全学习。通过训练结果及预测结果可知,随机森林回归方法不易发生过拟合现象,泛化能力极强,同时预测得到的曲线更为平滑,预测总有机碳含量较其他方法更为准确,有效地提高测井信息预测总有机碳含量模型的精度,对页岩气储集层评价提供帮助。
简介:为提高基于随机森林算法重复拨打投诉预警模型的效果,文章从数据、指标、参数3个方面对模型进行优化。在数据处理方面,利用SMOTE算法平衡投诉与非投诉比例,一方面防止了模型出现过拟合;另一方面消除了非平衡数据对模型效果的影响。在特征选择方面,使用基尼系数进行特征选择,从而减少数据的噪声,提高模型预测的准确度。在参数调整方面,使用R语言软件对模型决策树数量参数和最大特征参数进行调整,模型最终的OOB误差率为5.03%,准确率和召回率均超过70%。目前投诉预警模型已经进行试点应用,实现了投诉业务的提前识别,通过采用相应服务策略,减少了服务升级事件,降低了客户投诉率,有效提升了客户感知。
简介:地震数据规则化是地震信号处理中一个重要步骤,近年来受到广泛关注的压缩感知技术已经被应用到地震数据规则化中。压缩感知技术突破了传统的Shannon-Nyqiust采样定理的限制,可以用采集的少量地震数据重构完整数据。基于压缩感知技术的地震数据规则化质量主要受三个因素影响,除了受地震信号在不同变换域的稀疏表达和11范数重构算法的影响外,极大地取决于地震道随机稀疏采样方式。尽管已有学者开展了2D地震数据离散均匀分布随机采样方式研究,但设计新的稀疏采样方案仍然很有必要。在本文中,我们提出满足Bernoulli分布规律的Bernoulli随机稀疏采样方式和它的抖动形式。对2D数值模拟数据进行四种随机稀疏采样方案和两种变换(Fourier变换和Curvelet变换)实验,对获取的不完整数据应用11范数谱投影梯度算法(SPGL1)进行重构。考虑到不同随机种子点产生不同约束矩阵R会有不同的规则化质量,对每种方案和每个稀疏采样因子进行10次规则化实验,并计算出相应信噪比(SNR)的平均值和标准偏差。实验结果表明,我们提出的新方案好于或等于已有的离散均匀分布采样方案。
简介:为了对微小型飞行器上的MIMU(微惯性测量单元)的随机漂移进行补偿,在比较了Mallat算法与átrous算法之后,基于小波变换与多尺度分析方法,提出了多尺度时间序列建模方法,它充分利用了átrous算法的快速性与时间平移不变性,将MEMS陀螺仪随机漂移进行多尺度分解。对各尺度上分解得到的信号进行重建,并对重建得到的各个信号进行时间序列建模。将各尺度时间序列模型的预测输出的和作为陀螺仪的随机噪声估计,对陀螺仪的随机漂移进行补偿。最后的实际数据建模表明该建模方法运算量小、建模速度快、精度高、模型适用性强,有很强的实际应用价值。