随机森林遥感图像分类实验教学软件开发研究

(整期优先)网络出版时间:2022-01-10
/ 2

随机森林遥感图像分类实验教学软件开发研究

解伟光

天津市万贸科技有限公司

摘要:随着科学技术的发展,我国的森林遥感图像分类技术有了很大进展,在我国现阶段的众多高校中,都开设了“遥感图像解译”或“遥感原理与应用”等课程。遥感图像的监督分类,是遥感类课程不可或缺的教学内容。然而,在目前相关课程的实验教学中,存在教学内容陈旧、更新频率较低等问题。为了充实高校遥感类课程的实验教学,本文首先分析了随机森林回归模型,其次探讨了遥感图像分类实验教学软件设计,以供参考。

关键词:随机森林;遥感图像;分类;实验教学

引言

随着遥感技术的发展,人类的对地观测能力逐步增强,数据量与日俱增。在此背景下,遥感数字图像处理课程的专业知识和理论方法须不断推陈出新,以应对海量空间数据的快速处理与分析,并结合城市、农业、生态、环境、生活等不同领域的应用实践,不断拓展其时间、空间尺度。

1随机森林回归模型

随机森林(randomforest,RF)是一种基于决策树的集成学习算法,其通过Bootstrap取样法从n个训练样本中有放回地随机选取n个样本得到m个子集,并对每个子集单独训练一棵决策树,将m棵决策树预测结果的平均值作为回归随机森林的输出。随机森林回归模型以每种重金属元素选取的建模因子作为输入变量,以其真实的含量值作为输出。在建立模型的过程中需要确定两个关键参数:决策树数量和决策树特征数量,试验中通过网格搜索和交叉验证确定上述参数的取值。算法原理如图1所示。

61dba6cac204b_html_f37451cc56728a93.png

图1随机森林回归模型算法原理

2遥感图像分类实验教学软件设计

2.1软件框架设计

要深入了解随机森林(RF)进行遥感图像分类的原理与过程,除了要实现RF的分类功能,还需要允许学员能够对RF的各项训练参数进行设置。在MVC(ModelViewController)的软件设计体系框架下,本文给出了基于RF的遥感图像分类实验教学软件的设计架构。MVC是软件工程领域中通用的软件架构设计模块,它包含三大部分:1)模型层;2)视图层;3)控件层。如图2所示。

61dba6cac204b_html_1b8d8838ec4f0f61.png

图2遥感图像分类实验教学软件设计架构图

在具体的软件设计过程中,需要根据软件需求分析,模块化各个功能,以便提高软件编程实现过程的效率,以及提升软件的易用度。基于RF的遥感图像分类需要三部分的输入,包括遥感图像、训练数据,以及RF的参数。在实际的实验教学中,遥感图像可由教师提供,或在教师的指导下由学生搜集。训练数据需在教师的指导下,由学生根据遥感图像的内容进行采集。本文采用CSV格式的文本文件来储存训练数据,具体可以利用Excel与专业遥感图像处理系统ENVI联合获取。参数设置包含两个层次:1)RF的参数N和m(其定义见本文1.2节);2)决策树的参数,其中第二部分可被定义被高级参数。本软件为初学者提供高级参数的默认设置;学生在对RF与决策树有了较为深入的理解之后,本软件允许其对高级参数进行调整。在实现技术中,本文采用的集成开发环境(IntegratedDevelopmentEnvironment,IDE)是微软的VisualStudio2010;所采用的开发语言为VisualC++;对于用户图形界面,本文利用了微软的MFC控件类库来实现人机交互的各项功能,包括选择和打开文件、参数设置、信息提示等。

2.2实验设计

对MCD12Q1中的图表数据对应的遥感影像做好标记得到真实值数据,反射率数据预处理后将目标的区域作为训练的数据,然后将这其中的20%作为验证组,将数据输入训练方法中进行训练,得到结果后对真实值数据进行精度对比,之后再将数据作为初始数据代入之前的方法中进行训练。设定随机森林生成树木最大为500,挑选出其中精度最高的一组作为植被分类图,使用python将矩阵数据进行上色,得到可视化的植被分类图。

2.3拓展教学渠道

实施线上/线下教学、课堂讨论、实验和学习汇报相结合的教学模式,形成多样化的教学渠道。在遥感数字图像处理课程教学中,添加相关时政要闻。在实践实训中,充分体现国家、地区的发展战略需求;在课程讨论中,加强师生互动。通过课程讲授、专题实践、课堂讨论等多样化教学手段,夯实学生的专业基础,提高学生的自主学习和实践能力,培养学生的学习兴趣,增强学生对专业的认可度。

2.4训练数据准备

训练数据的准备包括两大步骤:1)利用ENVI的感兴趣区功能,从图像里手动提取训练点数据;2)将所提取的训练点数据转化为本软件能够识别的CSV格式文本文件,这一过程可由Excel软件完成。在第一步中,需先利用ENVI显示遥感图像,然后用菜单命令打开感兴趣区对话框:叠加(Overlay)→感兴趣区(Regionofinterest,ROI)。在感兴趣区对话框中,选择点类型(ROI_Type→Point)的ROI来选择训练点。在训练点选择过程中,学生需在教师或实验辅导人员的指导下完成,以得到图像中各个地物类别、数量足够多的训练数据。值得注意的是,训练点的选择是本实验的关键步骤,需要教师详细指导以及学生认真完成。要导出选好的训练点,需利用感兴趣区对话框中的菜单命令:文件(File)→输出ROI到ASCII码文件(OutputROIstoASCII)。值得注意的是,在导出训练点文本文件时,需手动添加.txt后缀名。在第二步中,首先启动Excel,然后打开上一步得到的训练点文件。由于Excel默认把导入的文本文件归为一列,而训练点数据包含像素的x、y坐标,因此需要手动分列操作。这一步的Excel命令是:数据→分列。需注意的是,在分列向导对话框中,要选择“分隔符号”的方式,并且在分隔符号的选择中利用“空格”进行分列。在分列完成后,要把各个训练点的x、y坐标,复制到一个新建表单文件中,并且在点坐标的之前一列,设置训练点的类别标识。将所有训练点的类别标识、坐标信息配置完成后,在第一行输入两个数字:1)类别数,2)训练点总数。最后,把文件另存为CSV格式的文件,即完成训练点数据的准备。分类结果的评价是根据混淆矩阵进行的。在ENVI软件中,其对应的菜单命令为:分类(Classification)→分类后处理(PostClassification)→混淆矩阵(ConfusionMatrix)→使用地面真值感兴趣区(UsingGroundTruthROIs),得到分类混淆矩阵、分类总精度、KAPPA系数等精度评价数值。在这一步骤中需要地面真值的感兴趣区(ROI)数据,这些数据可由指导教师提供,或由以下实验教学实施方案解决。在实验教学前,预先分配两人一组。每组同学处理相同的遥感图像,但在提取训练点时,每人要在不同的图像部分进行提取。例如,对于一组中A、B两名同学,A只提取图像中上半部分的训练点,B只提取该图像中下半部分的训练点。两名同学要确保其训练点提取的位置是不重合的,且每人提取的训练点数量足够多,并涵盖该图像的所有地物类型。这样,A同学的训练点ROI数据可被当作B的地面真值,而B的训练点可被当作A的地面真值。以上方案不但解决了提供地面真值数据的问题,也使同学们充分了解基于地面真值数据进行分类精度评价的流程。

结语

综上所述,随机森林分类法已经证明是同类分类法中效果最好的一种,其运算速度较为迅速而且分类精度也有一定的保障;在我们以往的工作过程中发现,随机森林分类方法的稳定性超过了神经元网络分类法,受工作时间及硬件的限制,本次试验并没有将现有数据进行神经元网络分类识别,在以后的试验中我们会增加分类识别的方法以获得更完善的结论。

参考文献

[1]李德仁,姚远,邵振峰.智慧城市中的大数据[J].武汉大学学报(信息科学版),2014,39(6):631-640.

[2]李德仁.展望大数据时代的地球空间信息学[J].测绘学报,2016,45(4):379-384.

[3]高仁强,陈亮雄,杨静学,等.一种高分影像随机森林变化检测方法[J].测绘科学,2020,45(11):130-138.

[4]张天一,苏华,杨欣,等.基于LightGBM的全球海洋次表层温盐遥感预测[J].遥感学报,2020,24(10):1255-1269.