自动训练样本收集,利用多源土地覆盖产品和时间序列 Sentinel-2 影像
星璐 程,若增 王 和金坤 宗
a,b,c,d
a,b,c,d
^("a,b,c,d ") { }^{\text {a,b,c,d }}
a
a
^(a) { }^{a} 北京水资源安全实验室,首都师范大学,北京,中国;
b
b
^("b ") { }^{\text {b }} 资源环境与旅游学院,首都师范大学,北京,中国; '国家城市环境过程与数字仿真重点实验室,首都师范大学
摘要
收集可靠的训练样本在提高土地覆盖(LC)制图产品的准确性方面发挥着至关重要的作用,这些产品是全球环境和气候变化研究的基本数据。然而,这一过程劳动密集且耗时,因为它严重依赖于人工解读。本文提出了一种自动训练样本收集方法(ATSC),利用多源 LC 产品和时间序列 Sentinel-2 影像。首先,通过加权多数投票(WMV)算法融合多个 LC 产品生成初步样本数据集。其次,应用局部选择组合并行异常检测算法(LSCP)过滤异常样本。结果显示:(1)中国土地覆盖数据集(CLCD)具有最高的整体准确性(
73.22
%
73.22
%
73.22% 73.22 \% ),而 ESRI 土地覆盖(ESRI)具有最低的整体准确性(59.93%)。树木覆盖、建筑区和水域在所有产品中显示出高准确性,而灌木丛和湿地通常准确性较低。(2)四个研究区域的初步训练样本的平均准确性为
95.62
%
95.62
%
95.62% 95.62 \% 。 然而,仍然存在异常样本,例如分类错误、一年内的 LC 变化和光谱异常。(3) 使用 LSCP 算法,
70.10
%
70.10
%
70.10% 70.10 \% 的异常样本被移除,最终每个区域的训练样本准确率超过了
97.95
%
97.95
%
97.95% 97.95 \% 。ATSC 方法为 LC 分类提供了更高质量的训练样本,并促进了大规模 LC 制图项目。
文章历史
收到日期:2023 年 11 月 29 日 接受日期:2024 年 5 月 6 日
关键词
土地覆盖;训练样本;自动样本收集;加权多数投票;异常检测
1. 引言
LC 指的是地球表面各种生物或物理覆盖类型,主要与土地的自然属性有关(Di Gregorio 和 Jansen 2000)。准确和广泛的 LC 制图为科学研究提供了基础数据支持,研究自然与生物活动之间的关系、表面覆盖的空间模式、生态环境变化的模拟、监测与评估,以及人类社会和经济发展(Cao 等,2015;Giri 等,2013;Kayet 等,2016)。随着遥感技术的快速发展以及航空和卫星影像的更易获取,低成本和高效获取 LC 数据已成为可能(Z. Chen 等,2019;Congalton 等,2014)。
全球范围内发布了众多 LC 产品。许多早期的全球规模产品,如国际地球圈-生物圈计划(IGBP)DISCover(Loveland 和 Belward 1997),
马里兰大学(UMD)(Hansen 和 Reed 2000)和 2000 年全球土地覆盖数据集(GLC2000)(T. R. Loveland 等人 2000)是使用 AVHRR 传感器的数据创建的,导致了较低的空间分辨率(1 公里)。后来,500 米空间分辨率的 MODIS 和 300 米空间分辨率的 MERIS 成为土地覆盖制图的主要数据源。随后开发了几种中等空间分辨率的产品,如国家制图组织全球土地覆盖(GLCNMO)(Shirahata 等人 2017)、MODIS 土地覆盖(MCD12Q1)(Friedl 等人 2010)和土地覆盖-气候变化倡议(LCCCI)(Bontemps 等人 2012)。近年来,大量的 Landsat 和 Sentinel-2 影像被用于生成 30 米和 10 米空间分辨率的土地覆盖产品。这些高分辨率产品包括全球土地覆盖的更高分辨率观测与监测(FROM-GLC)(Gong 等人 2013)、全球土地覆盖。
在 30 米分辨率下的制图(GlobeLand30)(J. Chen 等,2017),动态世界(Brown 等,2022)和 ESA WorldCover(Zanaga 等,2021)。需要注意的是,土地覆盖(LC)产品的准确性各不相同。在最佳情况下,这些值大约为
80
%
80
%
80% 80 \% ,并且仍然受到不确定性的影响。之前的研究者在特定区域评估和比较了各种 LC 产品,揭示了低准确性持续存在的挑战,特别是在灌木丛、湿地和草地类别中(L. Liu 等,2021;Z. Wang 和 Mountrakis,2023;J. Wang 等,2022;T. Zhao 等,2023)。进一步的努力是必要的,以提高 LC 地图的整体质量。
许多学者提倡通过融合现有的多源土地覆盖(LC)产品来减少 LC 地图中的不确定性。Schepaschenko 等(2011)使用适宜性指数融合多个数据源,为俄罗斯地区生成了一幅 LC 地图。Kinoshita 等(2014)采用逻辑回归模型融合六个全球尺度的 LC 产品,揭示了产品数量对融合结果的准确性有显著影响。A. Pérez-Hoyos 等(2012)运用模糊集理论在欧洲地区融合了四个 LC 产品,从而提高了准确性。因此,随着可用 LC 产品数量的不断增加,多源产品的融合已成为提高地图准确性的关键方法。
训练样本对于训练分类器至关重要,直接影响土地覆盖(LC)制图结果的准确性和可靠性(Foody 和 Mathur 2006)。收集训练样本有两种方法。第一种也是最常用的方法是基于解释的,这种方法产生高质量的样本,但在大规模制图时需要大量的手工工作(Calderón-Loor, Hadjikakou 和 Bryan 2021;M. Li 等,2022)。第二种方法是从现有的 LC 产品中收集训练样本,已被证明具有完全自动化收集和生成大规模、地理分布广泛的训练数据集等优点(Colditz 等,2011;Hermosilla 等,2022;Hu, Dong 和 Batunacun 2018;Radoux 等,2014;H. K. Zhang 和 Roy 2017;X. Zhang 等,2021)。然而,在许多研究中,当采用第二种方法时,通常选择空间分辨率较低的 LC 产品,训练样本大多来自单一产品。分类错误和 LC 变化可能会影响训练样本的可靠性。 特别是在景观碎片化严重的地区,这可能导致训练样本质量较低。最近出现了许多高空间分辨率的土地覆盖(LC)产品,但很少有学者将它们融合用于训练样本收集。从单一来源的 LC 产品获得的信息的可靠性通常低于从多个产品融合中获得的信息(Ran et al. 2012)。多个 LC 产品的融合可以弥补单个产品的不足,减少错误,并增强收集的训练样本的可信度。具有高空间分辨率的 LC 产品可以提供丰富的空间细节。从高空间分辨率产品收集的训练样本将更准确,并适用于高分辨率的 LC 制图。此外,许多先前的方法没有考虑到在收集样本点位置缺失卫星图像的问题。模型性能可能会受到对缺失值敏感的算法的影响(C. Zhang, Zhang, and Tian 2023)。 因此,利用多种高空间分辨率的液相色谱产品和卫星图像是必要的,以收集高质量和较少云覆盖的训练样本。
研究人员在自动收集训练样本的过程中实施了多种方法来去除异常值,这是由于 LC 产品固有的不确定性。Radoux 等(2014)通过形态处理去除了边缘区域的像素,并根据马哈拉诺比斯距离测量排除了具有光谱异常的像素。Zhang 等(2021)根据训练样本的光谱统计分布去除了异常点。Jin 等(2022)使用主成分分析(PCA)减少 68 个光谱特征的维度,并通过统计方法去除异常像素。Wen 等(2022)利用 NDVI 时间序列数据计算每月均值
(
μ
)
(
μ
)
(mu) (\mu) 和标准差(
σ
σ
sigma \sigma ),去除 NDVI 范围外的玉米样本
μ
±
σ
μ
±
σ
mu+-sigma \mu \pm \sigma 。然而,许多异常值去除方法并未考虑时间序列光谱特征,这导致它们无法检测到一年内由于 LC 变化引起的异常。大多数这些方法利用基于统计的异常值去除技术,假设数据来自特定分布(Chandola, Banerjee, 和 Kumar 2009),通常是正态分布。 然而,这一假设在高维真实数据集上往往不成立。甚至 当统计假设可以合理地得到证实时,可以应用几种假设检验统计量来检测异常;选择最佳统计量往往不是一项简单的任务。近年来,异常检测受到了机器学习研究者的更多关注。许多新颖的算法已被提出并应用于各个领域,包括金融欺诈检测、网络病毒攻击预警和自然灾害预防(J. Li et al. 2023;Nassif et al. 2021;Proverbio, Bertola, 和 Smith 2018;Zuo et al. 2023)。遗憾的是,许多先进的异常检测算法尚未用于消除 LC 训练样本中的离群值。与统计技术相比,基于机器学习的异常检测算法可以适应各种类型的数据分布,包括高维复杂情况。机器学习方法具有更广泛的适用性和更强的性能,同时还提供离群值评分,以帮助理解异常的严重性(Han et al. 2022;Nassif et al. 2021)。 特别是,基于集成学习的异常检测算法可以通过减少对单个检测器的依赖来提高检测的准确性和鲁棒性(Ouyang et al. 2021; J. Zhang et al. 2019)。
为了填补这些研究空白,开发了一种自动收集土地覆盖(LC)训练样本的方法。该方法可以减少自动训练样本收集中的不确定性,从而产生更高质量和更具代表性的 LC 训练样本。它适用于具有细致空间分辨率的 LC 分类。主要内容包括以下几点:(1)使用统一的验证数据集评估多个 LC 产品的准确性。(2)根据用户准确性计算类别权重值,并基于 WMV 算法融合多个 LC 产品。(3)从融合的 LC 地图中提取高置信度和无云的稳定区域。随后,使用局部自适应策略收集训练样本。(4)实施基于集成的异常检测算法,利用从 Sentinel-2 影像中提取的时间序列光谱特征识别和去除异常样本。通过这种方法收集的可靠训练样本可用于特定区域的大规模和细尺度 LC 制图。
2. 研究区域和材料
2.1. 研究区域
中国选择了四个地理和气候上截然不同的地区作为研究区域。这四个地区是北京-天津-河北地区(218,000
km
2
km
2
km^(2) \mathrm{km}^{2} )、黑龙江省(473,000 平方公里)、广东省(180,000 平方公里)和北疆(184,000 平方公里,包括博尔塔拉蒙古自治州、伊犁哈萨克自治州、塔城地区、霍城县、可克达拉县、克拉玛依市、石河子市和双河市)。
图 1 显示这些地区位于中国的不同部分。位于中国西北部的北疆地区主要经历温带大陆性气候。这种气候的特点是冬季寒冷,夏季炎热,日温差和年温差显著,年降水量相对较低。北方的京津冀地区和东北的黑龙江省具有温带季风气候。黑龙江位于更高的纬度,冬季更长且更寒冷。位于南部沿海的广东省经历亚热带季风气候,全年气温温暖。比较不同地区的结果可以提供对所提方法概括性的全面理解。
2.2. 数据和预处理
2.2.1. 土地覆盖产品
训练样本是利用 2020 年的多个土地覆盖(LC)产品收集的。使用了四个 LC 产品,即动态世界(DW)、欧洲空间局世界覆盖(ESA)、环境系统研究所土地覆盖(ESRI)和中国土地覆盖数据集(CLCD)(Brown et al. 2022; Zanaga et al. 2021; Karra et al. 2021; J. Yang and Huang 2021)。所有这些产品都可以通过谷歌地球引擎(GEE)访问。空间分辨率为 10 米,CLCD 的分辨率为 30 米。这四个 LC 产品因其精细的分辨率和提供多个参考年份的地图而被选中,这支持了跨不同年份的样本收集。然而,这些 LC 产品都存在偏差和不确定性。
图 1. 四个研究区域的地理位置。(a) 北新疆地区;(b) 黑龙江省;(c) 广东省;(d) 北京-天津-河北地区。 分类系统(不同产品对某些类别有略微不同的定义)是影响不同产品一致性和偏差的重要因素(Hao et al. 2023; Kang et al. 2022; Venter et al. 2022)。例如,稻田和灌溉/淹没农业在 DW 和 ESRI 中被归类为淹水植被,而在 ESA 中则被归类为农田。此外,分类方法、数据来源和预处理技术会影响各种产品之间的一致性(Hao et al. 2023; J. Wang et al. 2022)。具体而言,CLCD 是通过使用来自 GEE 的 335,709 幅 Landsat 图像构建多个时间指标并输入随机森林分类器获得的(J. Yang 和 Huang 2021)。虽然 DW 和 ESRI 产品均源自 Sentinel-2 数据并利用深度学习方法,但它们的数据预处理方法和输入特征有所不同(Venter et al. 2022)。还需要注意的是,上述产品的准确性验证结果是由数据生产者使用不同的验证样本获得的(T. Zhao et al. 2023)。 验证数据集的数量和质量也可能导致评估结果中的错误。
LC 产品的预处理是在 GEE 上进行的。考虑到 DW 提供近实时的 LC 数据, 2020 年 1 月 1 日至 12 月 31 日的年度 DW 数据通过对所有可用数据的每个像素取众数进行合成。LC 产品最初使用中国的边界矢量数据进行裁剪。所有数据通过重投影操作标准化为 WGS1984 坐标系统,具有 10 米的空间分辨率。LC 产品分类系统通过重新分类过程统一。最终的类别代码(像素值)和名称如下:1-树冠,2-灌木地,3-草地,4-农田,5-建筑/不透水区,6-裸地,7-雪和冰,8-水,9-湿地/淹水植被。值得注意的是,ESA 的“草本湿地”和“红树林”类别合并为“湿地”类别。“苔藓和地衣”类别在其他三个 LC 产品中缺失,并且根据 ESA 在中国的分布有限,因此该类别被排除。
2.2.2. 土地覆盖验证数据集
2020 年新开发的分层随机抽样全球验证数据集(SRS_Val 数据集),由 Liu 等人(2023)(https://zenodo.org/records/7846090 , 访问日期:2023 年 6 月 12 日)开发,用于评估 LC 产品的准确性。SRS_Val 数据集是 采用分层等面积随机抽样策略和视觉解读方法建立(T. Zhao et al. 2023)。与之前的验证数据集相比,该数据集增强了异质景观和稀有土地覆盖类型的样本密度。它采用了来自联合国土地覆盖分类系统(UN-LCCS)的标准化分类系统,确保与各种土地覆盖产品的良好兼容性和一致性。尽管整合了多种遥感影像来源并采取严格的质量控制措施以确保 SRS_Val 数据集的高可信度,但仍有一些验证样本存在不确定性。需要注意的是,在国家层面评估 SRS_Val 数据集时,某些类别的样本可能相对较少。
剪裁和重新分类程序也应用于 SRS_Val。“阔叶林”、“针叶林”和类似类别被合并为“树冠”。“雨养农田”和“灌溉农田”被合并为 “农田。” “稀疏植被”和“裸露区域”被合并为“裸地”。由于 SRS_Val 旨在进行全球范围的准确性评估,因此某些类别在中国地区的样本可能有限。为了减轻由于样本有限而导致的准确性评估的不确定性,通过对谷歌地球影像的视觉解读,将样本较少的类别(例如湿地和雪/冰)的数量增加到 300。最终,共有 7,691 个验证样本,如图 2 所示。
2.2.3. 卫星图像
哨兵-2 卫星配备了一种高分辨率多光谱成像仪,称为多光谱成像仪(MSI)。它广泛用于土地监测,提供植被、土壤和水体覆盖、内陆水道和沿海地区的影像(Drusch 等,2012;Phiri 等,2020)。该卫星
图 2. 中国 7691 个土地覆盖验证样本的空间分布。 轨道高度为 786 公里,能够在 13 个光谱波段内捕捉图像,扫描带宽为 290 公里。该卫星单颗的重访周期为 10 天,两个卫星的互补覆盖则为 5 天,导致不同光谱范围内的空间分辨率各异。
哨兵-2 级别 2A 数据作为卫星数据源。选择了 2020 年 3 月至 11 月的哨兵-2 数据,并在 GEE 平台上进行了裁剪。该平台的云去除功能被用来消除云和云影像素,并使用均值函数合成相应的月度图像。
3. 方法
一种方法(ATSC)已被开发用于使用多源自动收集训练样本
LC 产品和时间序列卫星图像。这种方法允许生成高质量和可靠的样本数据集。图 3 显示了 ATSC 方法的技术流程图。多个 LC 产品融合、初步样本收集和光谱特征提取在 GEE 上实施。异常检测算法使用 Python 实现。每个组件的详细信息在以下章节中介绍。
3.1. 融合多源土地覆盖产品
所使用的 LC 产品提供了 LC 类别的地图,只有 DW 额外为每个类别提供置信层。因此,数据融合的 WMV 算法是一种简单且合适的方法。对于简单多数投票算法,所有 LC 产品的投票值相同,均为 1。给定像素的最终分类结果。
图 3. ATSC 方法的技术流程图。
图 4. 用于加权多数投票算法的四种土地覆盖产品每个类别的权重值。 通过选择获得最多票数的类别来确定。需要注意的是,每个 LC 产品的准确性各不相同,各类别之间的分类准确性存在差异。通常需要考虑产品之间的差异,以利用每个产品的优势,实现更有效的组合结果和更高的准确性。这涉及在投票过程中对每个 LC 产品的投票赋予不同的权重,这是一种称为加权多数投票(WMV)的算法(H. Kim et al. 2011;Zhu et al. 2021)。每个像素的最终预测是基于最高的加权票数。WMV 算法的公式如下:
R
k
(
x
)
=
∑
i
=
1
C
i
,
k
=
max
j
=
1
{
R
j
(
x
)
=
∑
i
=
1
w
i
,
j
C
i
,
j
}
R
k
(
x
)
=
∑
i
=
1
C
i
,
k
=
max
j
=
1
R
j
(
x
)
=
∑
i
=
1
w
i
,
j
C
i
,
j
R_(k)(x)=sum_(i=1)C_(i,k)=max_(j=1){R_(j)(x)=sum_(i=1)w_(i,j)C_(i,j)} R_{k}(x)=\sum_{i=1} C_{i, k}=\max _{j=1}\left\{R_{j}(x)=\sum_{i=1} w_{i, j} C_{i, j}\right\}
在这种情况下,
w
i
,
j
w
i
,
j
w_(i,j) w_{i, j} 表示类别
j
j
j j 的 LC 产品
C
i
C
i
C_(i) C_{i} 的权重值。
所有产品各类别的权重值最初设定为 0.25。随后,使用统一的验证数据集(SRS_Val)评估了中国四个产品的准确性。根据用户准确性(UA)调整了初始权重。选择 UA 的原因是验证数据集中样本数量相对有限。生产者准确性(PA)可能会受到类别间样本不平衡的影响。计算权重值的具体过程详见公式(2)。为了测量置信水平, 融合的 LC 分类结果中,每个像素的置信度值被定义为 WMV 算法计算的最高加权投票。四个 LC 产品的分类结果一致性越高,置信度值也越高。
w
i
,
j
=
U
A
(
C
i
,
j
)
∑
i
=
1
U
A
(
C
i
,
j
)
w
i
,
j
=
U
A
C
i
,
j
∑
i
=
1
U
A
C
i
,
j
w_(i,j)=(UA(C_(i,j)))/(sum_(i=1)UA(C_(i,j))) w_{i, j}=\frac{U A\left(C_{i, j}\right)}{\sum_{i=1} U A\left(C_{i, j}\right)}
其中
U
A
(
C
i
,
j
)
U
A
C
i
,
j
UA(C_(i,j)) U A\left(C_{i, j}\right) 代表 LC 产品
C
i
C
i
C_(i) C_{i} 中类别
j
j
j j 的用户准确度,如公式 (3) 所示。其他使用的准确度评估指标包括 PA、总体准确度 (OA) 和 kappa 系数,如公式 (4)-(6) 所示。
U
A
(
class
i
)
=
x
i
i
∑
k
=
1
x
i
k
U
A
class
i
=
x
i
i
∑
k
=
1
x
i
k
UA(" class "_(i))=(x_(ii))/(sum_(k=1)^(x_(ik))) U A\left(\text { class }_{i}\right)=\frac{x_{i i}}{\sum_{k=1}^{x_{i k}}}
P
A
(
class
i
)
=
x
i
i
∑
k
=
1
n
x
k
i
O
A
=
∑
k
=
1
n
x
k
k
∑
i
,
k
=
1
n
x
i
k
Kарра
=
N
∑
i
=
1
n
x
i
i
−
∑
k
=
1
n
(
∑
i
=
1
n
x
i
k
∙
∑
i
=
1
n
x
k
i
)
N
2
−
∑
k
=
1
n
(
∑
i
=
1
n
x
i
k
∙
∑
i
=
1
n
x
k
i
)
P
A
class
i
=
x
i
i
∑
k
=
1
n
x
k
i
O
A
=
∑
k
=
1
n
x
k
k
∑
i
,
k
=
1
n
x
i
k
Kарра
=
N
∑
i
=
1
n
x
i
i
−
∑
k
=
1
n
∑
i
=
1
n
x
i
k
∙
∑
i
=
1
n
x
k
i
N
2
−
∑
k
=
1
n
∑
i
=
1
n
x
i
k
∙
∑
i
=
1
n
x
k
i
{:[PA(" class "_(i))=(x_(ii))/(sum_(k=1)^(n)x_(ki))],[OA=(sum_(k=1)^(n)x_(kk))/(sum_(i,k=1)^(n)x_(ik))],[" Kарра "=(Nsum_(i=1)^(n)x_(ii)-sum_(k=1)^(n)(sum_(i=1)^(n)x_(ik)∙sum_(i=1)^(n)x_(ki)))/(N^(2)-sum_(k=1)^(n)(sum_(i=1)^(n)x_(ik)∙sum_(i=1)^(n)x_(ki)))]:} \begin{gathered}
P A\left(\text { class }_{i}\right)=\frac{x_{i i}}{\sum_{k=1}^{n} x_{k i}} \\
O A=\frac{\sum_{k=1}^{n} x_{k k}}{\sum_{i, k=1}^{n} x_{i k}} \\
\text { Kарра }=\frac{N \sum_{i=1}^{n} x_{i i}-\sum_{k=1}^{n}\left(\sum_{i=1}^{n} x_{i k} \bullet \sum_{i=1}^{n} x_{k i}\right)}{N^{2}-\sum_{k=1}^{n}\left(\sum_{i=1}^{n} x_{i k} \bullet \sum_{i=1}^{n} x_{k i}\right)}
\end{gathered} а р р а
其中
N
N
N N 是所有验证样本的数量;
n
n
n n 是矩阵的行/列数;
x
i
i
x
i
i
x_(ii) x_{i i} 是 混淆矩阵中第
i
i
i i 行,第
i
i
i i 列的元素;而
x
i
k
x
i
k
x_(ik) x_{i k} 是混淆矩阵中第
i
i
i i 行,第
k
k
k k 列的元素(
x
k
k
x
k
k
x_(kk) x_{k k} 和
x
k
i
x
k
i
x_(ki) x_{k i} 是类似的)。
3.2. 通过本地自适应策略收集初步训练样本
为了确保收集高度可靠的训练样本,提取在土地覆盖分类结果中具有高置信度且云层覆盖影响最小的稳定区域是至关重要的。采用了两个约束条件来提取高置信度区域:(1)融合土地覆盖产品后,像素的置信值(即最高加权投票)大于 0.7;(2)对于每个像素,四个土地覆盖产品中的至少三个的分类结果一致。这两个约束条件有助于减轻特定类别中某一土地覆盖产品准确性差所带来的负面影响。这种方法还增强了从分类准确性和一致性差的类别中收集的训练样本的可信度。随后应用形态处理(即腐蚀)来去除边缘区域的像素,从而减少边缘效应造成的不确定性(Wen et al. 2022)。为了确保收集的训练样本受到的云层覆盖掩膜影响最小,从时间序列卫星图像中提取了没有数据缺口的区域。训练样本是从最终提取的稳定区域中收集的。
在提取稳定区域后,采用局部自适应策略收集初步训练样本。最初为每个研究区域生成了一个网格数据集(每个网格为
5
km
×
5
km
5
km
×
5
km
5kmxx5km 5 \mathrm{~km} \times 5 \mathrm{~km} )。在每个网格内为每个土地覆盖(LC)类别收集一个样本点。选择这种策略是因为同一区域内的相同土地覆盖类别可能会受到地理位置影响而表现出光谱差异。因此,通过逐网格收集训练样本,所收集样本的空间分布变得更加均匀和具有代表性。多次实验表明,将网格大小设置为 5 公里可以收集到足够的训练样本,以实现大区域和城市级别的土地覆盖制图。此外,在 GEE 上执行时,由于收集样本数量庞大,该过程并不会显著消耗过多的计算时间和资源。
此外,某些类别,如湿地,在该地区的空间分布可能相对稀疏。从这些类别获得的初步样本的最终数量可能有限。为了解决这个问题,设定了初步样本数量的初始阈值。考虑到不同地区的面积可能差异显著,因此有必要为每个地区设定不同的阈值(见公式(7))。如果某一类别收集的初步样本总数低于设定的阈值,则在每个网格内将收集更多该类别的样本。为了避免对某一类别的初步样本收集过于密集或过于接近,这可能会影响模型的泛化能力和分类准确性,因此每个网格收集的样本最大数量设定为 5。如果在特定类别的每个网格中收集的样本超过五个,即使总样本数量未达到设定阈值,该类别的采样也将停止。 值得注意的是,该策略中的网格大小和样本数量阈值仍然可以根据研究领域和具体应用需求由用户进行修改。
X
=
500
+
500
⋅
S
−
10
10
X
=
500
+
500
⋅
S
−
10
10
X=500+500*(S-10)/(10) X=500+500 \cdot \frac{S-10}{10}
X
X
X X 表示初始阈值,
S
S
S S 表示该地区的面积(以万平方公里为单位),
x
x
x x 表示上取整函数。
3.3. 利用时间序列频谱特征过滤异常样本
从三月到十一月的每月合成 Sentinel-2 影像被用来计算五个额外的光谱指数,包括归一化差异植被指数(NDVI)、增强植被指数(EVI)、归一化差异水体指数(NDWI)、归一化差异建筑指数(NDBI)和裸土指数(BSI)。在收集初步训练样本后,为每个月提取了表 1 中所示的 11 个光谱特征,总共得到 99 个特征。时间序列光谱特征被用来过滤初步训练样本中的异常样本。
表 1. 从 Sentinel-2 图像中提取的光谱特征,用于过滤异常样本。
缩写
配方
参考
B2
蓝色
B3
绿色
B4
红色
B8
NIR
B11
SWIR1
塔克(1979)
B12
SWIR2
胡特等人(1997)
NDVI
(
(
( ( NIR - 红色
)
/
(
)
/
(
)//( ) /( NIR + 红色
)
)
) )
高 (1996)
EVI
2.5
×
(
2.5
×
(
2.5 xx( 2.5 \times( NIR - 红色
)
/
(
)
/
(
)//( ) /( NIR
+
6
×
+
6
×
+6xx +6 \times 红色
−
7.5
×
−
7.5
×
-7.5 xx -7.5 \times 蓝色 +1
)
)
)
)
)) ))
Zha et al., (2003)
NDWI
(
(
( ( 绿色 - NIR)/(绿色 + NIR)
Diek 等人, (2017)
NDBI
(
(
( ( SWIR - NIR)/(SWIR + NIR)
BSI
(
(
( ( SWIR2 + 红色
)
−
(
)
−
(
)-( )-( NIR + 蓝色
)
/
(
S
W
I
R
2
+
)
/
(
S
W
I
R
2
+
)//(SWIR2+ ) /(S W I R 2+ 红色
)
+
(
)
+
(
)+( )+( NIR + 蓝色)
Abbreviation Formulation Reference
B2 Blue
B3 Green
B4 Red
B8 NIR
B11 SWIR1 Tucker (1979)
B12 SWIR2 Huete et al., (1997)
NDVI ( NIR - Red )//( NIR + Red ) Gao (1996)
EVI 2.5 xx( NIR - Red )//( NIR +6xx Red -7.5 xx Blue +1)) Zha et al., (2003)
NDWI ( Green - NIR)/(Green + NIR) Diek et al., (2017)
NDBI ( SWIR - NIR)/(SWIR + NIR)
BSI ( SWIR2 + Red )-( NIR + Blue )//(SWIR2+ Red )+( NIR + Blue) | Abbreviation | Formulation | Reference |
| :--- | :---: | :---: |
| B2 | Blue | |
| B3 | Green | |
| B4 | Red | |
| B8 | NIR | |
| B11 | SWIR1 | Tucker (1979) |
| B12 | SWIR2 | Huete et al., (1997) |
| NDVI | $($ NIR - Red $) /($ NIR + Red $)$ | Gao (1996) |
| EVI | $2.5 \times($ NIR - Red $) /($ NIR $+6 \times$ Red $-7.5 \times$ Blue +1$))$ | Zha et al., (2003) |
| NDWI | $($ Green - NIR)/(Green + NIR) | Diek et al., (2017) |
| NDBI | $($ SWIR - NIR)/(SWIR + NIR) | |
| BSI | $($ SWIR2 + Red $)-($ NIR + Blue $) /(S W I R 2+$ Red $)+($ NIR + Blue) | |
从三月到十一月的卫星图像时间序列经过仔细考虑后被选定。首先,这段时间涵盖了大多数植被类型(如树木、灌木和草地)的生长季节,能够准确反映不同类别的特征。其次,对于某些土地覆盖类型,如建筑区和裸地,季节变化相对较小,这段时间的数据范围足以描述它们的特征。此外,中国中高纬度和高海拔的某些地区可能会受到冬季积雪和植被落叶的影响,这可能无法很好地代表地表特征。因此,选择三月至十一月的数据可以减少这种干扰,更准确地反映地表特征。
3.3.2. 异常检测算法
3.3.2.1. 局部离群因子(LOF)算法。采用了一种集成策略进行异常检测,以识别初步样本中的异常样本。LOF 作为基础异常检测器,通过计算每个数据点与其邻近点之间的密度差异来确定异常程度(Breunig 等,2000)。LOF 算法不仅考虑单个样本点的密度,还考虑邻近点的密度,使其适应具有不同密度和分布的数据。因此,它适用于地理环境中同一 LC 类别的光谱特征可能因气候、位置和其他因素的差异而变化的情况。此外,LOF 算法在高维数据集上也具有鲁棒性,无需对数据分布做出明确假设。可以识别不同类型的离群点,包括全局离群点和局部离群点。 检测到(D. Kim, Lee 和 Lee 2020)。LOF 算法在下面详细描述,算法中计算的距离均指派生变量特征空间中的距离。
对于给定的样本点
x
i
x
i
x_(i) x_{i} ,让
D
k
(
x
i
)
D
k
x
i
D_(k)(x_(i)) D_{k}\left(x_{i}\right) 表示
x
i
x
i
x_(i) x_{i} 与其 k 个最近邻之间的距离,并让
L
k
(
x
i
)
L
k
x
i
L_(k)(x_(i)) L_{k}\left(x_{i}\right) 表示在 k 个最近邻距离内的点集。那么,两个样本点
x
i
x
i
x_(i) x_{i} 和
x
j
x
j
x_(j) x_{j} 之间的可达距离,记作
R
k
(
x
i
,
x
j
)
R
k
x
i
,
x
j
R_(k)(x_(i),x_(j)) R_{k}\left(x_{i}, x_{j}\right) ,计算如下:
R
k
(
x
i
,
x
j
)
=
max
{
dist
(
x
i
,
x
j
)
,
D
k
(
x
j
)
}
R
k
x
i
,
x
j
=
max
dist
x
i
,
x
j
,
D
k
x
j
R_(k)(x_(i),x_(j))=max{dist(x_(i),x_(j)),D_(k)(x_(j))} R_{k}\left(x_{i}, x_{j}\right)=\max \left\{\operatorname{dist}\left(x_{i}, x_{j}\right), D_{k}\left(x_{j}\right)\right\}
当
j
j
j j 位于密集区域时,而
x
i
x
i
x_(i) x_{i} 远离
x
j
x
j
x_(j) x_{j} ,可达距离度量等于实际距离。如果
j
j
j j 位于稀疏区域,可达距离度量将通过其 k 个最近邻距离进行平滑。这使我们能够通过对其 k 个最近邻点的可达距离进行平均,来计算
x
i
x
i
x_(i) x_{i} 的平均可达距离
(
A
R
k
(
x
i
)
)
A
R
k
x
i
(AR^(k)(x_(i))) \left(A R^{k}\left(x_{i}\right)\right) :
A
R
k
(
x
i
)
=
M
E
A
N
j
∈
L
k
(
x
i
)
R
k
(
x
i
,
x
j
)
A
R
k
x
i
=
M
E
A
N
j
∈
L
k
x
i
R
k
x
i
,
x
j
AR^(k)(x_(i))=MEAN_(j inL_(k)(x_(i)))R_(k)(x_(i),x_(j)) A R^{k}\left(x_{i}\right)=M E A N_{j \in L_{k}\left(x_{i}\right)} R_{k}\left(x_{i}, x_{j}\right)
局部离群因子是相对于其
k
k
k k 个最近邻
x
i
x
i
x_(i) x_{i} 的
A
R
k
(
x
i
)
A
R
k
x
i
AR^(k)(x_(i)) A R^{k}\left(x_{i}\right) 的平均比率。
L
O
F
k
(
x
i
)
=
M
E
A
N
y
i
∈
L
k
(
x
i
)
A
R
k
(
x
i
)
A
R
k
(
x
j
)
L
O
F
k
x
i
=
M
E
A
N
y
i
∈
L
k
x
i
A
R
k
x
i
A
R
k
x
j
LOF_(k)(x_(i))=MEAN_(y_(i)inL_(k)(x_(i)))(AR^(k)(x_(i)))/(AR^(k)(x_(j))) L O F_{k}\left(x_{i}\right)=M E A N_{y_{i} \in L_{k}\left(x_{i}\right)} \frac{A R^{k}\left(x_{i}\right)}{A R^{k}\left(x_{j}\right)}
用于异常检测的光谱特征有很多,这些特征可能表现出高度相关性(尤其是在相邻月份的相同波长带)。使用传统的欧几里得距离度量可能无法获得令人满意的结果。因此,马哈拉诺比斯距离被用作 LOF 算法的距离度量。
计算马哈拉诺比斯距离的公式如下(De Maesschalck, Jouan-Rimbaud, 和 Massart 2000):
d
M
(
x
i
,
x
j
)
=
(
x
i
−
x
j
)
T
Σ
−
1
(
x
i
−
x
j
)
d
M
x
i
,
x
j
=
x
i
−
x
j
T
Σ
−
1
x
i
−
x
j
d_(M)(x_(i),x_(j))=sqrt((x_(i)-x_(j))^(T)Sigma^(-1)(x_(i)-x_(j))) d_{M}\left(x_{i}, x_{j}\right)=\sqrt{\left(x_{i}-x_{j}\right)^{T} \Sigma^{-1}\left(x_{i}-x_{j}\right)}
其中
Σ
Σ
Sigma \Sigma 是向量
x
i
x
i
x_(i) x_{i} 和
x
j
x
j
x_(j) x_{j} 的协方差矩阵。
3.3.2.2. 基于集成的异常检测算法
节奏:LSCP。作为一种异常检测的集成方法,Zhao 等人(2019)提出的局部选择组合并行异常集成(LSCP)被采用。LSCP 首先为测试实例定义一个局部区域,然后通过测量相对于伪真实值的相似性来识别该局部区域中最有能力的基础检测器。通过这一集成过程可以实现更稳健的预测(Y. Zhao 等,2019)。具体步骤如下: 最初,使用训练样本
X
train
∈
R
n
×
d
X
train
∈
R
n
×
d
X_("train ")inR^(n xx d) X_{\text {train }} \in R^{n \times d} 训练一组
r
r
r r 模型,得到一个聚合的异常值评分矩阵
O
(
X
train
)
O
X
train
O(X_("train ")) O\left(X_{\text {train }}\right) 。在公式(12)中,
C
r
(
⋅
)
C
r
(
⋅
)
C_(r)(*) C_{r}(\cdot) 表示来自第
r
r
r r 个基础检测器的评分向量。每个检测器评分
C
r
(
X
train
)
C
r
X
train
C_(r)(X_("train ")) C_{r}\left(X_{\text {train }}\right) 通过 Z-score 标准化进行标准化(Aggarwal 和 Sathe 2015;Zimek、Campello 和 Sander 2014)。
O
(
X
train
)
=
[
C
1
(
X
train
)
,
…
,
C
r
(
X
train
)
]
O
X
train
=
C
1
X
train
,
…
,
C
r
X
train
O(X_("train "))=[C_(1)(X_("train ")),dots,C_(r)(X_("train "))] O\left(X_{\text {train }}\right)=\left[C_{1}\left(X_{\text {train }}\right), \ldots, C_{r}\left(X_{\text {train }}\right)\right]
(ii) 生成用于评估的伪真实值。伪真实值
O
(
X
train
)
O
X
train
O(X_("train ")) O\left(X_{\text {train }}\right) 是通过在检测器中使用最大分数生成的(如原文中所述)。这在公式 (13) 中进行了概括,其中
φ
φ
varphi \varphi 代表在所有基础检测器中进行的聚合。
target
=
φ
(
O
(
X
train
)
)
∈
R
n
×
1
target
=
φ
O
X
train
∈
R
n
×
1
" target "=varphi(O(X_("train ")))inR^(n xx1) \text { target }=\varphi\left(O\left(X_{\text {train }}\right)\right) \in R^{n \times 1}
(iii) 本地区域定义。测试实例
X
test
(
j
)
X
test
(
j
)
X_("test ")^((j)) X_{\text {test }}^{(j)} 的本地区域
ψ
j
ψ
j
psi_(j) \psi_{j} 定义为其 k 个最近训练对象的集合。正式表示为 (14)。该过程涉及随机选择
t
t
t t 组
d
/
2
d
/
2
d//2 d / 2 到
d
d
d d 维的。 特征子空间。在每个子空间中,识别出与训练样本中的
X
test
(
j
)
X
test
(
j
)
X_("test ")^((j)) X_{\text {test }}^{(j)} 最近的
k
k
k k 个邻居样本。然后,出现次数超过
t
/
2
t
/
2
t//2 t / 2 次的训练对象被纳入
k
N
N
ens
(
j
)
k
N
N
ens
(
j
)
kNN_("ens ")^((j)) k N N_{\text {ens }}^{(j)} ,从而定义了一个局部区域。根据原始文章,
k
k
k k 的值设定为训练样本的
10
%
10
%
10% 10 \% ,限制在[30; 100]的范围内。
ψ
j
=
{
x
i
∣
x
i
∈
X
train
,
x
i
∈
k
N
N
e
n
s
(
j
)
}
ψ
j
=
x
i
∣
x
i
∈
X
train
,
x
i
∈
k
N
N
e
n
s
(
j
)
psi_(j)={x_(i)∣x_(i)inX_("train "),x_(i)in kNN_(ens)^((j))} \psi_{j}=\left\{x_{i} \mid x_{i} \in X_{\text {train }}, x_{i} \in k N N_{e n s}^{(j)}\right\}
(iv)模型选择与组合。一旦确定了局部空间,就可以利用训练好的基础检测器获得局部异常分数矩阵
O
(
ψ
j
)
O
ψ
j
O(psi_(j)) O\left(\psi_{j}\right) 。通过从目标数据集中提取与局部区域
j
j
j j 相关的值,获得局部伪真实目标
ψ
j
ψ
j
^(psi_(j)) ^{\psi_{j}} 。LSCP 通过评估局部伪真实目标
ψ
j
ψ
j
^(psi_(j)) { }^{\psi_{j}} 与局部检测器分数
C
r
(
X
train
ψ
j
)
C
r
X
train
ψ
j
C_(r)(X_("train ")^(psi_(j))) C_{r}\left(X_{\text {train }}^{\psi_{j}}\right) 之间的皮尔逊相关性,来衡量每个基础检测器的局部能力(Schubert 等,2012)。最后,使用选定的
x
x
x x 个检测器,计算测试数据
X
test
(
j
)
X
test
(
j
)
X_("test ")^((j)) X_{\text {test }}^{(j)} 的异常分数,这些
x
x
x x 个异常分数的平均值作为测试数据的最终异常分数。
O
(
ψ
j
)
=
[
C
1
(
ψ
j
)
,
…
,
C
r
(
ψ
j
)
]
∈
R
|
ψ
j
|
×
R
O
ψ
j
=
C
1
ψ
j
,
…
,
C
r
ψ
j
∈
R
ψ
j
×
R
O(psi_(j))=[C_(1)(psi_(j)),dots,C_(r)(psi_(j))]inR^(|psi_(j)|xx R) O\left(\psi_{j}\right)=\left[C_{1}\left(\psi_{j}\right), \ldots, C_{r}\left(\psi_{j}\right)\right] \in R^{\left|\psi_{j}\right| \times R}
target
ψ
j
=
{
target
x
i
∣
x
i
∈
ψ
j
}
∈
R
|
ψ
j
|
×
1
target
ψ
j
=
target
x
i
∣
x
i
∈
ψ
j
∈
R
ψ
j
×
1
" target "^(psi_(j))={" target "_(x_(i))∣x_(i)inpsi_(j)}inR^(|psi_(j)|xx1) \text { target }^{\psi_{j}}=\left\{\text { target }_{x_{i}} \mid x_{i} \in \psi_{j}\right\} \in R^{\left|\psi_{j}\right| \times 1}
LSCP 的性能通过与各种传统的全局组合框架进行比较来评估。这些框架包括以下内容(Aggarwal 和 Sathe 2015):(1) 平均组合:根据每个基检测器生成的平均分数为每个数据点分配一个异常值分数。(2) 最大组合:使用最大分数作为异常值分数。(3) 最大平均值(AOM)组合:将基检测器随机分为预定义的子集,最终分数通过对每个子集中的最大分数进行平均计算。(4) 平均最大值(MOA)组合:最终 得分被定义为每个子集中的平均得分的最大值。
上述所有组合框架都利用相同的基础检测器池以确保一致性。更高的最终异常值分数表明更有可能是异常点。通常需要设置一个阈值来区分异常样本。本研究中使用了曲线下面积百分比(AUCP)算法来计算阈值。曲线下面积用于评估一种非参数方法,以阈值化由异常值分数生成的分数。异常值被设置为超出核密度估计(KDE)AUC 小于(均值 + abs(均值中位数))百分比的总 KDE AUC 的任何值(Ren et al. 2019)。曲线下面积(AUC)定义如下:
A
U
C
=
lim
x
→
inf
∑
i
=
1
n
f
(
x
)
δ
x
A
U
C
=
lim
x
→
inf
∑
i
=
1
n
f
(
x
)
δ
x
AUC=lim_(x rarr" inf ")sum_(i=1)^(n)f(x)delta x A U C=\lim _{x \rightarrow \text { inf }} \sum_{i=1}^{n} f(x) \delta x
f
(
x
)
f
(
x
)
f(x) f(x) 是曲线,
δ
x
δ
x
delta x \delta x 是矩形的增量步长,其面积将被求和。AUCP 方法使用在
0
−
1
0
−
1
0-1 0-1 范围内的标准化决策分数的概率密度函数生成曲线。这是通过核密度估计完成的。
召回率和精确率用于评估这些算法的效果(Ma et al. 0000)。两个指标的计算结果如方程(18)和(19)所示:
Recall
=
T
P
T
P
+
F
N
Precision
=
T
P
T
P
+
F
P
Recall
=
T
P
T
P
+
F
N
Precision
=
T
P
T
P
+
F
P
{:[" Recall "=(TP)/(TP+FN)],[" Precision "=(TP)/(TP+FP)]:} \begin{gathered}
\text { Recall }=\frac{T P}{T P+F N} \\
\text { Precision }=\frac{T P}{T P+F P}
\end{gathered}
其中
T
P
T
P
TP T P 是被判断为异常样本的异常样本数量,
F
N
F
N
FN F N 是被判断为正常样本的异常样本数量,FP 是被判断为异常样本的正常样本数量。
4. 结果与讨论
4.1. 多源土地覆盖产品的准确性评估
中国四种 LC 产品的分类准确性通过 SRS_Val 数据集进行了验证,结果如表 2 所示。ESA 和 CLCD 的总体精度相对较高,超过
70
%
70
%
70% 70 \% 。DW 和 ESRI 的总体精度相对较低,其中 ESRI 最低,为 59.93%,kappa 系数为 0.523。
不同土地覆盖(LC)类别的准确性也存在显著差异。由于在国家层面上验证样本的分布相对稀疏,因此使用用户精度(UA)作为不同类别的准确性指标。表 2 显示,树冠、建筑区、裸地、水体以及雪和冰等类别的分类准确性相对较高。然而,某些类别如灌木丛和湿地的分类准确性在所有产品中都不理想。草地的分类准确性仅在 ESA 和 CLCD 中较高。某些类别的低分类准确性以及不同产品之间类别定义的差异可能会影响所收集样本的可靠性(Venter et al. 2022; H. Yang et al. 2017)。因此,融合多源土地覆盖产品对于收集可靠的训练样本是必要的。
表 2. 四种土地覆盖产品的准确性统计。
班级
DW
ESA
ESRI
CLCD
UA (%)
PA (%)
UA (%)
PA (%)
UA (%)
PA (%)
UA (%)
PA (%)
树冠覆盖
89.39
70.72
91.53
75.25
86.89
80.21
91.46
79.79
灌木丛
18.37
11.09
3.03
47.37
34.00
5.82
6.69
46.51
草原
15.86
77.78
69.71
59.13
8.40
75.76
79.50
64.09
耕地
56.02
87.73
66.80
91.25
60.69
90.57
83.59
82.06
建筑面积
92.21
43.43
70.13
78.55
93.83
38.18
70.78
62.29
光秃的土地
94.43
55.92
88.39
50.17
53.91
66.24
65.93
78.48
雪和冰
72.29
15.92
79.09
99.56
83.67
96.91
82.09
97.98
水
89.30
61.52
86.33
77.78
89.33
65.53
84.56
81.29
湿地
18.58
94.83
33.22
89.09
29.67
82.41
8.33
100.00
OA (%)
62.62
73.22
59.93
77.09
卡帕
0.540
0.666
0.523
0.709
Class DW ESA ESRI CLCD
UA (%) PA (%) UA (%) PA (%) UA (%) PA (%) UA (%) PA (%)
Tree cover 89.39 70.72 91.53 75.25 86.89 80.21 91.46 79.79
Shrubland 18.37 11.09 3.03 47.37 34.00 5.82 6.69 46.51
Grassland 15.86 77.78 69.71 59.13 8.40 75.76 79.50 64.09
Cropland 56.02 87.73 66.80 91.25 60.69 90.57 83.59 82.06
Built area 92.21 43.43 70.13 78.55 93.83 38.18 70.78 62.29
Bare land 94.43 55.92 88.39 50.17 53.91 66.24 65.93 78.48
Snow and ice 72.29 15.92 79.09 99.56 83.67 96.91 82.09 97.98
Water 89.30 61.52 86.33 77.78 89.33 65.53 84.56 81.29
Wetland 18.58 94.83 33.22 89.09 29.67 82.41 8.33 100.00
OA (%) 62.62 73.22 59.93 77.09
Kappa 0.540 0.666 0.523 0.709 | Class | DW | | ESA | | ESRI | | CLCD | |
| :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| | UA (%) | PA (%) | UA (%) | PA (%) | UA (%) | PA (%) | UA (%) | PA (%) |
| Tree cover | 89.39 | 70.72 | 91.53 | 75.25 | 86.89 | 80.21 | 91.46 | 79.79 |
| Shrubland | 18.37 | 11.09 | 3.03 | 47.37 | 34.00 | 5.82 | 6.69 | 46.51 |
| Grassland | 15.86 | 77.78 | 69.71 | 59.13 | 8.40 | 75.76 | 79.50 | 64.09 |
| Cropland | 56.02 | 87.73 | 66.80 | 91.25 | 60.69 | 90.57 | 83.59 | 82.06 |
| Built area | 92.21 | 43.43 | 70.13 | 78.55 | 93.83 | 38.18 | 70.78 | 62.29 |
| Bare land | 94.43 | 55.92 | 88.39 | 50.17 | 53.91 | 66.24 | 65.93 | 78.48 |
| Snow and ice | 72.29 | 15.92 | 79.09 | 99.56 | 83.67 | 96.91 | 82.09 | 97.98 |
| Water | 89.30 | 61.52 | 86.33 | 77.78 | 89.33 | 65.53 | 84.56 | 81.29 |
| Wetland | 18.58 | 94.83 | 33.22 | 89.09 | 29.67 | 82.41 | 8.33 | 100.00 |
| OA (%) | 62.62 | | 73.22 | | 59.93 | | 77.09 | |
| Kappa | 0.540 | | 0.666 | | 0.523 | | 0.709 | |
OA:总体准确率;UA:用户准确率;PA:生产者准确率。
图 5. 融合四种土地覆盖产品的结果的置信值。请注意,每个像素的置信值被定义为加权多数投票算法计算的最高加权投票。 (a) 北疆地区;(b) 黑龙江省;(c) 广东省;(d) 京津冀地区。
4.2. 多源土地覆盖产品的融合
4.2.1. 融合四种土地覆盖产品结果的置信值
如图 4 所示,针对每个产品的权重值是基于 UA 计算的。值得注意的是,使用这种方法计算的权重值可能导致某个类别的 UA 较低,但其权重值却较高。例如,尽管灌木丛的 UA 较低。 在所有产品中,其在 DW 和 ESRI 中的权重值较高。应用 WMV 算法时,将分类结果归类为灌木林的概率更大。然而,最终收集的训练样本的可靠性并未受到该问题的显著影响。这些不确定区域随后将通过对 WMV 算法结果施加约束来移除,然后再收集初步训练样本。
由于在中国不同地理位置预先选择了四个示例区域,后续实验主要集中在这四个区域。如图 5 所示,每个像素的置信值被定义为 WMV 算法计算的最高加权投票。置信值分为四个级别:低置信度(值小于 0.4,表示分类结果一致性低)、中低置信度(值在 0.4 到 0.7 之间)、中高置信度(值在 0.7 到 1.0 之间)和高置信度(值为 1,表示所有产品的分类结果完全一致)。图 5 显示,北新疆的高置信度区域相对稀疏,主要包括一些南部、东部和北部地区。北新疆的许多区域被分类为中高置信度,而中低置信度区域则更为集中,倾向于形成条带状模式。在黑龙江省,高置信度区域主要位于西部和南部,而中高置信度区域则集中在北部。 黑龙江省的部分北部和西部地区表现出中低信心。在广东省,除了南部沿海等特定区域显示中低信心外,大部分地区表现出高信心。北京-天津-河北地区的高信心区域主要集中在东南部,而北部和西部地区则主要表现出中高信心值。
总体而言,四个区域中低信心区域较为稀少,大多数地区的信心值超过 0.7,表明在宏观尺度上具有高信心。信心值的空间分布模式与地理环境特征密切相关。农田、树木覆盖、建筑区、水域和雪/冰在大多数地区表现出高信心,达到了 1 的信心值,表明分类结果可靠。这些地区的土地覆盖(LC)稳定,并且在遥感图像中易于识别。相反,某些地区在灌木丛、草地、裸地和湿地等类别上显示出相对较低的信心值,表明不同土地覆盖产品之间的分类不一致。这些区域的低信心值主要归因于光谱和纹理特征的相似性以及高。 这些类别的语义相似性(H. Wang et al. 2022)。不同土地覆盖(LC)产品中草地-灌木地和湿地-草地的定义差异导致分类结果的混淆(Baig et al. 2022)。此外,在土地覆盖类别复杂和地球表面空间异质性高的区域,以及土地特征的边缘区域,置信值往往较低。这主要是由于像素识别的不确定性、类别定义的差异以及边缘效应(例如混合像素或区域),导致不同土地覆盖产品之间的空间一致性差(Hao et al. 2023;Radoux et al. 2014)。置信值较低的区域可能会影响训练样本收集的质量。建议避免在这些区域内收集训练样本。此外,如果特定土地覆盖类别中置信值较低的区域比例显著,收集到的可靠训练样本数量也可能受到影响。
4.2.2. 使用加权多数投票算法的土地覆盖图
WMV 算法融合的分类结果对应于获得最高加权投票的 LC 类别。使用 WMV 算法生成的 LC 地图,如图 6 所示,表现出显著的区域差异。北新疆地区以草地、裸地和农田为主,西部有艾丁湖(新疆最大的盐水湖)和赛里木湖。北新疆的高海拔地区有大量的永久性雪和冰覆盖。黑龙江省以广泛的农田和树木为特征,西部地区水域和湿地集中。广东省大部分地区以树木为主,还有众多河流和湖泊。广东南部的珠江三角洲地区由于经济发达,建筑区域密度较高。在京津冀地区,农田最为广泛,集中在东南部,而北部和中西部则以树木和草地为主。北京和天津的建筑区域特别集中且广泛。
4.3. 初步训练样本的收集
当地自适应策略的初步训练样本收集结果如表 3 所示
图 6. 使用加权多数投票算法的土地覆盖图。(a) 北新疆地区;(b) 黑龙江省;(c) 广东省;(d) 京津冀地区。 在提取稳定区域后,黑龙江省、广东省和京津冀地区收集了大量的树冠、农田和建筑/不透水区域样本,因为这些类别的广泛存在。大多数草地和裸地样本是在新疆北部收集的。然而,一些类别的收集样本较少,特别是雪和冰,这些样本仅在新疆北部收集。湿地样本在这三个地区相对稀缺。
黑龙江省的样本相对较多。特定区域收集的灌木林和草原样本相对较少。例如,黑龙江省仅收集了 8 个灌木林样本,而广东省收集了 119 个草原样本。这些情况下样本稀缺主要归因于这些类别的空间分布有限以及分类结果的不确定性较高。此外,该方法在采样前从 3 月到 11 月提取无云区域,这影响了
表 3. 四个地区通过地方适应策略收集的各种土地覆盖类别的初步训练样本数量。
班级
北新疆
黑龙江
广东
京津冀
树冠覆盖
2874
16274
6683
5571
灌木丛
1129
8
1157
2443
草原
3797
2724
119
2953
耕地
2571
13764
5551
8607
建筑面积
2083
10915
5946
8510
光秃的土地
5689
2472
2439
2339
雪和冰
1406
0
0
0
水
1352
7472
4949
4070
湿地
386
2700
251
701
总计
21287
56329
27095
35194
Class Northern Xinjiang Heilongjiang Guangdong Beijing-Tianjin-Hebei
Tree cover 2874 16274 6683 5571
Shrubland 1129 8 1157 2443
Grassland 3797 2724 119 2953
Cropland 2571 13764 5551 8607
Built area 2083 10915 5946 8510
Bare land 5689 2472 2439 2339
Snow and ice 1406 0 0 0
Water 1352 7472 4949 4070
Wetland 386 2700 251 701
Total 21287 56329 27095 35194 | Class | Northern Xinjiang | Heilongjiang | Guangdong | Beijing-Tianjin-Hebei |
| :--- | :---: | :---: | :---: | :---: |
| Tree cover | 2874 | 16274 | 6683 | 5571 |
| Shrubland | 1129 | 8 | 1157 | 2443 |
| Grassland | 3797 | 2724 | 119 | 2953 |
| Cropland | 2571 | 13764 | 5551 | 8607 |
| Built area | 2083 | 10915 | 5946 | 8510 |
| Bare land | 5689 | 2472 | 2439 | 2339 |
| Snow and ice | 1406 | 0 | 0 | 0 |
| Water | 1352 | 7472 | 4949 | 4070 |
| Wetland | 386 | 2700 | 251 | 701 |
| Total | 21287 | 56329 | 27095 | 35194 |
收集的样本数量。四个研究区域在全年内受到云层覆盖的影响较小,从而减少了对样本收集数量的影响。然而,在许多其他地区,特别是中国南方,夏季云层覆盖显著,这可能导致合成的月度卫星图像中出现大量数据缺口。为了解决这个问题,最佳解决方案是排除那些数据缺口较大的月份的卫星图像。仅使用数据缺口较少月份的合成图像,并提取无云区域进行初步样本收集。在使用收集的训练样本进行土地覆盖分类时也是如此。
训练样本的质量和数量对训练分类模型至关重要(Mellor et al. 2015)。本文描述的样本收集策略能够收集可靠且均匀分布的初步训练样本。然而,初步样本的数量可能会因研究区域而显著变化,这可能导致样本不平衡。不平衡的训练样本是指某一或多个类别的训练样本显著多于或少于其他类别。这可能导致稀有的土地覆盖类型相对于更丰富的类别被低估,从而降低整体分类准确性(Estabrooks, Jo, 和 Japkowicz 2004;Mellor et al. 2015)。已经探索了诸如对多数类别进行下采样(Freeman, Moisen, 和 Frescino 2012)和对少数类别进行过采样(Ling 和 Li 1998)等技术,以缓解不平衡训练样本的问题。因此,用户在应用我们的样本收集策略时,可能需要根据具体的研究区域和分类模型进行调整。例如,用户可以增加每个网格收集的样本数量,以便于样本较少的类别,或调整网格大小(本文设定为 5 公里)以 增加或减少某些类别收集的样本数量。
收集的初步训练样本的准确性通过对来自四个地区的 6671 个随机选择样本的视觉解读进行了验证,使用了在线卫星图像,如谷歌地球和必应地图。每个地区随机选择的样本数量范围从 1606 到 1739。还提取和分析了 2020 年的时间序列光谱曲线以辅助解读。验证结果显示,北疆、黑龙江、广东和京津冀地区的初步训练样本的准确性分别为
96.26
%
,
97.01
%
,
94.24
%
96.26
%
,
97.01
%
,
94.24
%
96.26%,97.01%,94.24% 96.26 \%, 97.01 \%, 94.24 \% 和
94.97
%
94.97
%
94.97% 94.97 \% 。四个地区的初步训练样本的平均准确性为
95.62
%
95.62
%
95.62% 95.62 \% ,表明整体质量令人满意。
4.4. 通过 LSCP 算法过滤异常样本
4.4.1. 异常样本的类型
尽管收集的初步训练样本达到了高准确率,但仍然存在错误和异常样本。异常样本可以分为三种类型:(1)分类错误(标签错误),(2)一年内的 LC 变化,以及(3)光谱异常(也称为特征异常,包括混合像素和由于环境因素或卫星数据质量问题引起的异常)。
表 4 列出了六种典型异常样本的异常类型、描述、图像和时间序列光谱曲线。样本(a)和(b)代表由分类错误(标签错误)引起的异常。在光谱曲线图中,橙色曲线表示异常样本的光谱曲线,而蓝色曲线表示正常样本的光谱曲线。
表 4. 六个典型异常样本及其异常类型、描述、图像和时间序列光谱曲线。
表 4.(续)。
样本。NDVI 时间序列曲线的差异允许区分异常样本。样本©显示了由于一年内土地覆盖类别变化而导致的异常。从六月到八月,样本©的 NDVI 值为正,但 NDWI 值为负。主要原因可能是该地区的季节性水文变化和潮汐影响,导致水位变化(Y. Li 等,2019;Yin 等,2023)。这些因素导致原本被水覆盖的区域暴露出来,加上夏季植被的旺盛生长,导致 NDVI 显著增加。样本(d)代表了卫星图像中混合像素引起的异常(X. Liu, Li 和 Zhang 2010)。该样本位于建筑物的边缘,卫星图像中的像素包含来自多个土地覆盖类别的光谱信息,如建筑物和树木。因此,它呈现出与纯像素不同的光谱曲线。样本(e)和(f)显示了由环境因素或卫星数据质量问题引起的异常。 光谱曲线显示样本(e)在三月份出现极端异常,绿色和近红外波段的值低于其他月份。NDVI 为负值,NDWI 甚至超过 0.4。在样本(f)中,光谱异常发生在十月份,可见光和近红外波段的值接近零(0.0001),导致计算出的光谱指数如 EVI、NDVI 和 NDWI 均为零。
训练样本中存在异常样本(噪声)会对模型的训练产生不利影响,从而影响 LC 分类的准确性。在训练过程中,模型努力最小化损失函数,这意味着它们试图最小化之间的差异。 训练样本中的真实标签与模型的预测结果。如果训练样本中存在噪声,模型也可能试图拟合这些噪声,这可能导致过拟合。之前的研究者评估了噪声对分类准确性的影响。Rodriguez-Galiano 等(2012)报告称,随机森林分类器的性能对训练样本的故意错误标记相对不敏感,直到
20
%
20
%
20% 20 \% ,超过该值后,错误率呈指数增长。Mellor 等(2015)发现,随着噪声比例的增加,分类准确性逐渐下降。此外,某些分类算法可能会影响学习模型的复杂性(Pelletier 等,2017)。例如,在类别标签噪声存在的情况下,训练实例的平均路径长度可能会增加,从而导致计算训练时间的增加。因此,去除初步训练样本中存在的异常样本至关重要。
4.4.2. 不同异常检测模型的比较
异常检测的集成框架在 Python 中实现,利用时间序列谱特征识别异常样本。异常检测模型分别针对四个区域的每个类别进行训练和应用。由于黑龙江省灌木林样本稀缺,预先将其移除。所有集成框架使用 30 个基于 LOF 的基检测器池,以确保一致的性能评估。为了在基检测器之间引入多样性(Britto, Sabourin, 和 Oliveira 2014; Zimek, Campello, 和 Sander 2014),采用了不同的初始化。
表 5. 四个区域中不同异常检测模型的性能比较(%)。
模型
平均
马克斯
AOM
MOA
LSCP
北新疆
召回
71.67
63.33
66.67
68.33
75.00
精确度
36.44
36.89
37.39
35.65
35.16
去除率
7.84
6.82
7.15
7.65
8.37
黑龙江
召回
69.23
67.31
69.23
67.31
69.23
精确度
50.70
49.30
50.70
50.72
49.32
广东
去除率
2.94
2.69
2.74
2.83
3.01
召回
76.34
63.44
68.82
75.27
76.34
精确度
47.97
49.58
50.00
48.61
47.97
京津冀
去除率
4.74
3.84
4.05
4.57
4.84
召回
55.81
46.51
54.65
55.81
60.47
精确度
44.04
43.01
48.96
44.44
44.83
去除率
5.05
4.53
4.60
4.96
5.29
Models Average Max AOM MOA LSCP
Northern Xinjiang Recall 71.67 63.33 66.67 68.33 75.00
Precision 36.44 36.89 37.39 35.65 35.16
Removal ratio 7.84 6.82 7.15 7.65 8.37
Heilongjiang Recall 69.23 67.31 69.23 67.31 69.23
Precision 50.70 49.30 50.70 50.72 49.32
Guangdong Removal ratio 2.94 2.69 2.74 2.83 3.01
Recall 76.34 63.44 68.82 75.27 76.34
Precision 47.97 49.58 50.00 48.61 47.97
Beijing-Tianjin-Hebei Removal ratio 4.74 3.84 4.05 4.57 4.84
Recall 55.81 46.51 54.65 55.81 60.47
Precision 44.04 43.01 48.96 44.44 44.83
Removal ratio 5.05 4.53 4.60 4.96 5.29 | | Models | Average | Max | AOM | MOA | LSCP |
| :--- | :--- | ---: | ---: | ---: | ---: | ---: |
| Northern Xinjiang | Recall | 71.67 | 63.33 | 66.67 | 68.33 | 75.00 |
| | Precision | 36.44 | 36.89 | 37.39 | 35.65 | 35.16 |
| | Removal ratio | 7.84 | 6.82 | 7.15 | 7.65 | 8.37 |
| Heilongjiang | Recall | 69.23 | 67.31 | 69.23 | 67.31 | 69.23 |
| | Precision | 50.70 | 49.30 | 50.70 | 50.72 | 49.32 |
| Guangdong | Removal ratio | 2.94 | 2.69 | 2.74 | 2.83 | 3.01 |
| | Recall | 76.34 | 63.44 | 68.82 | 75.27 | 76.34 |
| | Precision | 47.97 | 49.58 | 50.00 | 48.61 | 47.97 |
| Beijing-Tianjin-Hebei | Removal ratio | 4.74 | 3.84 | 4.05 | 4.57 | 4.84 |
| | Recall | 55.81 | 46.51 | 54.65 | 55.81 | 60.47 |
| | Precision | 44.04 | 43.01 | 48.96 | 44.44 | 44.83 |
| | Removal ratio | 5.05 | 4.53 | 4.60 | 4.96 | 5.29 |
去除比率是指模型标记为异常的初步训练样本的比例。
表 6. LSCP 与传统统计方法性能比较(%)。
方法
召回
精确度
去除率
参考
PCA-Lajda 标准
74.91
7.54
43.95
金等,(2022)
标准差滤波(NDVI 时间序列)
97.59
5.27
84.24
文等,(2022)
LSCP
70.10
44.93
4.75
Approaches Recall Precision Removal ratio Reference
PCA-Lajda criterion 74.91 7.54 43.95 Jin et al., (2022)
Standard deviation filtering (NDVI time-series) 97.59 5.27 84.24 Wen et al., (2022)
LSCP 70.10 44.93 4.75 | Approaches | Recall | Precision | Removal ratio | Reference |
| :--- | :---: | :---: | :---: | :---: |
| PCA-Lajda criterion | 74.91 | 7.54 | 43.95 | Jin et al., (2022) |
| Standard deviation filtering (NDVI time-series) | 97.59 | 5.27 | 84.24 | Wen et al., (2022) |
| LSCP | 70.10 | 44.93 | 4.75 | |
超参数,即每个 LOF 检测器中使用的邻居数量(MinPts),在[5, 150]的范围内选择。对于 AOM 和 MOA 框架,基本检测器被分为五个子组;每个组包含六个不重复选择的基本检测器。
经过视觉解读的训练样本被用于评估不同模型的性能。LSCP 和其他模型的结果如表 5 所示。召回率表示正确识别的异常样本所占的比例。与传统模型相比,LSCP 模型表现出更优越和稳健的性能,通常具有更高的召回率。LSCP 的优越性可归因于其能够在测试实例的局部区域中整合仅具备能力的基础检测器,从而减轻表现不佳的检测器的影响。其优势在北疆和京津冀地区尤为明显。然而,不同地区的召回率存在显著差异。北疆和广东的召回率超过
75
%
75
%
75% 75 \% ,而京津冀地区的召回率最低,仅为
60.47
%
60.47
%
60.47% 60.47 \% 。因此,异常检测模型的性能在不同研究区域之间差异显著。表 5 显示,所有异常检测模型的精确度都较低,表明许多正常样本被检测为异常。这种情况可能归因于这些样本在特征空间中的分布偏离了 尽管正常样本的标签正确且在视觉解读中没有明显异常,但大多数正常样本仍被检测到。LSCP 模型在北新疆、黑龙江、广东和京津冀的初步训练样本中检测到的异常百分比(去除比例)分别为
8.37
%
,
3.01
%
,
4.84
%
8.37
%
,
3.01
%
,
4.84
%
8.37%,3.01%,4.84% 8.37 \%, 3.01 \%, 4.84 \% 和
5.29
%
5.29
%
5.29% 5.29 \% 。尽管使用异常检测模型可能会去除一些正常样本,但去除的比例相对于总样本数量非常小,因此整体影响微乎其微。在 LSCP 模型去除异常样本后,北新疆、黑龙江、广东和京津冀地区最终训练样本的准确率提高了
2.05
%
2.05
%
2.05% 2.05 \% 至 4.34%,分别达到了 99.04%、99.06%、98.58%和 97.95%。即使在样本过滤后,最终训练样本中仍然存在错误和不确定性。然而,最终样本中的错误很小,足以进行模型训练。 值得注意的是,用于评估异常检测算法的视觉解释样本数量可能有限,整体样本集中异常样本的比例特别小。因此,本研究的验证结果可能与实际准确性存在偏差。尽管如此,它们仍然对读者具有一定的参考价值。
三种异常的总数量和召回率分别计算,以分析异常检测模型对不同类型异常的检测有效性。总共有 291 个。 在视觉解读中,四个区域均发现了异常样本。共有 170 个样本存在分类错误(标签错误),33 个样本在一年内有土地覆盖变化,88 个样本存在光谱异常(特征异常)。使用 LSCP 模型进行异常检测时,分类错误、土地覆盖变化和光谱异常的召回率分别为
67.65
%
,
69.70
%
67.65
%
,
69.70
%
67.65%,69.70% 67.65 \%, 69.70 \% 和
75.00
%
75.00
%
75.00% 75.00 \% 。LSCP 模型对不同类型的异常样本的识别准确率有所不同。由于分类错误导致的异常识别准确率最低。某些植被类型,特别是灌木林、草地和湿地,由于其相似的光谱和纹理特征,以及土地覆盖产品中存在的混淆,容易被错误分类。因此,许多存在分类错误的异常样本也难以正确识别。对一年内土地覆盖变化的异常样本以及光谱异常的异常样本的识别准确率相对较高。 对于具有光谱异常的样本,异常的光谱值在一个或多个时间段内导致时间序列光谱曲线与其他样本显著不同,从而更容易被检测到。此外,由于 LC 变化是一个缓慢的过程,一年内 LC 变化的样本数量相对较少,主要与水体的季节性变化有关(如表 4,样本©所示)。需要进一步验证异常检测算法在一年内具有 LC 变化的异常样本上的有效性。还应注意,异常检测算法中的阈值是基于所有点的离群值得分计算的。只有离群值得分超过阈值的样本才被分类为异常。由于不同算法之间阈值计算的差异,训练样本的去除比例和异常检测的准确性也可能不同。总体而言,基于集成机器学习的异常检测算法在过滤异常样本方面是有效的。 未来的检测性能预计将通过改进异常检测算法和集成策略,以及选择其他典型特征进一步增强。
4.4.3. 与传统方法的比较
不同方法的表现通过将 LSCP 模型的结果与传统统计技术的结果进行比较来评估。
具体而言,Jin 等人(2022)和 Wen 等人(2022)采用的异常值去除方法被应用。这两种方法都依赖于数据的正态分布,去除落在
μ
±
σ
μ
±
σ
mu+-sigma \mu \pm \sigma 范围之外的训练样本。Jin 等人进行了主成分分析(PCA),计算 PC1 和 PC2,并使用这些主成分来过滤异常样本。Wen 等人利用 NDVI 时间序列数据从平均 NDVI 曲线中消除异常样本。其他方法,如 Zhang 等人(2021)提出的方法,同样基于光谱统计分布去除异常样本。由于这些方法具有相似的原理,因此没有单独进行比较。
召回率、精确率和移除比率被用来比较不同的方法,这些评估指标是基于四个区域的所有样本计算得出的。表 6 显示,LSCP 的召回率为
70.10
%
70.10
%
70.10% 70.10 \% ,低于两种统计方法的召回率。特别是,标准差过滤方法的召回率达到了
97.59
%
97.59
%
97.59% 97.59 \% ,表明其能够识别几乎所有异常样本。然而,两种统计方法的精确率显著低于 LSCP,而移除比率则明显更高。尽管传统统计方法能够正确识别大多数异常样本,但也有很大比例的正常样本被移除。实际上,视觉解释识别出的异常样本比例极小,这表明仅依赖统计方法可能导致训练样本的过度移除。此外,由于数据维度的减少,PCA-Lajda 标准方法可能会忽视许多在一年内表现出 LC 变化和光谱异常的样本。 原始文章采用标准差过滤方法来去除异常玉米样本。在多类别 LC 训练样本中使用时,由于同一类别的时间序列光谱特征多样(例如,不同作物表现出不同的光谱曲线),大量样本被淘汰。值得注意的是,除了样本质量,样本数量对于模型训练也至关重要。尽管与传统方法相比,LSCP 的召回率略低,但它更好地平衡了样本质量和数量,避免了过度去除训练样本。基于机器学习的异常检测方法,如 LSCP,不受数据分布的影响,并提供离群值评分
表 7. 单时态和时间序列光谱特征在六个典型异常样本上的模型性能比较。
模型
(a)
(b)
(c)
(d)
(e)
(f)
总计
LSCP_4
1
1
0
1
0
0
3
LSCP_7
1
1
1
1
0
0
4
LSCP_10
1
0
0
1
0
1
3
LSCP_TS
1
1
1
1
1
1
6
Model (a) (b) (c) (d) (e) (f) Total
LSCP_4 1 1 0 1 0 0 3
LSCP_7 1 1 1 1 0 0 4
LSCP_10 1 0 0 1 0 1 3
LSCP_TS 1 1 1 1 1 1 6 | Model | (a) | (b) | (c) | (d) | (e) | (f) | Total |
| :--- | :---: | :---: | :---: | :---: | :---: | :---: | :---: |
| LSCP_4 | 1 | 1 | 0 | 1 | 0 | 0 | 3 |
| LSCP_7 | 1 | 1 | 1 | 1 | 0 | 0 | 4 |
| LSCP_10 | 1 | 0 | 0 | 1 | 0 | 1 | 3 |
| LSCP_TS | 1 | 1 | 1 | 1 | 1 | 1 | 6 |
LSCP_4:利用四月特征的 LSCP 模型;LSCP_7:利用七月特征的 LSCP 模型;LSCP_10:利用十月特征的 LSCP 模型;LSCP_TS:利用时间序列特征的 LSCP 模型。 对于每个样本,帮助用户理解异常的程度。因此,基于机器学习的异常检测算法在过滤异常的 LC 训练样本方面具有良好的应用前景。
4.4.4. 与利用单时域光谱特征的模型比较
基于单时相和时间序列光谱特征的模型在各种异常检测中的有效性使用表现最佳的集成框架 LSCP 进行了比较。时间序列特征涵盖了从三月到十一月的光谱特征。单时相光谱特征是从四月、七月和十月的复合图像中提取的,分别代表春季、夏季和秋季的光谱特征。表 4 中的六个典型异常样本用于验证使用不同时间特征的检测结果。在表 7 中,如果模型成功识别了异常样本,则标记为“1”,如果没有,则标记为“0”。“总计”列显示成功识别的异常样本的总数。
表 7 显示,所有模型有效识别了由分类错误(例如样本(a)和(b))和混合像素(例如样本(d))引起的异常。仅依靠单一时间特征准确识别异常样本仍然面临挑战。例如,当仅依赖于十月的光谱特征时,样本(b)未被识别为异常样本。使用单一时间特征的模型在检测因一年内土地覆盖变化(例如样本©)和光谱异常(例如样本(e)和(f))引起的异常方面表现不足。在样本©的情况下,水体的季节性和水位变化在夏季尤为明显,因此检测依赖于该季节的光谱特征。样本(e)和(f)也遵循相同的原则。因此,采用利用时间序列光谱特征的异常检测被认为更为合适,并且产生了更好的结果。 最高的准确性,表现出在检测所有类型异常样本方面的强大性能。
4.5. ATSC 方法的概括
尽管本研究的实验范围仅限于中国,但整个国家的广阔区域具有显著的气候和地理差异,因地区而异。所选择的四个实验区域位于中国不同的地理位置,气候、土地利用和土地覆盖、地形以及社会经济发展水平存在显著差异。使用 ATSC 方法获得的土地覆盖训练样本在这些地理多样化的区域中表现出理想的准确性,表明该方法具有很强的普适性。随着全球和区域尺度上高分辨率土地覆盖产品的日益可用,以及如 Sentinel-2 等卫星图像的全球覆盖,我们预见 ATSC 方法在跨区域应用中的可行性和潜力。
在将 ATSC 方法应用于其他地区时,需要考虑几个关键因素。首先,选择适合的土地覆盖(LC)产品,确保其具有适当的时间和空间覆盖范围至关重要。可以选择覆盖目标区域的全球尺度 LC 产品或区域尺度产品。其次,需要一个覆盖目标区域的验证数据集,以便在应用 WMV 算法时计算不同产品的类别权重值。验证数据集可以利用公开可用的数据集(如 SRS_Val)或通过视觉解译创建。为了最小化时间差异的影响,确保所选 LC 产品和验证数据集的参考年份尽可能接近是至关重要的。第三,在采用局部自适应采样策略时,需要合理设置网格大小。 基于特定研究区域和应用要求的采样数量。最后,可能需要对像 LSCP 这样的异常检测模型进行参数调整,以有效适应上下文。此外,必须注意与这种方法相关的不确定性。收集的训练样本的可靠性受到 LC 产品的数量和准确性以及验证数据集质量等因素的影响。此外,异常检测算法的准确性可能会受到某些地区 LC 光谱的复杂性和变异性的影响。
然而,在全球其他地区尚未进行进一步验证。必须承认,当将 ATSC 方法应用于地理差异显著的地区时,例如气候与中国截然不同的热带雨林,其表现可能会有所不同。未来的研究应包括在多样的地理和气候条件下进行广泛的案例研究,以评估 ATSC 方法的普遍性和适用性。
5. 结论
本文提出了一种新颖的方法,用于自动收集土地覆盖分类的训练样本。该方法最初使用统一的验证数据集评估多源土地覆盖产品的准确性。根据用户精度计算类别权重值,并通过 WMV 算法融合多个土地覆盖产品。然后,从融合的土地覆盖图中提取高置信度区域,并应用形态处理去除边缘区域的像素。随后,利用时间序列的 Sentinel-2 影像提取无云区域。采用局部自适应策略自动收集高质量训练样本。验证结果表明,收集的初步训练样本的高准确性,在四个研究区域的准确率范围为
94.24
%
94.24
%
94.24% 94.24 \% 到
97.01
%
97.01
%
97.01% 97.01 \% ,平均准确率为
95.62
%
95.62
%
95.62% 95.62 \% 。然后,利用基于集成的异常检测算法进一步过滤异常样本。使用视觉解释样本的验证显示了不同异常检测模型在识别土地覆盖初步样本数据集中异常样本方面的有效性。 基于机器学习的异常检测算法,如 LSCP,发现比传统统计方法更好地平衡了训练样本的质量和数量。其中, LSCP 模型利用时间序列频谱特征表现最佳。结果表明,在去除异常样本后,所有区域最终训练样本的准确性进一步提高至
97.95
%
97.95
%
97.95% 97.95 \% 或更高。
与以往的方法相比,ATSC 方法提供了几个优势。(1) 训练样本的收集是完全自动化的,消除了为大规模 LC 分类生成足够训练样本的劳动密集型过程。它适用于不同地理位置和环境的区域,以及不同年份的应用。(2) 多个现有的细空间分辨率 LC 产品被融合,使收集的训练样本更适合使用高空间分辨率卫星影像(如 Sentinel-2)进行 LC 分类。(3) 最终的训练样本数据集包括两个指标,置信值和异常值评分,用于衡量样本的可靠性。用户可以综合利用这两个指标在不同区域和不同分类算法中进一步筛选训练样本。因此,通过我们的方法收集的可靠训练样本可以用于高质量的 LC 制图。
披露声明
作者未报告任何潜在的利益冲突。
资金
本研究部分得到了北京杰出青年科学家计划[BJJWZYJH01201910028032]和国家重点研发计划[2018YFC1508902, 2017YFC0406006, 2017YFC0406004]的支持。
ORCID
作者贡献声明
王燕钊:构思和设计,数据分析与解释,论文撰写。孙永华:构思和设计,批判性修订其知识内容,最终批准待发表的版本。曹旭月:构思和设计,论文撰写。王怡涵:数据分析与解释,论文撰写。张望宽:数据分析与解释,论文撰写。程兴璐:数据分析与