研究背景
如今的深圳湾,碧波荡漾,水鸟翔集,与繁华的都市天际线和谐共生。为了守护这片珍贵的生态景观,应对其背后复杂的水质管理挑战,一套融合了人工智能的流体动力学模型正在延展城市水环境治理的科学边界。

图片说明:深圳湾沿岸步道风景。——毛俊祺 摄

图片说明:夕阳下,候鸟在深圳湾寻觅食物和歇脚地。——林阳杰 摄
在水质逐渐转向精细化管理的大趋势下,当前沿海城市化地区的水质研究在时空归因、污染溯源上仍存在不足。北京大学深圳研究生院环境与能源学院秦华鹏课题组基于“AI+机理”提出了河湾水质智能管理的新范式,即基于AI模型挖掘流域水质的时空变化差异以及驱动因子、基于数值模型解析污染源的时空贡献差异。
研究进展
1. 利用集成机器学习来预测和理解沿海城市化地区不同流域的时空水质变化Using ensemble machine learning to predict and understand spatiotemporal water quality variations across diverse watersheds in coastal urbanized areas

图 1. 发表图(https://www.sciencedirect.com/science/article/pii/S1470160X25009069)
1.1研究不足
现有工作多聚焦于单一流域,难以反映地区内不同流域在地理特征和压力因素方面的差异,也缺乏能够整合多流域数据的统一建模与归因框架,限制了对水质时空变化规律的整体把握。同时,大规模的长期监测往往缺少对监测样本重要性的科学评估,导致监测布点和频次设计不够高效,亟需通过方案优化来对水质动态进行精准刻画。
1.2研究方法
本研究构建了一个面向深港流域河湾水质时空预测的集成机器学习框架。该框架以堆叠策略(Stacking)为核心,选取了五种性能互补的基础学习器:随机森林回归(RFR)、极端梯度提升(XGBoost)、多层感知器(MLP)、支持向量回归(SVR)和线性回归(LR),可捕捉非线性关系、处理特征交互以及量化预测不确定性。所有模型均以统一的输入特征集进行训练,包括来自Sentinel-2影像提取的土地利用类型(如工业区、住宅区、绿地等17类)、离海距离、人口密度、人均GDP、路网密度等地理因素,以及气象监测(降雨量、气温、湿度)、潮位、污水处理厂的尾水排放浓度(COD、NH3-N、TN、TP)及流量等压力因素。为融合各基础模型,采用“留一法”(Leave-One-Out)来确定各模型权重,确保组合权重非负且总和为1。通过对训练集进行500次抽样后的预测结果来评估模型的不确定性。最终,通过SHAP方法来定量刻画各时刻下监测点的因子影响,从而对特征进行时空归因。

图 2. 机器学习算法流程
在机器学习SHAP分析的基础上,本研究还提出了基于样本的水质归因强度(WQAS)来识别样本的重要性,以此来探索对现有大范围、长期监测方案的优化策略,可有效减少采样点数和采样频率。优化策略认为,需优先考虑对重要样本进行监测,即当某一样本的WQAS大于1时,意味着该样本中因子对水质的贡献超过了平均水平。
1.3研究发现
通过跨流域的集成建模、高时空归因解释以及对重要样本的优先监测策略,本研究突破了现有模型在异质性流域中泛化能力弱、归因机制粗糙以及监测需求高的问题。这种“预测-解释-优化”的综合框架能够为沿海城市的流域管理和可持续生态监测提供理论创新和政策指导,具体可分为:
(1)集成跨流域模型(EAM)能够在城市化沿海地区的多个流域中实现准确和可泛化的时空水质预测,优于单流域模型(SWM)、分组流域模型(GWM)和单一机器学习模型。在溶解氧、氨氮和总磷的测试集中,EAM的R方分别为0.62、0.74和0.65。
(2)河流水质与流域因子之间存在非线性关系,确定了关键地理因素(树木覆盖率(55%)、距海距离(10km))和压力因素(温度(17℃–25℃)和日降雨量(10mm))对河流水质的贡献阈值。
(3)监测样本的重要性可用来指导大范围、长期监测方案的优化,而本研究提出的基于样本的水质归因强度(WQAS)可表征水质时空变化样本的重要性。所有样本中有20%–40%的样本因子贡献高于平均值,主要分布在沿海或城市化水平较高的地区,以及在极端气温或强降雨期间。
本研究的方法和结果有助于预测和归因城市化沿海流域的水质,并支持流域综合管理和生态系统的可持续监测。

图 3. 研究图摘
2. 模拟城市化海湾流域多种污染负荷对水质贡献的时空差异Modelling the spatio-temporal differences in the contribution of multiple pollution loads to water quality in an urbanized bay catchment

图 4. 发表图(https://www.sciencedirect.com/science/article/abs/pii/S0022169425012430)
2.1研究不足
城市化海湾水质受多种污染负荷共同影响,其实际贡献率通常与陆源输入负荷的比例并不一致,但目前很少有研究对这种偏差进行系统量化,更未能将量化结果有效用于指导流域层面的污染控制策略。这些问题使得研究成果难以转化为实用的管理工具,阻碍了水质治理从经验判断向智能决策的转型。
2.2研究方法
本研究以深圳河湾流域为研究对象,采用SWMM(Storm Water Management Model)和EFDC(Environmental Fluid Dynamics Code)的耦合模型,对2022年的海湾水质过程进行反演。

图 5. 研究区域
为了量化输入负荷对水质的贡献,本研究提出了负荷对水质的贡献率(CR-WQ),即去除污染负荷k后,位置i从t1到t2的浓度c改善率被认为是负荷k对水质的贡献率,即:

为了量化在减少相关污染负荷的前提下,湾区水质的改善效果,本研究提出了一个削减效率指标。首先基于单位负荷k减少p%的情况下位置i的水质改善率WQIR,得出单位负荷削减下的水质改善率(WQIR-ULR),即当污染负荷降低一定比例时,所产生WQIR的水质改善效果:


2.3研究发现
城市化海湾的水质受多种污染负荷的影响,导致其具有复杂的时空变异性,但很少将该差异进行量化并用于流域污染控制。本研究提出了一种分析各类污染负荷对水质贡献率时空变化的方法,污染负荷对水质的贡献率(CR-WQ),并给出了一项效率指标以指导流域污染控制。主要结果总结如下:
(1)来自深圳和珠江口的负荷 分别主导着湾中和湾口的水质,而潮汐作用对湾中污染物具有滞留效应。从河口到湾口,径流负荷的CR-WQ先从30%–55%增加到46%–60%,再减小到5%–9%,而污水处理厂尾水负荷的CR-WQ则从39%–69%减小到3%–7%;
(2)湾中径流负荷的CR-WQ在丰水期(37%–62%)显著高于枯水期(30%–49%);
(3)降雨事件下,暴雨径流对河口和湾中水质的影响时间分别长达4–6天和10天以上;
(4)降低污水处理厂尾水负荷对降低河口的氮含量和整个海湾的磷含量最有效,而减少径流则更有利于降低湾中的氮含量。
综上,本研究提供的方法可应用于不同水体,尤其是水动力和水质过程复杂的区域,而结果则可作为水体水质管理和流域污染控制的理论基础和实践指南。

图 6. 研究图摘
研究团队

图片说明:北京大学深圳研究生院环境与能源学院秦华鹏教授带队在深圳湾开展无人机水质采样监测。

图片说明:北京大学深圳研究生院环境与能源学院秦华鹏教授课题组就深圳湾无人机监测方案进行讨论。