基于GBDT的城市公园选址预测——以成都市中心城区为例
2025-07-15摘要
城市公园是城市的重要组成部分,能够提升城市的宜居性并促进经济可持续发展。因此,运用科学方法进行公园选址尤为重要。文章基于机器学习算法和地理大数据,对成都市中心城区土地建设公园的适宜性进行评价,通过对比预建设公园的特征,科学筛选出60个优先建设公园的区域,并得到如下结论:第一,梯度提升决策树(GBDT)分类性能较好,通过调参可以使模型达到较高的预测精度;第二,对公园建设影响较大的因素包括路网密度、城市建筑分布、与水域的距离以及居民点分布等;第三,在核心城区内预测的公园数量较少,仅在成华区中部与青羊区有少量分布;第四,随着城市不断扩张和卫星城区的发展,温江区、高新区和双流区是未来公园建设最具潜力的区域。
作 者
韩成龙 成都理工大学地理与规划学院硕士研究生
朱创业 成都理工大学地理与规划学院教授(通信作者)
随着城市化进程加速,城市对生态环境的破坏逐渐加剧,城市绿地面积不断减少,两者的矛盾会导致一系列生态问题,不利于城市可持续发展。城市公园作为城市生态系统的重要组成部分,对于提升居民生活质量、改善城市生态环境、促进社会和谐发展具有至关重要的作用。因此,如何更科学、合理地预测选址城市公园,以满足城市发展的需求,是城市规划者和决策者面临的重要课题。
城市公园的选址是一个复杂的过程,涉及多方面的因素,如人口分布、交通便利性、土地利用现状、环境质量等。学术界已有众多学者进行深入研究,发展出多样化的选址原则和技巧。从理论上来讲,公园选址的本质就是资源的合理配置问题。因此,国外学者将工业区位理论应用于设施区位选择,形成区位配置理论LA模型,并将LA模型应用于电厂、学校、服务设施等选址中。进一步将GIS的地理信息处理功能应用于LA模型中,可以解决LA模型的约束条件、模型参数优化等问题。国内学者姚家元、周媛等将其应用于公园选址问题中,发现LA模型与GIS的叠加可以有效进行多特征筛选,更加直观地展示优化方案。从规划的角度来说,公园建设要服务于居民,已有研究表明,公园选址与人口分布有密切联系。建设公园还要考虑公园的可达性、生态环境质量、土地利用状况等要素,在综合考虑多种因素的情况下,可以将指标赋权与GIS相结合,对建设公园的适宜性进行评价。如董观志、张金光等人通过选取不同指标,利用层次分析法进行公园选址研究。从公园选址的方法上来说,越来越多的研究摒弃传统的经验法和定性分析,转而采用定量分析与预测模型。如秦和天利用机器学习模型预测未来城镇用地扩张情况,预测未来城市公园选址;张雪萍等将量子粒子群优化算法原理应用于公园选址问题;周媛等将空间配置模型与GIS结合,预测沈阳市公园选址并研究影响公园选址的因素;梁莉莉通过分析已有公园的热点分布区,建立指标体系,利用Crime Stat Ⅳ软件探测公园建设的最适宜区域。量化研究的好处在于可以整合分析多种影响因素,减少人为产生的偏见,使决策更加客观、公正。
综合来看,我们发现已有研究在方法上比较单一,在研究成果上适宜性评价居多,对精确位置选择的研究较少。近年来,随着人工智能技术不断发展,机器学习的方法逐渐应用于预测研究中,但将机器学习算法应用于公园选址,并结合预测结果精确选址的研究还是空白。机器学习可以捕捉数据中的非线性关系和复杂交互作用,特别是在自变量众多的情况下,仍然可以进行全面而深入的分析,从而大大提升准确率。相较于传统的赋权法,机器学习具有从大量数据中自主学习的特征,可以避免人工赋权的主观性。此外,依托正则化与交叉检验技术,可以使机器学习在未见过的数据上依然保持稳定性能,通过适当的学习和优化,机器学习对数据中的噪声和异常值具有一定的鲁棒性。因此,能够在实际应用中保持稳定的分类性能。梯度提升决策树(Gradient Boosting Decision Tree, GBDT)是一种经典的机器学习算法,具有准确率高、训练快速的优点,被广泛应用于预测研究中。本文尝试将GBDT算法应用于城市公园的选址问题中,在进行适宜性评价后,通过模拟公园的建设情况,挑选出优先建设公园的位置,旨在为城市规划和公园建设提供更具科学性和实践性的支持,推动城市公园选址研究迈向更加深入和全面的发展。
01
研究区域与数据
1.1 研究区概况
成都是全国首个公园城市建设试点城市,公园城市要求在城市规划的每个层面都融入公园化的思维,体现绿色和生态的发展理念。城市公园的建设和改善是公园城市实践的重要组成部分,也是城市绿化和生态建设的具体表现,通过增加绿地面积,提升生态环境质量,为居民提供更好的生活品质。本文的研究区域为成都市中心城区,即“12+2”区域,“12”指锦江区、青羊区、金牛区、武侯区、成华区、龙泉驿区、青白江区、新都区、温江区、双流区、郫都区、新津区;“2”指高新区、天府新区。总面积4009.6km2,现有人口约965.2万,图1为研究区域的行政区划图。遵循《成都建设践行新发展理念的公园城市示范区总体方案》(发改规划〔2022〕332号)的规划方向,成都市正致力于打造体现公园城市特色的城市景观,力图成为“绿水青山就是金山银山”理念的模范实践区。目标是发展成一个层次分明的生态绿化体系,形成一个覆盖全市、网络化布局、功能完备、对所有年龄群体友好的公园系统。截至2023年,成都市已累计建成各类公园超1500个,环城骑行、公园露营、锦江夜游等公园城市幸福生活新场景不断涌现,人民的精神文明世界逐渐充实。
图1 成都市中心城区行政区划图[底图审图号:GS(2016)2556]
Fig.1 Administrative district map of Chengdu downtown
资料来源:笔者自绘
1.2 数据来源
基于Land Scan平台获取全球人口分布数据,数据年份为2022年;利用POIKit工具爬取2024年成都市中心城区居民住宅区数据;公园矢量数据、路网、水域数据、城市建筑轮廓数据来源于开放街区地图(Open Street Map),数据年份为2022年;平均温度数据、NDVI、PM2.5数据来源于国家青藏高原科学数据中心平台,数据年份为2022年;土地覆盖数据来源于欧空局(European Space Agency, ESA)发布的2022年10 m精度的土地覆盖数据集;坡度数据是由美国太空总署(National Aeronautics Space Administration, NASA)和国防部国家测绘局(National Imagery Mapping Agency, NIMA)2022年联合测量的30 m航天飞机雷达地形测绘(Shuttle Radar Topography Mission, SRTM)高程数据。
02
研究方法
2.1 模型构建
2.1.1 指标选择
公园城市的建设目标是“践行绿水青山就是金山银山”的理念,把良好的生态环境作为最普惠的民生福祉,将好山、好水、好风光融入城市,坚持生态优先、绿色发展,全面贯彻落实习近平总书记的生态文明思想。在城市中建设公园,有利于增加城市绿化率,缓解城市热岛效应,促进生态资源的流动和城市生态系统的健康发展。本文在总结前人研究的基础上,选择城市植被覆盖度(NDVI)、PM2.5浓度、城市热岛效应(城市气温数据)、与水域的距离、城市建筑轮廓五个指标,反映城市公园在生态方面的功能。与水域的距离数据与城市建筑轮廓数据基于ArcGIS中的欧氏距离(Euclidean Distance)工具处理获得。
公园城市应该是居民宜居、宜业的家园。要增进公园城市的民生福祉,打造城市人民宜居的示范区,践行“人民城市人民建、人民城市为人民”的理念。公园城市的建设要尽量分布在人口密度大的区域,与居民点的距离不宜过远,还要考虑公园的可达性,以便更好地服务于居民。综合考虑这些因素,选择人口数量、与居民点的距离、路网密度三个指标,反映城市公园在社会方面的功能。与居民点的距离数据是基于ArcGIS中的欧氏距离工具计算获得。
在城市土地类型中,平原或坡度较缓的区域较为适合建设公园。坡度较大的区域,公园设计难度大,对居民安全有一定威胁,高度过高影响公园的可达性。因此,选择高程和坡度数据作为公园建设的限制性因子。
2.1.2 GBDT模型构建
GBDT采用自适应算法(Boosting)的思想,通过迭代训练多个弱学习器,结合弱学习器的预测结果逐步提高精度。在预测过程中,它还可以为每个特征值分配重要性权重,对于理解数据中哪些特征对模型预测贡献最大非常有帮助。在二分类的问题中,将正类数据(已建公园的点位)设置为1,负类数据设置为0(未建设公园的点位),模型输出结果为该点达到正类的概率。GBDT计算公式如下:
式中,ft-1(x)为上一轮得到的学习器; L[yi, f(xi)]表示残差;rti表示第t轮第i个样本的损失函数负梯度,ctj为损失函数最小时的拟合值;J表示叶子节点的个数; ht(x)表示第t轮决策树的拟合函数;ft(x)表示第t轮之后的最终强学习器;Ri表示叶子节点j的所有样本集合;Rtj表示t轮迭代后,所有落入第j个叶子节点的数据样本的集合。
在成都市中心城区构建100m×100m的渔网,基于目前已建好的各类城市公园,将公园所在的渔网网格标记为正类,然后随机抽取研究范围内未建设公园的网格,并标记为负类,共挑选出正类标签281个、负类标签280个;将0和1的标签作为因变量,统计各标签网格内10个指标并作为自变量,然后输入GBDT模型进行训练;GBDT随机抽取80%的数据作为训练集训练模型,剩下20%的数据作为测试集来验证模型的精度。
通过构建ROC曲线来判断分类器的性能,构建混淆矩阵查看模型在不同阈值下的精度。确定好阈值后,通过ArcGIS生成成都市中心城区公园选址的适宜性评价图。网格值为1的点作为公园选址的候选点位。考虑到公园建设的有效性,公园建设要能够服务居民才被认为是有效的。由于城镇用地是城镇居民的主要活动区域,进一步通过计算候选公园服务范围内包含的城镇用地面积来判定公园建设的适宜性。为避免公园建设的重复性、偶然性,未来公园的选址应优先考虑在公园密度较小的区域进行。根据武侯区《加快建设美丽宜居公园城市的示范区实施方案》(2019)和《实施“成都增绿十条”推进全域增绿工作方案》(2017)的目标,要实现居民“300米见绿、500米见园”的目标,把公园的服务范围设置为500m。在这500m缓冲区内,要尽可能包含更多的城镇用地,服务更多的城镇居民,同时要与现有的公园保持一定距离。以《成都市公园城市绿地系统规划(2019—2035年)》(简称《规划》)中规划建设的公园特征为标准,筛选符合标准的预测点位,按照模型预测的概率由高至低筛选出60个优先建设的公园点。本文研究框架如图2所示。
图2 城市公园选址适宜性评价框架图
Fig.2 Framework diagram for evaluating the suitability of urban park sites
资料来源:笔者自绘
2.1.3 模型超参数调优
网格搜索交叉检验(Grid Search Cross-Validation, GridsearchCV)是一个用于模型参数调优的工具,通过在给定的参数组合上执行交叉检验来确定最佳参数设置。本研究对参数的调节主要有:弱学习器的最大迭代次数(n_Estimators)、学习率(Learning_Rate)、最大特征数(Max_Features)、决策树最大深度(Max_Depth)、最小样本数(Min_Samples_Split)、随机树种子(Random_State),参数设置见表1。GBDT模型与GridsearchCV调参均在Python 3.9解释器中完成。
表1 模型超参数调节
Tab.1 Model hyper-parameter tuning
资料来源:笔者自绘
2.2 模型评估
2.2.1 ROC曲线
受试者工作特征(Receiver Operating Characteristic Curve, ROC)曲线,是一种展示分类器性能的统计图,以假阳性率(False Positive Rate, FPR)为横坐标,以真阳性率(True Positive Rate, TPR)为纵坐标。以ROC曲线下的面积S表示AUC值,S越大,表示模型区分正类和负类样本的能力越强,分类器性能越好。当S接近1时,表示分类器性能最佳;当S为0.7~0.9时,表示实验准确性较高;当S=0.5时,表示实验无诊断价值。通过绘制ROC曲线(图3)并计算S值,发现模型的分类性能表现较好(S=0.97),可以满足预测需求。
图3 模型拟合的ROC曲线及AUC值
Fig.3 ROC curves and AUC values of model fit
资料来源:笔者自绘
2.2.2 混淆矩阵
混淆矩阵是在机器学习和统计学中用于评估分类器性能的一种表格,特别适用于监督学习中的二分类问题,它对模型的分类结果进行详细总结,以矩阵的形式展示模型对样本分类的情况。矩阵中有四类数据,一是TP(True Positives)正类判断为正类的个数;二是TN(True Negatives)负类判断为负类的个数;三是FP(False Positives)负类判断为正类的个数;四是FP(False Negatives)正类判断为负类的个数。基于这四类数据,可以计算分类器的准确率A(Accuracy)、精确率P(Precision)、召回率Rc(Recall)及F1分数。计算公式如下:
准确率反映模型对所有类别分类的性能,是该模型预测正确的个数和所有预测个数的比值;精确率又叫查准率,表示所有预测为正的样本中实际为正的概率,相较于准确率,精确率更侧重某一个类别;召回率又叫查全率,是针对原样本而言,表示实际为正的样本被预测为正的概率;F1分数由精确率和召回率计算得到,可以帮助我们平衡精确率和召回率,使这两个指标都保持较高的值,取一个平衡。通过设置不同的阈值,统计各阈值下模型的准确率、精确率、召回率和F1分数,并将预测结果进行可视化展示(图4)。观察表2可以发现,随着阈值的增加,模型的精确度、F1分数表现为先上升后下降,当阈值为0.5时,模型的综合表现最佳,此时的F1分数也达到峰值。因此,本文选择0.5作为模型的阈值。
图4 不同阈值下的混淆矩阵
Fig.4 Confusion matrix at different thresholds
资料来源:笔者自绘
表2 不同阈值下模型的各类评估指标
Tab.2 Each evaluation index of the model under different thresholds
资料来源:笔者自绘
2.2.3 特征重要性检测
特征重要性可以反映参与模型构建的特征因子的重要程度,也可以在一定程度上反映特征因子对于公园选址的重要程度。在GBDT模型中,所有因子的重要性得分总计为1,每个因子的得分为0~1。根据重要性分数进行可视化处理得到图5。通过分析可知,重要性最大的特征值为路网密度(0.253)。城市公园建设的最终目的是服务居民,良好的道路网可以方便市民前往公园,提高公园的可达性和可持续利用性,公园的建设也可以为城市道路网增添亮点,提升城市的形象和吸引力。重要性排在第二位的是城市建筑轮廓(0.209)。公园作为城市中的景观,不仅可以为城市增绿,还可以改善城市温度,特别是在人口密集的中心区域,公园绿地可以有效缓解热岛效应、降低污染。排在第三位的因子是与水域的距离(0.148)。在公园的内部,水域景观可以为公园增添自然风景和生态价值,提供生物多样性和生态平衡,人工湖、喷泉和水景也成为公园景观的一部分,增强了公园的吸引力和活力;公园的建设也有助于水域生态环境的保护和改善,如湿地公园的建设有利于水质净化和自然生态的保护。第四位和第五位的分别是与居民点的距离(0.101)和人口数量(0.068),两者的重要性程度较为接近。一般来说,人口越多的区域,其到访公园的可能性越大,人口密度高的区域意味着会有更多的潜在用户和需求[23]。排在后五位的特征值分别为坡度(0.061)、高程(0.049)、城市植被覆盖度(0.041)、城市热岛效应(0.039)和PM2.5浓度(0.031)。
图5 自变量重要性检测图
Fig.5 Importance detection plot for independent variables
资料来源:笔者自绘
2.3 预测结果分析
根据模型设置的阈值和预测结果,将所有区域分为四个等级,分别为高度适宜(0.9~1)、较适宜(0.7~<0.9)、一般适宜(0.5~<0.7)、不适宜(< 0.5)。对照2022年成都市公园矢量数据,共计1116个网格。其中,概率在0.5以上的有922个,模型实际准确率为82.6%。至2024年,新增公园网格327个。其中278个预测概率达0.5以上,准确率为85%。将现有公园构建的500m缓冲区作为服务范围,去除城镇用地中已覆盖的区域,剩下的区域即为新建公园期望覆盖区域(图6)。
图6 公园建设选址预测结果图
Fig.6 Map of forecast results of park site selection
资料来源:笔者自绘
统计得到现有公园建设面积,考虑到成都市有青龙湖湿地公园、东安湖公园等个别面积较大的公园,采用平均面积不符合实际情况。因此,本文统计现有公园投影面积的中位数,为18098.73 m²,等效于缓冲区半径为76m。将所有候选点位构建76m缓冲区,假设为其建设范围,再构建500m缓冲区作为服务范围,然后对所有候选点进行筛选。为避免建设的偶然性,首先统计《规划》中81个新建公园覆盖的城镇用地面积,以及与周围公园的距离之和;其次以两者为标准对候选点位进行筛选;最后按照模型预测概率由高至低挑选60个优先建设的公园点。
分析图6可知,预测的30个优先建设的公园集中在温江主城区、龙泉驿区西部、双流区、高新南区北部。这几个区域属于成都核心五城区外围的卫星城,相较于五城区发展相对滞后,但随着城市的不断扩张,这些区域的人口会越来越密集,公园的潜在用户和需求逐渐增多,同时能够用于建设公园的预留用地也较多,对城市风貌的塑造相对简单。五城区内部公园分布较少。原因在于,一方面主城区经过多年的发展,公园数量已接近饱和;另一方面剩余空地较少,土地经济价值远高于卫星城区,公园建设难度大。30个次级优先建设公园主要分布在双流区北部、郫都区南部、新都区东部。与实际情况对比,并参考《规划》中的郊野公园和“百个公园”示范工程,成功预测包括成华区二仙桥公园二期、新都区蜀龙大道街心公园、双流区万家社区公园、龙泉驿区东风渠滨水公园等在内的12个公园,其余预测位置均分布在规划公园周围。这说明预测结果有一定的参考价值。分析目前成都市公园的布局形态,发现五城区和卫星城区之间公园发展不平衡,天府绿道的建设使得五城区与卫星城区之间形成绿色廊道,但是城区内部公园之间的联系不够紧密,预测的公园可以有效缓解这些问题。未来的公园建设应加强卫星城区的发展,结合现有的公园位置形成由点串线、由线化面的绿地新格局。
2.4 结论
本文基于GBDT模型,以成都市中心城区为研究区域,通过对现有公园选址进行分析,结合多源地理大数据,对中心城区公园选址进行适宜性评价,并结合已知规划中的公园设置对预测点位进行筛选,最终预测了60个公园建设点位,得到如下结论:
一是GBDT模型分类性能较好,通过对现有样本的学习实现对小区域的概率预测和评价,调节模型的参数可以使模型达到较高的精度(P=0.909,S=0.97),能够比较准确地反映实际情况。通过对模型输出特征重要性的分析发现,对建设公园影响程度较大的因素包括路网密度、人口、城市规模、与水域的距离,这些也是实际公园选址必须考虑的因素。
二是从空间角度来看,现有的公园选址集中在主城区,在外围的卫星城如温江区、龙泉驿区、新津区等地分布较少,要实现居民“300米见绿、500米见园”的目标,现有的公园数量还无法满足需求。根据预测结果,温江区、双流区、高新区和龙泉驿区是建设公园潜力较大的区域,主城区内的成华区中部、青羊区是主要建设区域。成都市未来的公园建设应当向外围卫星城扩展,促使城市人口和资源分散,减轻城市中心的环境压力。根据现有公园的布局,连点成线,构建各城区之间、城区内部的绿色廊道,实现城市空间的合理利用和均衡分布,促进城市可持续发展目标的实现。
03
结束语
利用机器学习模型、GIS平台和多源数据可以定量评价公园选址的可行性。机器学习模型能够利用大量的样本数据进行训练和学习,准确预测城市公园的最佳选址位置。通过对机器学习算法的分析和模式识别,可以从复杂的数据中提取特征和规律,相较于主观判断,可以帮助我们做出更科学的选址决策,结合GIS平台强大的地理信息分析和空间数据处理功能,能够为城市公园选址提供直观的空间分布信息。多源数据的综合利用也能够丰富选址预测的信息维度,包括人口数据、道路网数据、环境数据等,从而更全面地评估各选址因素的影响和重要性。
城市公园的选址需要理论与实际相结合,规划政策的考量至关重要,只有这样才能确保公园的选址与城市发展的整体利益相符,实现城市公园规划的长远发展目标。本研究仅在理论方面进行了考量,在实际建设中,公园选址还要考虑城市的整体规划布局,以及政府的发展政策,确保公园可以最大限度地满足市民的休闲需求,提升城市的生活品质,实现公园建设与城市可持续发展的有机结合。