01
引言
视觉是公众感知景观环境的重要方式之一,传统的视觉景观评估方法,如美景度评价法和问卷调查法,尽管可有效收集人们对特定景观的偏好,但仍存在高度依赖于专家或受访者对图像的主观评判、人力物力成本巨大、操作复杂等诸多弊端。近年来,人工智能(AI)技术的发展为解决上述问题带来了契机。本研究以广东省广州市天河区的珠江公园为例,旨在建立一种基于城市公园图像采集与深度学习技术的绿地智能感知方法,以实现对公园视觉质量的快速、精准和全面评估,指明低质量区域并为空间的更新改造提供指引。
02 研究材料与方法
技术路线 首先,本研究采用了一种便捷的、使用全景相机的公园图像采集方法,并通过人工实地操作方式验证其可行性;接着,利用在ADE20K数据集上训练的Seformer-B5模型自动识别图像中的150类物体,计算绿视率、天空视域因子、路面占比、人工构筑物占比4个客观评价指标;此外,选取吸引力、丰富度、自然程度、压抑程度作为主观评价指标,并通过人工成对比较图像的方式——即每张图像在4个主观指标中被划分为高分值或低分值两类——建立公众感知数据集;基于所构建的公众感知数据集训练ViT-base-p16模型,以实现对主观指标的有效预测;然后,通过可视化呈现主、客观评价指标的空间分布图,识别低分值图像的空间分布区域;最后,通过相关性分析主、客观评价指标间的相关性,为公园改造提供建议。
技术路线 © 赵旭凯,林广思
数据收集与处理 图像采集时间为2023年7月6日9:00~13:00,一位图像采集人员使用Insta360 ONE RS全景相机步行沿珠江公园所有道路进行拍摄,同时使用智能手持GPS传感器(佳明eTrex 221x)记录拍摄点位的位置信息,共采集到275个点位的全景图像。随后使用Insta360 Studio于平铺模式下截取0°和180°两个视角的照片共550张,以展示点位四周的场景环境。
珠江公园图像采集点位 © 赵旭凯,林广思
基于深度学习技术的图像评价方法 使用图像语义分割模型提取客观评价指标 环境中的客观物理要素(包括自然和人工要素)对景观的视觉质量和人们的审美认知有很大的影响。本研究采用基于ADE20K数据集训练的SegFormer-B5模型进行客观物理要素的提取。其中,ADE20K数据集是2016年由MIT开放的场景理解的数据集,包括150个要素类别。本研究从150种要素中提取出13种公园场景中常见的视觉要素,并借鉴现有视觉感知研究计算绿视率和天空视域因子。前者反映了公园的生态和自然程度,后者则可衡量空间的开放程度。此外,珠江公园中道路与人工构筑物也较多,故本研究还引入了路面占比和人工构筑物占比两个指标。
使用图像分类模型预测主观感知分数 在传统的图像主观感知研究中,常用评级测度法、配对比较法、分类法等方法获取受访者的景观感知评价。以李克特五点式量表为例,受访者需从1~5的等级对图像进行评分。在获取评分后,深度学习中的图像分类模型可学习评分与图像特征之间的关系,从而模拟人类感知过程,将图像划分为1~5的等级,实现大规模、快速的主观感知评分。
(1)主观评价指标建立 借鉴传统视觉景观评估研究,选取吸引力、丰富度、自然程度和压抑程度作为主观评价指标。其中,吸引力指公园场景对人们的吸引程度,包括景观的美观性、独特性等特征。丰富度指公园环境组成元素(包括物种与各类设计元素)的多样性和复杂性。自然程度指游客对公园环境在人为干预和自然状态之间平衡程度的感知,测定并理解公园的自然程度感知有助于制定公园维护管理策略。压抑程度指的是令人抑郁、沮丧、消沉的程度,压抑程度高的公园可能会让人感到不适,影响园内体验。
(2)两两对比结果收集 与直接获取被试者的评分数值相比,两两对比是一种更有效、准确的感知获得方式。首先,在尽可能涵盖所有公园场景的前提下,人工判读筛选出200张有效照片。随后,利用Java Script建立在线评分系统,该系统会根据用户的选择和图像已有的对比关系,动态调整所展示的图片,以保证每张图片均获得充分对比与有效评分。每次对比随机从200张照片中抽取2张,被试者需根据问题(“哪个场景让您感到更有吸引力/丰富/自然/压抑?”)选出更符合个人偏好的图片。实验共招募35名华南理工大学风景园林专业为主的在读硕士生(男女比例12:23),完成为期三天(2024年3月3~5日)的在线实验。最终,四项指标共获得对比结果6702项,平均每个指标获得结果1675.5项。
基于图片两两对比的主观评分系统示例 © 赵旭凯,林广思
(3)主观评价指标计算 参考现有研究,本文使用“赛程强度”方法来统计主观评分,以此获取每个指标的高低得分。
4项主观评价指标高低得分示例 © 赵旭凯,林广思
(4)图像分类模型训练 上述200张图片在4项指标上均被赋值为“0”或“1”,从而构成公众感知数据集。图像分类模型可以将这些数值作为标签,以图像作为解释变量进行训练。本研究采用ViT-base-p16模型进行图像分类。在训练阶段,ViT-base-p16模型首先使用大规模的ImageNet-1k数据集进行预训练,以学习图像的通用表示,接着在公众感知数据集中分别对各项指标进行微调,最终得到4个模型分别用于预测公园所有图像的吸引力、丰富度、自然程度和压抑程度。
Copyright © 2018 景观网 .All Rights Reserved
www.中国景观网.net 备案号:浙ICP备2021007798号 技术支持:中国互联 网站后台