社交媒体文本与语义网络:公众认知视角下空间基因识别提取新方法——以山东省烟台市蓬莱区为例
2025-03-14摘要
空间基因的识别提取是后续解析评价与传承导控的基础,目标是从复杂的城市形态中提炼出具有地方代表性的空间组织模式。针对以往数据有效样本量小、主观判断依赖性强等研究局限,本文采用社交媒体文本数据,引入语义网络分析技术,通过文本数据采集、主题模型分类、语义网络聚类、要素组合筛选,构建公众认知导向的空间基因识别提取新方法。该方法在山东省烟台市蓬莱区得到成功应用,为识别提取城市空间基因提供了一种新的技术路径。
作 者
郭楚怡 东南大学建筑学院硕士研究生
李伊格 东南大学建筑学院博士研究生(通信作者)
01
背景与问题
“空间基因”是段进院士团队于2019年正式提出的新概念,指城市空间与自然环境、社会人文长期互动形成相对稳定的空间组合模式,蕴含着协同的、在地性的城市空间发展观念。空间基因研究的技术应用,可促使规划设计基本流程从两阶段转向三阶段——将空间基因识别提取、解析评价和传承导控加入传统的规划设计流程中,实现规划设计的“在地性”,避免不尊重自然和历史的设计弊端。其中,空间基因的识别提取指从复杂的城市形态中提炼出独特的、相对稳定的空间组织模式,是上述规划设计技术体系的基础。因此,如何科学、高效地识别提取空间基因,具有重要的研究意义。
空间基因识别提取的核心原则是在地代表性,这意味着所识别提取的空间组织模式不仅应稳定存在,更应具有地方代表性,形成广泛共识。为此,学者将问卷、访谈等社会调查方法作为专家法之外的公众视角补充。考虑到传统问卷法本身在精度、广度、客观性上存在诸多局限性,学者进一步采用网络热词及词频统计方法[8]辅助研究,在一定程度上提升了研究的科学性。但一方面,网络热词中包含大量政府、市场等相关组织的宣传信息,难以将公众个体的认知信息剥离进行独立分析;另一方面,要素热度的统计只能体现要素本身的受关注程度,无法体现空间要素之间的组合关系,最终仍有赖于规划技术人员的主观判断。因此,如何提升公众认知数据的有效样本量,减少专家法的介入程度,成为公众视角下识别提取空间基因遇到的技术瓶颈。
由此,本文引入社交媒体文本数据和语义网络分析技术,提出公众认知视角下空间基因识别提取的新方法。
02
社交媒体文本、语义网络分析的引入
2.1 社交媒体文本:以公众个体为对象的数据来源
互联网的出现打破地理、时间的限制,拓宽了公众表达的渠道,社交媒体逐渐成为大众叙述与情绪表达的重要平台。通过分析挖掘社交媒体文本数据,可以获得公众在不同场所的感受、情绪和行为偏好,揭示城市的社会文化特点与空间特色。结合空间基因的原则与特征,将社交媒体文本数据作为空间基因识别提取的数据源,在数量、形式、内容等方面均具有优势。
数量上,社交媒体平台种类多样、数据更新速度快、研究的样本量丰富,可以获取大量市民对城市空间的感知。形式上,通过社交媒体平台获取非介入式数据,避免因预设调研问卷而遗漏深层信息等问题。内容上,社交媒体文本包含公众对城市空间的描述与对空间体验的评价,通常会提及色彩、美食、建筑等空间要素。文本中某些词语或要素出现的频次越多,说明其可感知强度越高。通过分析这些词语或要素承载的自然地理与人文历史信息,进一步挖掘具有地方代表性的空间要素,为后续的识别提取奠定基础。
由于社交媒体文本的语法缺少规范、内容冗杂,无法直接提取重要信息,需要通过预处理、分类等方法进行筛选;同时,每一条文本都是公众对自身体验的认知表达,信息分散且存在重叠可能,须综合分析后才能形成公众化的认知表征,进而应用于空间基因的识别提取。总体而言,社交媒体文本可以为深入了解公众对城市空间的感知提供丰富数据,经处理后可用于空间基因的研究分析,具有较高的适用性和可操作性。
2.2 语义网络分析:以要素关系为核心的分析方法
识别提取空间基因不仅要识别出特色空间要素,还要关注空间要素之间的组织关系,包括空间要素间的比例关系、序列结构、组合关系等。而这些仅靠统计高频词展开分析,略显单薄,需要引入新的文本分析方法来辅助研究。
随着自然语言分析技术的发展,以要素关系为核心的语义网络分析已被广泛认可并运用于规划文本、公众感知、景观特征、游客时空行为等研究。语义网络分析有别于传统的统计分析和数据处理方式,是用于研究群体行动者关系的研究方法。其焦点是关系及关系的模式,其原理是基于词语的出现频率、词语间的共现频率和间隔距离,探索文本的深层结构。因此,语义网络分析能够有效弥补词频分析只关注该词出现频率而忽略文本词句间深层语义信息的局限。在文本中,经常同时出现的词语存在潜在或抽象的关联关系。比如,有关古建筑、湖的描述多次同时出现在同一条社交媒体文本中,说明两者在公众认知中存在强烈关联。两者可能是空间地理位置相近,游客会选择同时游览;也可能是视线关联,登上古建筑可俯瞰湖面,或者在湖边可远眺古建筑伫立山间。
由此可见,通过语义网络分析方法寻找高频出现的词对,可以抽象出城市的空间要素、非空间要素及其相互关系。其中,空间要素及其相互关系用于识别提取空间基因,非空间要素则作为分析的依据与支撑。
2.3 空间基因识别提取的新方法
基于空间基因的特征,综合研判社交媒体文本数据及语义网络分析方法对空间基因识别提取的适用性,提出一种新方法。首先,从社交媒体平台采集关于城市的文本数据,通过主题分类,提取与空间要素相关的高频特征词;其次,基于文本数据集,建立高频特征词的共现矩阵,对其进行语义网络分析,聚类后得到空间要素组合;最后,结合空间布局、自然环境、人文历史等要素,从稳定性和协同性两个角度筛选出稳定存在的空间要素组合模式,识别提取城市的空间基因。研究框架如图1所示。
图1 研究框架图
Fig.1 Research framework
资料来源:笔者自绘
03
基于社交媒体语义网络分析的
空间基因识别提取方法
3.1 文本数据采集
从社交媒体平台采集与研究城市相关的文本数据,进行预处理。一方面进行空间信息的提取与落位,划定具体研究范围;另一方面通过删除无意义的词语、替换同义词等方式清洗文本数据,确定研究样本。
社交媒体平台种类多样,有携程网、豆瓣、小红书、大众点评、微博等。本文选取新浪微博文本为数据源,以山东省烟台市蓬莱区为例,进行空间基因识别提取方法的应用。通过Python获取蓬莱签到数据,每条微博包括微博ID、发布时间、发布地点及微博文本等信息。为保证研究结果的严谨性和文本的可读性,对数据进行清洗,包括替换同义词、剔除无意义字符、删除重复微博等步骤,共获得有效数据1140条。进一步对数据进行分词,去除“的、且”等与文本语义内容无关的词语,最终获得总文本量29840字。
3.2 主题信息分类
如果直接提取社交媒体文本中的高频词,会掺杂大量无意义的词语,进而模糊文本深层的语义信息。因此,通过引入潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型,快速在大量文本中挖掘与空间要素相关的主题及其特征词,规避无关词语的影响,使后续语义网络分析结果更加鲜明,有利于识别稳定的空间要素组合。
LDA是一种对文本数据主题信息进行建模的方法,可以用来识别大规模文档集或语料库中潜藏的主题信息,具有极强的解释性,可以有效解决短文本数据稀疏的问题。
该模型一般通过主题一致性得分来判断模型效果,得分越高,表示模型效果越好。选定最优主题数后通过pyLDAvis生成可视化结果。其中,每一个圆圈代表一个主题;圆圈之间有一定距离并呈分散状态,表示主题分类效果较好。
本研究根据图2主题一致性与结果可视化确定最优主题数为4(图3)。主题分类结果如表1所示。其中,主题1描述了公众的滨海旅游体验和蓬莱的滨海风光;主题2所包含的词语主要与当地特色产业和消费体验相关;主题3描述了公众的日常生活;主题4一定程度上体现出公众对蓬莱历史文化信息及独特人文气息的感知。由于主题3包含的词语未体现蓬莱的城市空间与人文特征,仅从主题1、2、4中选取前30个高频特征词进行后续分析。剔除无意义词语并替换同义词后,将其合并为一个高频词集,共包含58个高频特征词。
图2 主题一致性结果图
Fig.2 Visualization of topic coherence result
资料来源:笔者自绘
图3 主题数取4时的可视化图
Fig.3 Visualization of topic count of four
资料来源:笔者自绘
表1 主题分类
Tab.1 Topic classification
资料来源:笔者自绘
3.3 语义网络聚类
遍历文本数据,统计高频特征词在一篇微博文本中的共现次数,构建共词矩阵。以高频特征词为节点,以词对共同出现的次数为节点之间的关系,绘制语义网络图并进行聚类分析,得到空间要素组合。本研究借助Ucinet 6.0软件,对前文获取的高频特征词进行语义网络分析和聚类分析,直观地呈现各高频特征词之间的联系,以深入分析各要素之间的组合关系。最终,高频特征词聚类为三个簇群。将各簇群中的要素按照空间要素、非空间要素进行分类,得到三组具有不同主题特征的空间要素组合(表2、图4)。
表2 空间要素组合聚类结果
Tab.2 Result of spatial feature combination clustering
资料来源:笔者自绘
图4 语义网络分析结果
Fig.4 Result of semantic network analysis
资料来源:笔者自绘
3.4 空间要素筛选
仅凭微博文本数据所体现的公众感知情况,不足以证明上述空间要素具有空间基因的属性,需要辅以古舆图、古诗词等资料,从稳定性与协同性两个方面进行筛选与验证。从稳定性的角度筛选出长期稳定存在的空间要素及其组合关系,从协同性的角度检验空间要素组合与自然、人文之间的互动关系是否可持续。鉴于此,本文以表2中的空间要素为基础,以非空间要素为参考,结合空间分布、自然环境、人文历史等进行综合分析,并以聚类结果1为例进行详细说明(表3)。
表3 “阁—山—滩—海—岛”稳定性与协同性筛选
Tab.3 Stability and synergy screening of the “pavilion-mountain-beach-sea-island”
资料来源:笔者自绘
稳定性筛选,即从历时性角度关注空间要素及其组合关系是否一直稳定存在。在聚类结果1的空间要素中,“海洋极地世界、机场、博物馆”等是近现代为满足社会发展需要建设形成的,并不是当地长时间稳定存在的要素。但“沙滩、海、山、长岛、蓬莱阁”等空间要素则不同。古往今来,多位诗词大家曾作词赞美蓬莱仙境,如“忽闻海上有仙山,山在虚无缥缈间”“嵯峨丹阁倚丹崖,俯瞰瀛洲仙子家”等。古诗词中蕴含大量的景观空间信息,诗词明确指出海、山、阁等空间要素,同时结合明代的登州府总图,可以充分说明自北宋在丹崖山山巅修建蓬莱阁后,岛、阁、山、海之间便形成了稳定的空间序列,集中分布在沿海一带,至今仍特色鲜明。从历时性角度看,上述空间要素及其关系长时间稳定存在,并未出现要素消失、关系错位等突发变化,是一种时间维度下的传承。
协同性检验,即关注空间要素组合是否体现建成形式与自然、人文之间的互动,是否满足人的需求、体现人的观念,以及其关系是否和谐且可持续。结合相关资料分析,“阁—山—滩—海—岛”形成的空间序列分别与人类活动、当地文化产生了互动关系。一方面,空间序列的稳定存在对人类活动产生持续而深远的影响,依托山川地貌特征,孕育形成广为流传的“蓬莱十景”,包含丰富的空间要素、行为信息及观赏体验。如“仙阁凌空”“万里澄波”体现了远眺、仰视等不同的观景方式;“日出扶桑”“晚潮新月”体现了蓬莱海边特定时间与空间的互动关系;“渔梁歌钓”则体现了特定场所与社会人文活动的互动关系。另一方面,稳定存在的空间组合关系为广为流传的神话传说奠定了自然基础,在与当地文化长期的互动过程中,不断烘托人间仙境的形象特色。聚类结果中“蓬莱仙境”“八仙过海” “八仙群雕”等词表明蓬莱承载着独特的仙境传说,蕴含独有的空间意境。从《山海经》中记载的蓬莱、方丈、瀛洲三座仙山,到两位帝王来此求仙问药,再到民间八仙过海的传说代代相传,神仙文化内涵在蓬莱长盛不衰,积淀深厚,蓬莱也成为东方神话的策源地之一。同时,因为地理环境特点,海上雾气散而成气,聚而成形,海市蜃楼的出现更为神话传说铺就底色。蓬莱三面环海,海洋与仙境承载了公众对美好生活的向往与期待,神仙文化和海洋文化成为蓬莱独特地域文化的重要组成部分。换言之,在“阁—山—滩—海—岛”等要素的基础上,传说、信仰与人文景观的烘托,使“人间仙境”成为蓬莱的城市名片,也逐渐成为公众的广泛共识。
通过社交媒体文本,挖掘公众感知程度较高的空间要素组合,再结合古诗词、古舆图等资料,从稳定性与协同性角度分别筛选与检验,最终识别出“阁—山—滩—海—岛”是从古至今稳定存在的空间序列,且与社会人文产生独特的互动关系,体现出“山海定轴、滩随海绕、岛阁相望、阁耸山巅”的基因特征,塑造蓬莱成为山海交融的人间仙境。
根据上述方法,对其他聚类结果进行筛选分析,识别出蓬莱还具有“承古启今、中西融合”与“园中望海、疏落有致”的基因特征,分别体现在中西合璧的城市风貌与慢行可达的公共空间中(表4)。
表4 空间基因识别提取结果
Tab.4 Results of spatial gene recognition and extraction
资料来源:笔者自绘
04
结语
空间基因的识别提取是后续解析评价与传承导控的基础,目的是从复杂的城市系统与多元的空间要素中准确挖掘具有地方代表性的空间要素组合。本文采用社交媒体文本数据,结合语义网络分析,构建一种空间基因识别提取的新方法,提高其可操作性和结果准确性,在一定程度上降低规划师个人感受对识别提取结果的影响。从数据获取方式上看,通过社交媒体文本数据,可以更加全面、动态地获取公众对城市的认知,相较于传统社会调研方式,是方法的优化与转换;从数据分析方法上看,通过语义网络分析,可以直接而明确地体现词句间的语义关系,获取空间要素之间的组合关系。
本文为空间基因识别提取提供了公众认知视角下的新思路,以蓬莱为实例进行研究,说明通过上述方法路径,可以获得在地性强的空间要素组合。但本研究在数据获取和处理上还有一些不足之处,以微博文本为数据源,由于平台限制,数据的时间跨度较小,用户难以覆盖所有人群类型,对分析结果的精确度存在一定影响。随着技术手段的进步,未来可以从多个社交媒体平台获取文本数据进行综合处理,以提高人群类型的覆盖率和文本信息的时间跨度。