基于DeepSeek的iData智能数据工厂集成方法

导语:本方案实现了地理信息采编全链路智能化赋能覆盖智能问答交互式编辑与人工智能(AI)质检 三大核心能力大幅提升了地理信息采编软件的智能化程度

国家高度重视数字经济发展和智慧城市建设,先后出台了《“十四五”数字经济发展规划》《关于全面推进实景三维中国建设的通知》等政策,推动地理信息产业与实体经济深度融合。


在此背景下,我国地理信息产业持续发展,地理信息系统(GIS)技术已广泛应用于国土调查、资源管理、城市治理等领域。同时,人工智能技术正深刻改变着传统行业的运作方式,大数据、云计算与GIS的融合不断深入,推动实景三维中国建设进入新阶段,也促使传统GIS软件向智能化、自动化方向转型。


近年来,以变换器(Transformer)架构为代表的人工智能(AI)技术迅猛发展,生成式人工智能产品如GPT系列、深度求索(DeepSeek)等不断突破技术瓶颈,推动多行业智能应用落地。DeepSeek凭借高效任务处理、快速迭代和强大的可扩展性,为地理信息数据处理提供了新的技术路径。目前,AI已初步应用于遥感影像解译、地物识别、三维重建等地理信息生产环节,典型实践包括建筑物矢量提取、耕地动态监测、点云语义分类等,显著提升了数据处理的自动化程度。


然而,现有AI应用多集中于特定任务或独立场景,缺乏面向多模态、多任务的一体化智能集成框架,难以系统支持地理信息“采-编-存-用”全流程业务,尤其在处理高维、跨源、多尺度地理数据时,尚未形成协同高效、自适应优化的技术体系。因此,如何将DeepSeek等先进AI能力深度融入GIS平台,构建智能化的地理信息处理链,已成为行业亟待突破的关键问题。


本文围绕DeepSeek与GIS平台融合方法展开研究,重点探索自然语言交互、任务自动生成与多模态地理数据处理的一体化集成架构,以提升地理信息生产的智能化水平和业务响应效率。


1 基于DeepSeek的智能采编实践方案


1.1 智能采编软件的架构和设计


1.1.1 架构设计


随着生成式人工智能与大语言模型(LLM)的快速发展,智能系统正迈向更高自主性与泛化能力的新阶段。在地理信息领域,LLM与GIS深度融合,实现了从自然语言指令解析、多步空间任务自动生成到结果可视化的全流程智能化,显著提升了空间分析的自动化水平。在此基础上,通过引入地理知识图谱与多模态语义理解,系统能够识别复杂空间关系,支持语义推理与动态决策。在此背景下,本研究构建了一种融合多模态感知、时空知识驱动与自主决策能力的地理信息智能体架构,聚焦知识问答与空间算子生成两大核心,以推动GIS业务智能化升级。


该架构依托DeepSeek大语言模型与南方数码数据工厂(iData)构建知识问答与智能算子模块,前者提供专业地理信息解答,后者借助LLM生成Python代码并由智能采编软件执行,实现零代码空间分析。系统通过前端自然语言交互界面接收指令,中台自适应网关完成语义解析与任务调度,后端对接iData等引擎,形成“地理知识理解-空间逻辑生成-服务闭环反馈”三级协同机制,从而显著提升数据生产与建库的整体效率。其中与iData数据工厂对接形成的智能化引擎架构如图1所示。


图 1 iData智能化引擎架构



依据该架构,本文研究设计出了iData数据工厂与DeepSeek相结合的智能采编软件,主要包括GIS平台层、DeepSeek集成层、DeepSeek服务层,生成知识问答与空间算子两大功能,其逻辑如图2所示。


图 2 DeepSeek与GIS平台逻辑图


1.1.2 知识问答


知识问答主要为用户提供专业知识回答,并不直接操纵软件或者数据。


基于DeepSeek构建的地理信息知识库系统,通过预置向量数据库存储测绘领域多源资料的向量化成果,深度融合GIS专业知识与LLM语义理解能力,支持上下文感知的多轮交互。


用户在智能采编软件中,逻辑路径为:用户问答(自然语言)→请求处理→地理信息知识检索→相似度检索→结构化响应→呈现结果。用户通过界面发起自然语言提问,业务逻辑层接收问题并进行初步处理;应用程序编程接口(API)网关将处理后的请求发送到DeepSeek集成层的知识检索器;知识检索器利用向量数据库进行地理信息知识检索;匹配到的知识内容返回到知识检索器,随后业务逻辑层将结果结构化处理后呈现给用户,实现专业地理知识与空间分析的智能化协同服务。


1.1.3 空间算子生成


空间算子生成,主要通过大语言模型生成Python代码的形式,自动产生空间运算的算子,并交给采编软件执行,以达到操作软件、处理数据的目的。


基于DeepSeek大语言模型和地理信息处理引擎,以及其对应的Python代码知识库,空间算子智能生成引擎实现了从自然语言到可执行代码的智能化转换。用户通过用户界面以自然语言描述空间分析任务,软件平台将请求转发DeepSeek集成层,DeepSeek集成层根据任务类型调用代码生成器,并利用LLM进行语义解析,提取任务类型、输入数据和输出要求,并结合预定义的Python代码知识库生成符合GIS平台(如iData数据工厂、ArcGIS)的二次开发规范的代码。生成的代码经过语法检查后,直接部署到地理信息处理引擎中执行,并最终通过用户界面呈现给用户。


用户在智能采编软件中,空间算子生成逻辑路径为:用户问答(自然语言)→请求处理→空间分析代码生成→代码生成请求→结构化响应(平台执行代码,完成相应动作)。


1.2 DeepSeek集成层的关键实现


1.2.1 概述


DeepSeek集成层主要通过若干个模块实现,各个模块说明如表1所示。各个模块均通过Python语言实现。


表1 DeepSeek API架构组件表

Python语言中有很多开发库提供对大语言模型的操作,如OpenAI及其兼容库,可以直接连接到本地或者远程部署的DeepSeek,并且提供了多种类型的API接口,以满足不同开发者在多样化场景下的需求。


1.2.2 简单API示例


1.用户请求功能:用户通过界面发起请求,该界面提供用户与DeepSeek进行对话的操作平台,方便用户输入需求和查看DeepSeek的回复内容。


2.知识检索器功能:用于将原始知识文件转换成向量文件,并处理知识查询请求,调用知识向量库进行相似度检索。



API调用样例代码:


3.本地模型功能:在离线的模式下调用本地部署的模型对用户请求进行处理。


4.在线模型服务功能:在线模式下处理用户请求。


API调用样例代码:

1.3 GIS平台层的关键实现


1.3.1 平台与DeepSeek的集成架构


本研究基于iData平台重构GIS与DeepSeek的集成架构(图3),以自然语言交互为入口实现智能化数据处理。


该架构主要包含三部分:①设计支持文本与语音的多模态输入接口,可将用户语义实时解析为标准指令,形成协同处理入口;②对GIS数据接口进行AI二次封装,利用DeepSeek的语义解析与知识库推理能力,将自然语言指令自动转化为可执行的空间数据操作,实现从任务需求到功能执行的无缝衔接;③改造GIS专业算法库,构建“AI调用算法-算法反馈优化AI”的双迭代闭环,依据用户需求智能匹配算法,并根据运行结果动态调整参数,实现复杂任务的自适应优化。


在整体结构中,接口设计与二次封装共同构成用户交互界面,二次封装与算法库改造则形成地理信息处理引擎。该架构通过自然语言驱动与双向调优机制,显著提升系统灵活性与处理精度。


图 3 平台与DeepSeek的集成架构


1.3.2 平台与DeepSeek的交互流程


GIS生产平台与DeepSeek的数据交互流程严格有序,确保数据的准确传输与高效处理。整体流程见图4。


图4 生产平台与DeepSeek数据交互流程时序



知识查询模块提供地理信息系统相关知识查询服务,支持智能问答。空间分析模块通过LLM生成GIS分析代码,并由GIS Engine执行,实现复杂的地理计算,严格的校验机制确保数据格式与计算结果的正确性。模块化架构使得生产平台与DeepSeek能够灵活协作,满足不同业务场景的需求。


2 智能采编软件的应用实例


2.1 部署环境


本文基于iData数据工厂研发了智能采编模块。iData数据工厂是一款客户端/服务器(client/server)架构的地理信息采编软件,通过全本地化部署策略适配生产环境,满足测绘数据特殊保密需求。


2.1.1 硬件环境


以搭载AMD Ryzen 97945 HX处理器、NVIDIA GeForce RTX 4090 Laptop显卡和配备32GB内存的消费级笔记本电脑为测试基准,确保软件运行的流畅性和稳定性。


2.1.2 软件环境


iData数据工厂智能化引擎单机版的设计集成了支持混合架构的OLLAMA服务。基于LLM服务架构(LLM_Server)对DeepSeek语言模型进行了预训练,通过调用嵌入模型以及向量数据库(FastGPT),共同构建了完整的系统环境。


2.2 应用实践


2.2.1 智能问答


在测绘数据生产领域,DeepSeek和FastGPT集成iData平台说明、规范、测绘作业标准化流程及GIS知识库,构建了测绘数据生产智能问答系统。以1∶1000地形图项目为例,系统能在生产中实时解答技术问题,依据设计书和平台规范自动生成标准项目规划,并且就具体知识领域进行解答,如等高线的处理方法、居民地的采集思路和土方计算的方法等。所有问答记录沉淀为项目知识资产,为后续任务提供可复用的规划、解答经验等支持。相较常规模式,该方法显著提升了新手学习效率,降低了测绘门槛,体现了智能问答深度融入平台流程与项目实践的创新价值。


2.2.2 智能编辑


在测绘生产过程中,除数据采集外,数据转换、自动处理和修复等环节仍有一定工作量。当前生产模式正逐步从依赖软件内置功能或二次开发转向以需求为导向的智能编辑系统,用户通过问答交互快速生成数据处理流程,可大幅缩短作业周期并简化生产流程。


例如,用户使用自然语言描述编辑需求:“找出RESNT层中未闭合的房屋面,并修复该未闭合房屋,最后统计修复数量。”DeepSeek接收指令后解析,依据iData接口相关知识库,确定实现该功能所需调用的接口和操作方法。通过调用iData的拓扑分析接口,检测RESNT层中的未闭合房屋面,利用自动修复算法进行闭合处理,确保拓扑完整性(图5)。


图5 房屋修复前后闭合情况对比


此外,基于AI自动生成的功能还包含高程点的导入导出、多段线交点计算、缓冲区分析、四参数转换、要素属性自动赋值等,均取得了良好的应用效果。


2.2.3 智能质检


DeepSeek结合iData平台的多模态数据融合能力及智能算子库,实现了数据处理、分析和质检流程的高度自动化。用户可通过自然语言指令驱动系统智能处理(图6),DeepSeek解析语义后,调用iData中的拓扑检查、叠盖分析、属性一致性验证等算子,快速识别建筑数据中的未闭合、重叠、属性缺失等问题(图7)。


图6 自然语言指令驱动居民地面叠盖检查


图 7 质检助手智能处理结果




实际应用表明,基于AI质检功能在房屋要素质检、房屋叠盖、超短线质检、折返线检查、属性完整性或一致性等质检项中表现优异,可批量识别并修复拓扑错误,大幅降低人工干预并提升建筑数据处理效率。然而,其在等高线要素质检场景中存在局限,如“点曲矛盾”等复杂规则的处理精度不足,需依赖人工二次核查。当前该功能对显性拓扑错误处理效果显著,但对依赖高程逻辑、属性约束的复杂规则仍需结合人工校验,后续研究将通过强化领域规则引擎优化此类场景。


3 结束语


将DeepSeek与iData深度集成,通过智能问答、编辑和质检三大功能,可显著提升地理信息数据处理效率与准确性,为国土管理、资源监测提供高可靠性支持。其创新在于:①用自然语言交互降低GIS使用门槛,帮助非专业用户高效生成标准地图;②深度融合GIS知识库与操作手册,构建“知识-工具”闭环,实现从解答到流程自动化的全链路效率跃升,将复杂业务部署时间压缩至传统技术的1/60;③贯通数据采集、处理到应用构建的AI链条,大幅减少了人工干预。


为持续深化应用,需突破领域泛化性与数据安全瓶颈,使用专业词典与预训练提升语言解析精度,在自动化流程引入强化学习动态优化算子组合,并利用边缘计算轻量化部署降低延迟。平台通过优化模型推理效率与跨行业适配能力,为国土规划、数字孪生及元宇宙建设提供全要素、全场景、全周期的智能解决方案,推动地理信息生产从“工具赋能”向“自主决策”的跨越。



作者:广东南方数码科技股份有限公司 吴龙祥 郭振 邹磊 赖泽云


暂无评论,等你抢沙发

  • 短信登录
  • 密码登录
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
注册
已有账号, 立即登录
登录即代表您同意本网站的 《用户注册协议》
找回密码