PESI

物理增强空间智能实验室

@ 北京邮电大学

实验室简介 Introduction

北京邮电大学物理增强空间智能（Physics-Enhanced Spatial Intelligence, PESI）实验室物理增强空间智能（Physics-Enhanced Spatial Intelligence, PESI）实验室聚焦于将物理规律与空间智能技术相结合，探索智能生物体理解现实世界并与之交互决策的理论技术。

实验室由计算机学院特聘教授熊永平博士领导，团队成员包括5名博士和10余名硕士，实验室注重理论创新与硬件系统落地结合，近年来在多模态表征、高性能渲染、三维重建等方面取得较多的研究成果，并积极开展政产学研用多方位合作，先后与北京市丰台区、井冈山经济技术开发区共建产学研基地，产品成功转化并规模应用在国家电网、中石化、中国华能等行业龙头企业。

实验室秉持“研究源于实际问题，技术服务于社会发展”的理念，强调理论与实践的结合，注重研究工作的原创性与实用性。鼓励团队成员勇于挑战前沿难题，推动开放合作，促进学科交叉研究。欢迎企业与学界携手合作，共同推动物理空间智能从实验室走向真实世界。

实验室聚焦空间智能领域，在多模态空间感知、物理驱动场景仿真、多智能体决策控制等方向取得了一系列代表性成果，先后在 CVPR、ICCV、SIGGRAPH ASIA、ACM TOG、ACM MM、ACL、Pattern Recognition、NAACL、IEEE TMC 等顶级会议和期刊上发表论文，申请和授权了20余项专利。

多模态空间感知

面向复杂环境下的智能感知需求，研究基于激光雷达、深度相机等多传感器融合的多模态语义表征方法。聚焦以视觉为核心的图像、点云与辐射场融合建模，研究深度学习驱动的自动语义分割与目标定位技术，提升对三维场景的细粒度理解与推理能力，为自主导航、数字孪生与智能机器人提供高精度空间感知支撑。

多模态空间感知演示视频（敬请期待）

物理驱动场景仿真

面向复杂环境仿真中真实性与效率不足的问题，研究物理规律驱动的高保真场景生成技术。如融合柔体动力学、流体力学与物理级渲染，构建具备真实材质、光照和环境交互的高写实虚拟场景，开发支持水下世界、极端气候等复杂条件的世界模型，为智能感知、机器人仿真和数字孪生提供可信环境支撑。

物理驱动场景仿真演示视频（敬请期待）

多智能体决策控制

构建支持算法训练与验证的大规模虚实融合场景库，基于视觉-语言-行动（VLA）与视觉-语言导航（VLN）技术，实现机器人在无地图、动态环境中的自主行走与任务理解。研究多智能体协同决策与自主编程，推动工业机器人在非结构化环境中自适应作业，支撑智能制造、深地探测等重大应用。

多智能体决策控制演示视频（敬请期待）

最新动态 Latest News

2025-9-27

OpenHarmony2025年度竞赛训练营获得全国冠军及最佳指导教师奖竞赛

颁奖图片

2025-02-26

北京电影学院中国动画研究院院长孙立军教授参观指导PESI实验室交流访问

孙立军教授参观照片

2025-01-06

韩国TOP2 AI公司董事长李社长参观PESI实验室产品交流访问

韩国李社长参观照片

2024-12-31

PESI实验室联合北京大学医学院及北京师范大学年度总结会交流访问

年度总结会照片

2024-12-02

团队全体成员前往日本东京参加SIGGRAPH ASIA'24并组织团建活动团队活动

东京团建活动照片

2024-12-02

OpenHarmony全国高校竞赛训练营获得全国冠军及最佳指导教师 ( 1 /84) 竞赛

颁奖图片1

颁奖图片2

2024-08-20

DirectL被SIGGRAPH ASIA'24 & ACM TOG接收 CCF-A

2024-06-15

VISTA被ACL'24接收 CCF-A

2024-06-10

LayoutPointer被NAACL'24接收 CCF-B

2024-06-21

量子位报道视频理解成果

2023-11-09

CSIG文档图像分析与识别专委会报道DocDiff

2023-08-01

DocDiff被ACM MM'23接收 CCF-A

PESI团队

教师

熊永平教授照片

熊永平

教授，博士生导师

北京邮电大学计算机学院特聘教授

北邮-井冈山实验室常务副主任

PESI实验室负责人

博士生

周俊杰

博士生

研究方向：多模态融合与理解。

尚宇

博士生

研究方向：实时光场重建与重建。

杨宗元

博士生

研究方向：三维内容生成与渲染。

刘宝林

博士生

研究方向：光场内容编辑与优化。

李嵩

博士生

宋映德

博士生

研究方向：物理驱动场景仿真。

硕士生

刘子琦

硕士生

招展慧

硕士生

李佳庆

硕士生

李昊洋

硕士生

李嘉铭

硕士生

曹嘉伦

硕士生

刘文

硕士生

陈赛

硕士生

程家伟

硕士生

朱彧

硕士生

江宇程

硕士生

陈国锐

硕士生

成果

神经外科全息手术导航

杨宗元, 曹嘉伦, 李嘉铭, 龚剑桥, 宋映德

该项目能够在手术中以裸眼3D形式显示患者脑部的结构，帮助医生精确定位，从而显著提升神经外科手术的精确性和安全性。

发布时间：2024-10-20

项目

OpenHarmony高校竞赛训练营全国冠军

该项目在2024年度OpenHarmony竞赛训练营中荣获冠军。

获奖日期：2024-10-17

竞赛

公式识别 [link]

李昊洋, 李佳庆, 李嘉铭, 刘子琦

TexTeller是一个端到端公式识别模型，不仅支持扫描图片、手写公式以及中英文混合公式的识别，还具备文本段落的通用OCR能力。截止目前，TexTeller已经在HuggingFace上累计获得20万下载量，被腾讯、网易等企业的OCR部门广泛采用，并受到LaTeX工作室等多个公众号的报道。

发布时间：2024-06-06

项目

MLVU

多任务长视频理解评测集MLVU

该评测集由实验室指导老师熊永平和博士生周俊杰联合智源研究院、北京大学等单位共同创建并发布。发布半年来，MLVU已被包括Meta AI, Nvidia NV Lab, 腾讯、字节等顶尖AI研发机构广泛使用。

评测集

代表工作

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

⌈ACL 2025 Oral, CCF A类会议⌋

GitHub Stars

EYE^3: :Turn Anything into Naked-eye 3D

⌈ICCV 2025, CCF A类会议⌋

CPG: Contrastive Patch-Graph learning for 3D point cloud

⌈Pattern Recogntion'25, CCF B类及SCI 1区TOP期刊⌋

DirectL: Efficient Radiance Fields Rendering for 3D Light Field Displays

⌈SIGGRAPH ASIA'24/TOG, CCF A类会议及期刊⌋

VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

⌈ACL'24, CCF A类会议⌋

DocDiff: Document Enhancement via Residual Diffusion Model

⌈ACM MM'23, CCF A类会议⌋

LayoutPointer: A Spatial-Context Adaptive Pointer Network for Visual Information Extraction

⌈NAACL'24, CCF B类会议⌋

GDB: Gated convolutions-based Document Binarization

⌈Pattern Recognition'24, CCF B类及SCI 1区TOP期刊⌋

Document Binarization with Multi-Branch Gated Convolutional Generative Adversarial Networks

⌈ICIP'23, CCF C类会议⌋

CarveNet: A Channel-Wise Attention-Based Network for Irregular Scene Text Recognition

⌈IJDAR'22, CCF C类期刊⌋

FAT: Field-Aware Transformer for Point Cloud Segmentation With Adaptive Attention Fields

⌈IEEE Transactions on Industrial Informatics, SCI 1区TOP期刊⌋

Towards Scalable Training for Handwritten Mathematical Expression Recognition

招生信息

PESI实验室诚邀对物理增强空间智能有热情的学生加入我们的研究团队。我们专注于多模态空间感知、物理驱动场景仿真和多智能体决策控制，欢迎志同道合的博士生和研究生申请。

学生培养

丰厚的学生补助。
弹性出勤，结果导向，无需打卡。
服务器资源充足：10卡3090 24G服务器(训练机)、8卡P40 24G服务器(测试机)，非大组机器，小组内自用。校内集群8卡A800 (80G) 大量使用额度。
研究生二年级暑期后可实习，提供丰富的就业机会。
鼓励参加高水平学术会议，拓宽学术视野。

招生要求

对空间智能、机器人、计算机视觉等相关方向有浓厚兴趣，自我驱动，愿意长期投入科研探索。
具备扎实的数学与编程基础，熟悉Python等主流编程语言，有深度学习、图形学或机器人经验者优先。
具有良好的工程实践能力和系统实现能力，有开源项目、科研竞赛或工程实习经历者优先。
良好的英语读写能力，能够阅读和撰写英文论文。
诚实守信，积极沟通，具备团队合作精神与主动汇报意识。
拟以保研/推免方式加入实验室的同学，建议至少提前2个月进组实习，参与实际科研项目，便于双方充分了解与磨合。

如果您对我们的研究方向感兴趣，请将个人简历（包括本科成绩单和排名）发送至：

邮箱：ypxiong@bupt.edu.cn

请在邮件主题中注明：“姓名-本科学校-保研申请”。若有疑问可联系组内学长（微信：Nobita_work）了解实验室详情。

我们实验室位于科研楼404和410，欢迎现场参观我们的3D显示屏幕。

欢迎优秀本科生加入PESI活力研究团队！