LIVIN Lab Logo

LIVIN

光场计算与视觉智能实验室

@ 北京邮电大学

实验室简介 Introduction

北京邮电大学光场计算与视觉智能(Light Field Computing and Visual Intelligence, LIVIN)实验室 专注于前沿的光场计算与视觉智能研究。由熊永平教授领导,团队成员包括5名博士和10名硕士,致力于将3D AIGC技术与光场显示相结合,推动三维视觉、文档识别及多模态大模型的发展。近年来,实验室在顶级会议和期刊上发表了多篇高影响力论文,力求将技术成果转化为实际应用,服务于智能教育、电子信息制造等多个领域。

近年来专注于视觉智能领域,在 文档识别、三维重建、多模态大模型、光场AIGC 等领域取得了一系列代表性成果,先后在 SIGGRAPH ASIA、ACM TOG、ACM MM、ACL、Pattern Recognition、NAACL、IEEE TMC 等顶级会议和期刊上发表论文,申请和授权了20余项专利。

最新动态 Latest News

团队全体成员前往日本东京参加SIGGRAPH ASIA'24并组织团建活动 团队活动

DirectL被SIGGRAPH ASIA'24 & ACM TOG接收 CCF-A

VISTA被ACL'24接收 CCF-A

LayoutPointer被NAACL'24接收 CCF-B

DocDiff被ACM MM'23接收 CCF-A

我们的团队

教师

博士生

周俊杰

博士生

研究方向:多模态融合与理解。

尚宇

博士生

研究方向:实时光场重建与重建。

刘宝林

博士生

研究方向:光场内容编辑与优化。

李嵩

博士生

硕士生

刘子琦

硕士生

招展慧

硕士生

李佳庆

硕士生

李昊洋

硕士生

李嘉铭

硕士生

曹嘉伦

硕士生

刘文

硕士生

宋映德

硕士生

陈赛

硕士生

程家伟

硕士生

成果

神经外科全息手术导航

杨宗元, 曹嘉伦, 李嘉铭, 龚剑桥, 宋映德

该项目能够在手术中以裸眼3D形式显示患者脑部的结构,帮助医生精确定位,从而显著提升神经外科手术的精确性和安全性。

发布时间:2024-10-20

项目

OpenHarmony高校竞赛训练营全国冠军

该项目在2024年度OpenHarmony竞赛训练营中荣获冠军。

获奖日期:2024-10-17

竞赛

公式识别 [link]

李昊洋, 李佳庆, 李嘉铭, 刘子琦

TexTeller是一个端到端公式识别模型,不仅支持扫描图片、手写公式以及中英文混合公式的识别,还具备文本段落的通用OCR能力。 截止目前,TexTeller已经在HuggingFace上累计获得20万下载量,被腾讯、网易等企业的OCR部门广泛采用,并受到LaTeX工作室等多个公众号的报道。

发布时间:2024-06-06

项目
MLVU

多任务长视频理解评测集MLVU

该评测集由实验室指导老师熊永平和博士生周俊杰联合智源研究院、北京大学等单位共同创建并发布。发布半年来,MLVU已被包括Meta AI, Nvidia NV Lab, 腾讯、字节等顶尖AI研发机构广泛使用。

评测集

代表工作

DirectL: Efficient Radiance Fields Rendering for 3D Light Field Displays

⌈SIGGRAPH ASIA'24/TOG, CCF A类会议及期刊

VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

⌈ACL'24, CCF A类会议

DocDiff: Document Enhancement via Residual Diffusion Model

⌈ACM MM'23, CCF A类会议

LayoutPointer: A Spatial-Context Adaptive Pointer Network for Visual Information Extraction

⌈NAACL'24, CCF B类会议

GDB: Gated convolutions-based Document Binarization

⌈Pattern Recognition'24, CCF B类及SCI 1区TOP期刊

Document Binarization with Multi-Branch Gated Convolutional Generative Adversarial Networks

⌈ICIP'23, CCF C类会议

CarveNet: A Channel-Wise Attention-Based Network for Irregular Scene Text Recognition

⌈IJDAR'22, CCF C类期刊

FAT: Field-Aware Transformer for Point Cloud Segmentation With Adaptive Attention Fields

⌈IEEE Transactions on Industrial Informatics, SCI 1区TOP期刊

Towards Scalable Training for Handwritten Mathematical Expression Recognition

技术成果产业化进展

  1. 产业应用一

    我们组建了北邮-井冈山实验室,深度融合视觉智能技术与吉安千亿级电子信息制造业。我们的三维视觉和视频理解技术广泛应用于智能焊接机器人、智能喷涂机器人、组装工艺控制和器件溯源等多个领域,目前已为立讯精密、柏兆电子、方舟流体等行业龙头企业提供服务。

  2. 产业应用二

    作为教育部的专家团队,我们研发了全球领先的公式识别和文档智能解析技术,并将其与多模态大模型结合,应用于重点领域的资源共享服务平台、虚拟教研室平台及数字出版平台等国家高等教育智能化项目。这些技术成果已应用于全国七百多个虚拟教研室,覆盖近10万名高校教师。

  3. 产业应用三

    我们与全球最大的公用事业公司——国家电网展开合作,研发多光谱光纤传像和视觉理解技术。这些技术能够实现GIS、开关柜等封闭式高压电气设备的内部可视化,并高精度检测过热和放电等缺陷,成功应用于从超高压到配网的多个电压等级设备,广泛服务于多个省网公司。

招生信息

LIVIN实验室诚邀对光场计算与视觉智能有热情的学生加入我们的研究团队。我们专注于三维视觉与光场显示的结合,欢迎志同道合的博士生和研究生申请。

研究方向

  • 光场显示生成:利用3D AIGC技术生成光场显示内容。
  • 实时三维重建:快速捕捉并精准重建动态场景的技术研究。
  • 光场数据压缩与传输:优化三维光场在有限带宽下的高质量传输。
  • 端云协作渲染:探讨低算力设备与云端的协同工作方式。
  • 3D数字人建模:创建逼真的3D数字人模型,支持多模态输入智能驱动。
  • 交互式系统开发:开发适应复杂交互场景的系统,并进行实际应用验证。

学生培养

  • 丰厚的学生补助。
  • 弹性出勤,结果导向,无需打卡。
  • 服务器资源充足:10卡3090 24G服务器(训练机)、8卡P40 24G服务器(测试机),非大组机器, 小组内自用。校内集群8卡A800 (80G) 大量使用额度。
  • 研究生二年级暑期后可实习,提供丰富的就业机会。
  • 鼓励参加高水平学术会议,拓宽学术视野。

招生要求

  • 自我驱动,热爱3D动画和三维显示技术。
  • 扎实的数学和编程基础,熟悉Python和C++。
  • 良好的英语读写能力。
  • 诚实守信,勤奋踏实,具备团队合作精神。

如果您对我们的研究方向感兴趣,请将个人简历(包括本科成绩单和排名)发送至:

邮箱:ypxiong@bupt.edu.cn

请在邮件主题中注明:“姓名-本科学校-保研申请”。若有疑问可联系组内学长(微信:Nobita_1028)了解实验室详情。

我们实验室位于科研楼404和410,欢迎现场参观我们的3D显示屏幕。

欢迎优秀本科生加入我们的活力研究团队!