New Page - 钱学明 - 教师个人主页

(5.)Scientific Research

欢迎报考！

本实验室教师列表:

钱学明 （教授），qianxm@mail.xjtu.edu.cn

主要从事人工智能、深度学习的网络媒体挖掘与推荐，图像视频分析检索

侯兴松 （教授），houxs@mail.xjtu.edu.cn

主要从事基于人工智能的图像压缩等

顿玉洁（讲师）, dunyj@mail.xjtu.edu.cn

主要从事深度学习的网络媒体挖掘与推荐，音视频分析等

赵国帅（讲师），guoshuai.zhao@mail.xjtu.edu.cn

主要从事人工智能、深度学习的网络媒体挖掘与推荐

薛尧（讲师）, xueyao@mail.xjtu.edu.cn

主要从事人工智能深度学习的图像视频分析检索、医学图像处理

实验室长期从事网络媒体分析、图像分析检索方面的研究工作。

相关的研究成果在中车、腾讯、微软亚洲研究员等有上线应用。

硕士研究生主要从事基于人工智能+视觉信息的研究和系统研发

课题组信息快报

赵国帅获西安交通大学第六届“十大学术新人”

本实验室与微软合作研发的菜品识别项目--获得2019年度微软-高校合作最佳应用奖

本实验室与微软合作研发的菜品识别项目在微软亚洲研究院丹棱街食堂成功上线应用

陕西西驱公司委托开发的基于人工智能的智慧关联运维方法已成功服务于西咸新区智慧管廊24公里的运维--该系统是全国首家采用AI管廊运维的上线产品

腾讯新闻委托开发的自动新闻配图系统已成功上线应用

腾讯新闻委托开发的基于AI的新闻挑图系统已成功上线应用

成果简介

西安交通大学SMILES LAB研究成果简介

链接: https://pan.baidu.com/s/1aKgu_Mos157tvEbOR7A-EQ 提取码: wqq6

链接: https://pan.baidu.com/s/1z3GmeQeWb0QpkDI2_GYdXw 提取码: s6qv

链接: https://pan.baidu.com/s/1TIt2nGVj_7XlN_tY1jrDjw 提取码: cnk3

本项目组在目标检测算法方面的研究也取得了很大的进展。项目组采用深度神经网络的方法，对不同类型的物体目标（如受电弓、人脸、安全帽等）设计了针对性强，属性区别效果良好的目标检测方法。这些目标检测方法的准确性强，实时性好。在较难处理的小目标检测这一问题上，本项目组的目标检测方法也取得了良好的效果。另外，实验室已有工作的人脸检测算法、行人车辆检测算法和目标物体盗移检测算法更是能够为军事目标的识别与感知提供直接的帮助。例如，行人检测算法可用于检测敌方的士兵的行踪、车辆检测算法可辅助对敌方军用车辆的检测，而目标物品盗移检测算法则可对我方的重要军事目标予以保护。除此之外，上述课题组的许多研究基础是基于商用背景，出模型的识别性能以外，还需考虑模型的轻量化以及实时性，在此诸多难点下本课题仍然出色地完成了各项目所设定的目标。

本课题组以往已有许多成功的项目经验可供本课题的研究中参考与借用，具体的研究基础如下：

（1）受电弓受损异常、打火检测

以电能为牵引供给的高铁、地铁等列车在行驶时，其受电弓会从铁轨上方的高压电线上不断汲取电能。而当受电弓接触电线，二者在高速的行驶过程中发生摩擦，进一步产生火花。通过对受电弓与电线摩擦所产生的火花进行统计，分析异常火花频率，及时更换受电弓，可有效避免受电弓因使用过度而在列车行驶过程中断裂，为列车的安全行驶提供保障。通过对数据集进行预处理、模型训练、算法改进等一系列工作，本课题组针对高铁行驶过程中的受电弓火花检测问题进行了研究。提出了基于深度神经网络模型量化加速的受电弓和火花检测方法，方法具有实时高效，小目标检测率高的优点。如图所示，在不同的天气环境下，受电弓火花均可被准确地检测出来，除此之外，弓角异常、结构受损等情况也均可被检测出来，且检测精度达到了预期项目要求。

系统流程示意图：

检测结果示意图：

系统界面示意图：

方法优点：

1. 采用两级检测方法大幅降低火花检测误检率，总体误检率不到5%

2. 对检测算法的检测模型和系统代码进行大量优化，大幅提高检测速度，可以在日常I5级别CPU上实现每秒百帧的检测速度，在RK3399开发板CPU上实现实时检测。

3. 本系统便于移植，可以工作于基于Linux内核的Ubuntu等系统和win7、win10等windows系统。

4. 应用及成果：

基于深度网络与分级测试的电力机车受电弓及电弧检测方法（专利二审）

可在开发板实现的电力机车受电弓及电弧快速检测方法（专利受理）

基于深度学习的高铁受电装置安全状态快速检测方法（交大学报论文）

（2）安全帽佩戴情况检测

在建筑施工现场，为避免建材从高处坠落造成人员伤亡，所有进入施工区域的人都被要求佩戴安全帽。而常有工人不遵守安全规范，摘下或忘戴安全帽，有着严重的安全隐患。本课题组针对这一问题，基于监控视频对建筑工地上人员的安全帽佩戴情况进行检测识别。如图所示，佩戴安全帽与不佩戴安全帽、佩戴其他类型帽，分别以黄色、红色与蓝色框标出。该课题完成了对安全帽佩戴检测的自动识别。课题中采用深度神经网络的方法，对不同类型的带帽人员以及不戴帽人员进行检测和良好的属性区分，方法具有一定的实时性。

优点

1、实现对安全帽佩戴的自动检测，采用深度神经网络的方法，对不同类型的带帽人员以及不戴帽人员进行检测和良好的属性区分，实时性较强。

2、轻量化的模型，兼容国产人工智能处理芯片（海思，瑞芯微等），可达到实时处理的要求。

3、模型的mAP可以达到90%以上。

4、通过使用多线程完成对多路视频的并行处理。

应用及成果

1、开发的系统已经在杭州市江干区住建局成功使用。

（3）基于视觉的驾驶系统行人检测及测距

方法流程摘要：

保障行人安全是道路交通安全系统的重要目标之一，这使行人检测作为驾驶辅助

系统(advanced driver assistance systems，ADAS)中的核心组成部分。其中获取准确的行人距离十分关键，对此本系统在行人检测模型的基础上加入了行人距离预测分支，提出了一种基于车载视频的行人检测与测距方法，在使用单目摄像头的情况下，可以在检测行人的同时完成对行人与摄像头之间距离的预测。下图为行人检测测距系统流程示意图：

同时，本课题将该模型部署到了基于树莓派 3B 和 Intel NCS2 神经网络计算加速棒的嵌入式平台上，实现了一个简单的行人距离预警系统，系统从摄像头或者视频文件读取视频流，当行人距离摄像头的距离过近时，系统发出预警。实际运行结果如下图所示：

方法优点

1、同时完成行人检测和测距，采用深度神经网络的方法，对摄像头或视频文件获取的视频流进行处理，对于距离太近的行人发出预警信号。

2、相比传统使用激光雷达测距的方法，极大的降低了成本

3、轻量化的模型，兼容国产人工智能处理芯片（海思，瑞芯微等），可达到实时处理的要求。

4、行人检测mAP达到98%以上，距离预测误差小于5%。

应用及成果:申请发明专利：一种基于单目摄像头的行人距离预测方法(专利受理)

（4）人员口罩检测（或者特定服饰等）

方法流程摘要：

当前我国大范围爆发了新型冠状病毒（2019-nCoV）感染，我们在支持疫情一线的医护人员的同时，也要做好个人的防护措施。其中佩戴口罩对于防止疫情蔓延至关重要，但仅靠人工监督，效率太低且耗费大量人力。本项目基于这个问题，提出了一套对是否佩戴口罩自动检测和预警系统。如下图为口罩检测系统流程示意图。

方法优点：

1、实现对口罩佩戴的自动检测，采用深度神经网络的方法，对是否佩口罩进行检测和良好的属性区分，实时性较强。

2、轻量化的模型，兼容国产人工智能处理芯片（海思，瑞芯微等），可达到实时处理的要求。

3、识别性能达到99%以上。

（5）人脸表情分类系统

该方法实现了基于深度神经网络的人脸检测、表情识别、人脸识别系统。如图为该系统流程图。监控摄像头采集的视频数据通过人脸检测网络进行特征提取，生成下采样的特征图，预测人脸位置和关键点。根据关键点坐标和标准人脸关键点进行人脸姿态的矫正。矫正过的人脸送入表情识别网络和身份识别网络进行身份识别和表情分类。

本系统可以从摄像头和本地视频中读取数据，对数据中的人脸表情进行happy（高兴）、sad（悲伤）、feared（害怕）、angry（生气）、disgusted（困惑）、surprise（惊喜）、nothing（无）七种表情的识别，并根据视频中的人脸实时统计出每种表情所占比例。系统演示效果如图所示。

优点

1）组合人脸检测、识别和表情识别三项功能，实现端到端的集成系统。以人脸检测和关键点配准为基础层，身份识别和表情识别为应用层，可灵活调用某层或某功能的结果。

2）面向多人场景，可以并行完成复杂场景多人脸检测和识别任务。

3）轻量化的模型，对摄像头采集的高分辨率视频帧进行实时处理。

4）应用及成果

专利在审：一种监控视频多人人脸检测和表情识别方法

（6）行人检测、检索系统

本系统可从监控视频中检测出所有行人，使用截图功能设定目标人物，可自动定位到其他时段出现的该行人。如下图所示，截取行人正面照片，可定位到该行人被监控摄像拍到的侧面以及背影。可以看到，目标人物的其他时间点所拍摄到的照片，均在排列靠前的搜索结果中。该系统中，对象（行人、车辆等）采用深度特征描述，采用特征匹配和搜索的方法，可以在历史数据中找出当前对象相似的目标。

（7）基于司机状态识别的辅助驾驶方法研究

方法流程摘要

本系统对司机状态识别来达到辅助驾驶的功能，通过对司机状态进行拍摄监测，通过检测模型来得到司机实时的面部区域和手部区域，进而对面部区域进行关键点检测和对手部区域进行分心状态识别，从而对司机是否疲劳驾驶和分心驾驶作出判断，并对司机进行提醒预警，起到辅助驾驶的作用。共实现了对司机闭眼、打哈欠两种疲劳状态以及玩手机分心状态的监测，其中，对唇部打哈欠、眼部睁闭眼状态识别的准确率分别达到99.07%、94.6%。如下图为驾驶员驾驶状态监测系统流程示意图。

本系统通过对当前摄像头前人物的眼部特征进行监测、处理识别，可判断出其是否处于疲劳状态，演示效果如图所示，右上角概率设为非疲劳的预测值，当人物闭眼时，标记框为红色并报警，当人物睁眼时标记框为绿色，判断其为非疲劳状态。

方法优点

1) 在整个检测过程中，对面部和手部区域分别进行处理，当后续需要增加识别手部其他状态时，无需重新训练检测和面部关键点检测的模型，只需再次训练手部状态识别这一小部分模型，具有状态识别可扩展性。

2) 轻量化模型，整个系统在GTX 1080显卡下可达每秒22帧，满足将来在人工智能芯片上布控的速度要求。

3) 针对唇部状态的识别率达到了99%以上，眼部状态的识别率也高达94.6%

应用及成果

该算法可以较好地应用到司机辅助驾驶的功能使用中，来起到事故的主动防御作用，达到更安全的出行。

（8）多菜品识别系统

本系统实现基于视觉的自动菜品结算系统，通过对菜品种类及食材的识别，获取具体的摄入菜品种类和数量，实现营养成分的估计，提供了一种基于细粒度识别的菜品自动结算及饮食健康管理方法。实现了共计百种食物的识别。如下图为自动菜品结账系统系统流程示意图。

优点：

1) 检测和检测相结合，按照大类检测和细致类别检索相结合的识别，相对于现有人工智能的检测识别方法，具有速度优势并且具有识别类别扩展性。当识别的类别发生增补是无需重新训练模型。

2) 轻量化的模型，兼容国产人工智能处理芯片（海思，瑞芯微等），可达到实时处理的要求。

3) 200道菜的识别性能达到98%以上。

4) 开发的系统已经在微软亚洲研究院试点应用

钱学明、彭豪、侯兴松、邹屹洋、李纬.一种基于细粒度识别的菜品自动结算及饮食健康管理方法:(专利受理)

（9）单菜品属性识别系统

本系统通过计算机视觉技术提供了一种菜品食材等属性信息的识别方法。通过对菜品细粒度特征的识别，实现了百种预设菜品的主要食材、菜品口味特色、适宜人群推荐、相似菜品推荐、以及菜系、烹饪方式等属性信息的识别。如下图为自动菜品结账系统系统流程示意图。

优点

1) 细粒度识别与多标签学习相结合，优化多属性学习，标签不均衡问题，相对于现有人工智能的细粒度菜品识别方法，拓展了菜品的口味特色、菜系、烹饪方式等多属性信息，提高了识别精度。

2) 轻量化的模型，兼容国产人工智能处理芯片（海思，瑞芯微等），可达到实时处理的要求。

3) 百种菜品的识别精度达到现存方法中最高，属性识别精度达到95%以上。

4）应用及成果

本项目获微软亚洲研究院2019学术日Real World Scenario Award奖

（10）货柜商品识别系统

智能无人货柜得益于其体积小巧，售卖场景多样、用户购物交互体验强的优点，受到大众的欢迎。摈弃了现有基于计算机视觉技术的智能无人货柜识别商品类目少的缺点。本系统将计算机视觉的检测与检索技术相结合，共同实现了智能无人货柜的近百种商品识别系统。下图为本系统的实现流程示意图。

下图分别为真实场景智能货柜示意图，以及摄像头采集的商品图片示意图。

下图为货柜内摄像头采集的商品图片，以及其对应的识别结果。其中不同种类商品由不同颜色的检测框检出。

优点

1) 检测和检测相结合，按照大类检测和细致类别检索相结合的识别，相对于现有人工智能的检测识别方法，具有速度优势并且具有识别类别扩展性。当识别的类别发生增补是无需重新训练模型。

2) 轻量化的模型，兼容国产人工智能处理芯片（海思，瑞芯微等），可达到实时处理的要求。

3) 高识别性能100类典型的商品识别性能达到99.5%，能够对人为产生商品倾倒、损毁和杂物入侵具有实时报警。

4）应用及成果

开发的系统已经在山东新北洋信息技术股份有限公司测上线应用。

（11）基于手势识别对旋翼无人机智能控制

系统给出了一种通过识别人体手势来对无人机进行智能控制的方法；提出了一种基于轻量化卷积神经网络和多尺度检测算法实现操控人员的身份识别，以及操控人员手势识别。通过使用机载摄像头采集图像，并且对图像进行识别无人机操作者及操作者的手势来控制无人机，实现无人机上、下、前、后、左、右，停等多种飞行姿态的控制。下图是该方案的整体流程图。

优点：

1）将轻量化网络和多尺度算法结合，对人体手势可以快速识别。在NVIDIA-TX2、树莓派等开发板可达实时效果。

2）对行人检测准确率可达98%，对手势识别准确率可达96.97%。

3）能有效地将人体手势动作与无人机飞控相结合，实现人与无人机良好的交互和协作，减少了传统无人机控制的复杂性。

（12）铁路沿线鸟巢检测、入侵检测

火车作为当代人常用的交通工具之一，铁路是我们生命安全的保障。针对铁路沿线鸟巢造成的鸟害事件，我们提出了鸟巢检测方法，可以对铁路沿线的鸟巢进行准确分类和定位。针对在铁路附近大型机器施工现象，为避免造成铁路破坏，保障火车正常运行，我们提出了入侵检测算法，对铁路沿线出现的大型机器进行入侵警告。下面是具体方案流程图。

方法优点：

1）将检测算法与attention机制相结合，针对铁路沿途出现的事件进行有效检测。

2）将人工智能算法应用到铁路运行中，可以对铁路沿途出现的鸟巢事件和大型机器入侵事件进行警告，保证火车安全运行。

（13）高铁车厢内事件检测

针对高铁车厢内出现的拿或放行李、送餐、推餐车、收垃圾等事件进行检测，并将不同类别人员的相关属性信息进行存储。根据放置行李这一事件，将行李架进行区域划分，并将乘客与行李之间根据区域id建立检索关系。通过这种检索关系可以判断是否存在错拿行李等异常事件发生，保障了乘客的物品安全。

下面是整体的流程图。

优点：

1）将轻量化网络与多尺度检测算法结合，可以有效的对高铁车厢内出现的事件进行检测，其中检测的准确率达到94.75%。

2）将人工智能算法应用到实际的场景之中，对乘客的行李物品提供了安全保障，而且对高铁管理人员提供了便利。

（14）超分辨率重建

数字图像在社会各个领域（包括工业、农业、医学、军事等）的应用越来越广泛。高分辨率图像在这些数字图像应用领域中能提供比低分辨率图像多的细节信息。在VR中，往往需要用计算机设备将同一场景的多幅图像融合在一起形成模拟复杂现实场景的图像。在医学影像中，结构清晰、细节信息丰富的高分辨率图像是关乎人们生命安全的重要元素。本课题组针对以上问题，通过对图像进行预处理、大量地模型训练和验证之后，提出了基于深度卷积神经网络的深度方法，并对此方法进行了优化。如图所示，此方法对于低分辨率图像进行超分辨率重建之后，对于细节信息比其他方法恢复得更加丰富。

(15)基于嵌入式硬件的SAR目标检测和识别

SAR目标检测在军事、民用领域有重大需求，无人机搭载的SAR图形对战场或者目标区域进行飞行成像，传统的方法需要后台人为在线干预，这样造成飞行速度慢，战场信息处理不及时的不足。而采用后台处理的方法，则离线，无法对实时的展开环境中的目标进行有效识别。无法得知目标类型（飞机、坦克、舰船、汽车等）、数量及分布信息。然而该任务难点是：数据量小、小目标、实时检测困难等。

本课题提供了一种基于嵌入式、轻量级深度网络的实时目标检测和分类方法

目标型号细粒度分类。相关的解决方案包括：小样本学习、数据增强、小目标检测、迁移学习等。

优点：在嵌入式硬件上可以达到实时处理的要求。

钱学明

(5.)Scientific Research

课题组信息快报

成果简介

微信公众号

QQ答疑群

产品管理菜单