CNCC技术论坛，西湖李子青、阿里王刚多视角讲解CV赋能智慧城市

2019-10-24

雷锋网 AI 科技评论按：10 月 17 日至 19 日，由 CCF 主办、苏州工业园区管委会、苏州大学承办的 CNCC 2019 在秋意正浓的苏州如约而至。今年大会以「智能+引领社会发展」为主题，选址苏州金鸡湖国际会议中心召开。雷锋网(公众号：雷锋网) AI 科技评论将会作为战略合作媒体进行全程跟踪报道。

除了 15 场特邀报告外，今年 CNCC 的 79 场技术论坛作为会议的另一大重要组成部分，也是参会者重点关注的内容。其中「计算机视觉技术赋能智慧城市」技术论坛尽管在大会第三天举办，仍然人满为患。据悉，CCF 在会议召开前夕对本次会议的 70 多场技术论坛的微信点击量进行了统计，该论坛的点击量排名第二，现场满席的盛况也再次引证了这一技术论坛的受关注度。

《计算机视觉技术赋能智慧城市》技术论坛由澎思科技首席科学家、新加坡研究院院长申省梅担任主席，中科院计算所研究员、IEEE Fellow、IAPR Fellow、CCF会士陈熙霖担任共同主席，邀请了西湖大学讲席教授、IEEE Fellow李子青，西安电子科技大学教授、博士生导师杨淑媛、阿里巴巴自动驾驶实验室主任、首席科学家王刚，清华大学自动化系副教授鲁继文，商汤科技副总裁、智能驾驶业务总经理劳世竑等 5 位来自学术界和业界的演讲嘉宾从多重视角来分享计算机视觉技术在城市中的应用以及对产业落地的思考，值得一提的是，本论坛的主席申省梅也亲自上阵作为演讲嘉宾之一在现场为大家带来了压轴演讲。

我们下来一一来看各位嘉宾的演讲内容。

李子青：人脸识别挑战问题和解决技术

开场演讲由西湖大学讲席教授李子青带来，他的演讲主题是《人脸识别挑战问题和解决技术》，主要从人脸识别当前所存在的大数量类别的模式识别问题、人脸防伪问题以及复杂光照问题三个未来需要重点关注的挑战出发，阐述了应对这三个问题的解决方案。

在多数量类别的模式识别方面，李子青指出，过去常用的解决方法是欧式空间，虽然这种方法能够让单位立方体的均匀分布点分布在角上，但点之间的相对距离却是趋于零，并且其 Softmax 评分与人类视觉硬度并没有很好的相关性，这种数据稀疏性缺乏统计意义。而现在采用的方法则叫做 Angular similarity，它从角度出发来进行分类，具备 Angle Loss、Margin、Imbalanced Data 三个特点，在总的趋势能够达到预期的效果。

在人脸防伪问题上，传统方法主要是对纹理、三维形状等方面来提取特征从而区分真人和假体，其中硅胶是最难以辨别出来的类别。而现在则基本采用深度学习的方法，比如说李子青团队早 2014 年提出的正样本、负样本方法，就将深度学习引入到了人脸防伪中，即利用眨眼、摇头等三维结构来判断人脸是平面的还是三维的。例外他在今年的 CVPR 的一个人脸防伪竞赛就尝试将 RGB 的、近红外和深度信息进行融合来解决该问题。

在复杂光照问题上，李子青表示，目前计算机视觉领域的独角兽公司做的算法很强，然而无法在工地、高铁站等场景中得到很好的应用。他认为，应该利用主动光照来解决这个问题，这是因为环境的关照如果是不受控的光源，采集的图像就已经被破坏得很严重了，在这种情况下，还需要从光电硬件上去解决这个问题。基本思路上，他指出，可以将近红外的图像转化为可见光的图像，之后用可见光的匹配技术来做。其中，他的团队提出了 CCA 的方法，即对可见光图像和近红外图像提取出共同特征，然后在 CCA 空间上处理这些特征，依次来克服光照问题，不过由于 CCA 容易过拟合，效果可能没有那么好。

杨淑媛：基于深度学习的复杂场景解译

接下来，西安电子科技大学教授杨淑媛带来了主题为《基于深度学习的复杂场景解译》的演讲，重点分享了深度学习在解决复杂雷达影像问题上的应用。

雷达从理论到实践，现在已经有 100 多年的历史，其功能也在不断发生演化：从最初的测距、测角、测速发展到现在对一个场景能够进行成像，包括二维的成像、三维的成像等等。之后随着一些新体制雷达的出现以及天线收发方式的改变，影像信息也变得更加多维，从而能够为理解场景提供很好的数据源。其中「雷达影像自动解译」则将这些数据源利用起来的方法之一。

杨淑媛首先对这一方法进行了解释：「雷达影像自动解译」就是从这些影像信息中利用计算机来识别出来场景、地物信息，并且对其中感兴趣的目标信息进行建模、分析和提取。解译的对象其实与计算机视觉的任务类似，具体包含场景级的解译、像素级的解译等几个层次方面的任务。现在随着观测任务的复杂化、成像技术的发展、目标所在场景的复杂化以及地物类型的增多，场景解译迎来了更大的挑战性难题。

接着，她介绍了为应对场景解译的难题所做的一些基于深度学习的方法，包括：

第一，借鉴人类视觉感知和认知的特点，建模人类认知特性，结合对深度结构的宏观模拟、神经元稀疏认知的微观模拟，以及神经元间选择注意的介观模拟，设计具有稀疏性、选择注意和方向性的神经元，构建新型深度学习模型，通过认知特性的建模提升对复杂数据的表征、处理与信息提取的能力。具体工作包括张量深度滤波网络模型、层次化的稀疏显著的网络模型、非线性协同稀疏模型等；第二，利用半监督学习、孪生学习、生成对抗等技术去构建小样本特征学习的模块，以有效提升小样本下的深度网络的性能，克服监督信息少、标注成本高、标注样本变化大、易混淆等问题。例如在做雷达目标识别中，采用比对学习方式对数据进行一个配对的扩展组合，再加入了一个半监督的学习方式，实现在对比学习架构上做半监督模式；第三，针对深度网络只能工作在封闭环境的局限，做了一些可以演化深度模型的尝试，其中提出了一种能够在线处理环境信息的度量在线的学习模式，设计了迁移张量的学习算法。而这种方式的整个过程就是一个新类检测、样例积累、网络迁移学习更新、增量式分类以及多类型聚类的过程；第四，构建了由 30 台服务器构成的一个高性能计算集群——遥感影像大数据类脑解译计算系统，能够快速实现对大规模影像数据的类脑解译处理，具有计算快、稳定性强、吞吐量高、任务并行等优势。「深度学习确实是解决复杂雷达影像解译的一种非常有效的方法，但在实际应用里依旧存在非常多的问题，包括开放环境问题、可靠性问题、领域数据问题、认知意义缺乏问题等等。」杨淑媛最后总结道。

王刚：自动驾驶没有免费的午餐

阿里巴巴自动驾驶实验室主任、首席科学家王刚则聚焦自动驾驶这一细分领域，从业界视角带来了主题为《自动驾驶没有免费的午餐》的演讲。他重点分享了阿里巴巴在自动驾驶系统的计算机视觉方面的一些思考和观点。

他指出，最近几年，国内外无人驾驶公司都取得了非常大的技术进步，但是我们也要客观地看到，自动驾驶还存在非常多的困难和巨大的挑战，因而现在还没有看到完全能够落地的产品。

自动驾驶为什么这么难落地？王刚指出，单用一套通用的自动驾驶算法很难覆盖复杂多样化的交通场景，需要将多场景问题进行分解、细化，有针对性地解决，而这种思路被称之为自动驾驶里面的「No Free Lunch」理论。

他进一步指出，自动驾驶的研发依赖于三个要素——精细化场景、针对性算法和自动化平台：

第一，精细化场景。过去业界的场景分类过于粗矿，无法作为「No Free Lunch」理论的支撑，所以需要研发出一个更好的精细化场景方式，去带动整个研发体系。第二，针对性算法，这就需要对相关的算法进行相应的优化，从而能够有的放矢地针对每个场景进行处理。第三，自动化平台、云平台。为了实现这样一个高效的研发体系，需要 AutoDrive 此类的自动化平台，与此同时这种自动化平台背后也离不开整个云平台的支撑，包括数据的采集、回归、仿真、以及模型训练、测试评价等。「将这三个要素进行协同，才能够产生更好的化学反应，才能更高效地推进自动驾驶领域的研发。」

鲁继文：深度强化学习与视觉内容理解

清华大学自动化系副教授鲁继文随后登台，基于其实验室在深度学习和计算机视觉领域的一些研究成果带来了分享，他带来的演讲题目是《深度强化学习与视觉内容理解》。

一开场他就指出，计算机视觉本质上要做两件事：看得清和看得懂。随着计算机视觉的发展，看得懂已基本不成问题，接下来要重点解决的问题便是看得懂，其中视觉内容理解便是一个重要的方向。

强化学习作为一项早已出现的技术，在与深度学习结合后，在解决问题上表现出了很好的性能，因而也受到了研究者的广泛关注。鲁继文介绍道，针对视觉内容理解，其实验室采用深度强化学习的方法主要解决了策略学习、离散优化学习和无监督和弱监督学习三个方面的问题。

其中，其实验室主要围绕建模视频、离散优化做了一些工作，具体工作包括在 ICCV、CVPR、ECCV 等顶会上提出了注意力敏感深度强化学习、深度渐进强化学习、迭代调整的深度强化学习、协同深度强化学习、深度部件强化学习、双智能体深度强化学习、深度推理决策网络、基于深度强化学习的目标检测、基于深度强化学习的相似性度量、基于深度强化学习的图像检索、基于深度强化学习的行人再识别、基于深度强化学习的网络压缩、基于深度强化学习的二值表示、基于深度强化学习的贝叶斯压缩、基于深度强化学习的二值网络等等。

最后他总结道，深度强化学习可以同时利用深度学习的表示能力和强化学习的决策能力，对很多视觉内容理解任务都可以做更好的建模策略，从而更好地提升相应视觉任务的性能。未来，希望研究者能够就来如何将深度强化学习方法与认知计算结合，提出更加符合人类认知的深度强化学习计算模型，进一步提升视觉内容理解任务的性能。

劳世竑：中日计算机视觉技术：从人脸识别到自动驾驶的产业化历程

商汤科技副总裁、智能驾驶业务总经理、商汤日本总经理劳世竑带来了《中日计算机视觉技术：从人脸识别到自动驾驶的产业化历程》的演讲，他基于自身两个阶段的职业经历，分享了其通过借鉴美国的计算机视觉技术来做产业应用以及中日在计算机视觉技术方面的合作经验。

劳世竑回忆道，他们应用 CMU 的人脸检测技术的第一个场景就是应日本的一家公司的需求——对数据照片冲洗机器进行优化，即通过对 CMU 的神经网络识别器进行优化，将这款机器的速度提高了 10 倍到 50 倍。随后，他与中国清华大学计算机系教授艾海舟合作研究出了首个人脸检测的商用芯片，并以此为起点，先后将人脸识别技术应用到了数字相机、手机以及大数据收集系统以及驾驶员监控系统中。其中比较不幸地是，成立于 2007 年的驾驶员监控系统项目当时恰逢经济危机而被公司砍掉了，而十几年后，当他们重新启动该项目时，已经被其他公司超越了——说起此事，劳世竑不免有些遗憾。

而劳世竑第二个阶段的经历，则要从离开欧龙加盟商汤说起。其中，他重点分享了自身比较引以为豪的一项工作，就是让商汤与本田合作自动驾驶的研发项目，首次将中国的人工智能技术介绍给了日本企业，从而促成了两国之间建立平等的合作关系。进一步，他还在日本成立了商汤（日本）公司，重点推动和本田的自动驾驶合作研发项目，并尝试跟百度等公司的自动驾驶研发工作做出差异化——从摄像头的角度来降低自动驾驶的技术成本，让自动驾驶更加平民化。

「我经常被问到驾驶技术什么时候能够推向市场的问题，我们暂定的目标是 2025 年，但是我认为实现过程可能并没有想象中的那么一帆风顺，可能会提前也可能会延后。并且，我们需要非常注重的一点是自动驾驶技术可靠性的验证问题，其涉及的不仅仅是一般物体识别，还涉及到行为预测、车内外的环境理解以及可说明性问题。」

申省梅：视频图像智能化助力智慧安防建设

新加坡研究院院长、澎思科技（PENSEES）首席科学家申省梅做了最后一个报告，主题为《视频图像智能化助力智慧安防建设》。

她谈到，当前我们周边布满了各种摄像头。据英伟达预测，到 2020 年全世界会有 10 亿个视频摄像头在使用；此外据了解中国现在已经有 1.76 亿个摄像头，3 年之后可能会有 6 亿摄像头，也即平均每两个人一个摄像头。对于大量的视频，尽管目前已经有各种压缩手段（视频流），但该如何存储这些视频，以及如何从海量视频中找出我们我们需要的人或物，做到事前预警、事中处置、事后分析，对我们来讲仍然存在巨大的挑战。

申省梅在报告中详细阐释了计算机视觉技术赋能智慧安防所需要技术。她认为对视频图像智能化需要做好几件事：1、视频图像恢复增强；2、视频图像目标检测跟踪识别；3、视频结构化；4、视频内容的智能压缩和视频摘要。

申省梅针对这四个方面详细阐释了她所带领的团队在各个方面的技术及成果。例如在视频图像恢复增强中，他们将非常小（12×14）的人脸图片经过高分辨率处理后，人脸识别率从原来的75.18%提升到97.67%。针对行人ReID任务，他们在2018 年行人再识别VIPeR，CUHK-03，DukeMTMC-reID，Market1501 四项数据集上取得了世界第一的成绩。今年9月份，澎思新加坡研究院在基于视频的行人再识别三大数据集（PRID-2011，iLIDS-VID，MARS）上取得世界第一，大幅提升成绩。在视频结构化方面，他们能够做到实时提取视频物体属性，做到实时结构化预览。2018年4月他们在AI City Challenge - 异常检测任务中也同样取得了第一名的成绩。

申省梅提到，在AI产业图谱中的技术层，澎思也走在前面。最重要的观点是，作为一个企业要应用做应用驱动的解决方案，商业驱动的算法研究。她提出算法池可选性的概念，针对场景、硬件的不同，可做不同的算法选择，快速迭代满足业务需求。

申省梅总结到，视频图像智能化非常重要，当前很多人都在用深度学习，但如果视频数据没有结构化，当数据量变得海量时将很难进行下去。所以视频数据智能化是做智慧安防的一个前提，这包括很多技术，只有把这些技术都用好，我们才可以实现事前预警、事中处理、事后分析。

演讲结束后，在陈熙霖的主持下，李子青、杨淑媛、王刚、冯佳时、鲁继文、劳世竑、申省梅六位嘉宾还以《后深度学习时代，计算机视觉技术的未来》，展开了一场 Panel 谈论，就「如何提高数据半自动标注的效率」、「深度学习是计算机视觉的终结还是新的起点」、「计算机视觉未来的发展方向」以及「如何培养下一代人才」等问题发表了自己的观点并展开了讨论。

热点推荐