如果说2018年是AI企业的融资年的话,2019年对AI企业来说就是“AI赋能智慧”的落地之年。2018年的寒冬不仅仅是对AI企业而言,各行各业都感同身受,房地产尤为明显,企业名称连“房地产”三个字都去掉了,纷纷改名“发展”,就是一个兆头。
寒冬之后,紧缩的就是投资,资本家也没有多少钱了。2019年如果AI企业不能再依靠讲故事、比赛拿No 1、做演讲拿融资的话,如何实现大规模扩展、招人、再发展?企业存在的意义必须有收入、有利润,那么2019年必须用Case来说话,用中文说就是业务必须落地。
AI赋能智慧落地有几大场景:
- 金融:几家独角兽企业都取得不错的成绩。
- 医疗:AI落地的重要场景。
- 自动驾驶:预计大规模落地还需要1-2年的时间。
- 机器人:类似于自动驾驶,尚需假以时日。
- 教育:音频和文字识别暂时是主要场景,视频技术刚刚启动。
- 消费:主要是2C的市场,手机端应用是大热门。
- 大安防市场:AI视觉企业必争之地。
AI赋能安防场景分析
车牌识别:烂大街的应用,是AI赋能大安防发展最成熟的市场,广泛应用于卡口、电子警察以及停车场出入口管理,是传统安防企业的海大天(HDT,海康、大华、天地伟业)、以萨等企业的天下,AI新贵几无可能2019在这个市场上分得大蛋糕。
车辆大数据:如果是基于卡口、电子警察的车辆大数据,自然是没有AI企业的份,主要还是HDT、以萨的市场,以及众多的大安防SI(佳都科技、东方网力、海信网络、高新兴、易华录)的市场。如果将车辆大数据引入更大的“城市交通大脑”,情况完全不一样,BAT、高德、滴滴均有布局并在2018年取得了不错的战国,尤其是阿里巴巴独落10个城市级大脑工程。四大AI独角兽(SKYY,商汤、旷视、依图、云从)如果能够积极布局,相信还有很多机会,毕竟大脑级工程的起步尚未超过2年。
人脸识别:同样是烂大街的场景。凡号称安防AI的几乎没有那家没有人脸识别产品或系统的,据报道瑞为公司在嵌入式门禁人脸识别市场份额很高(有待进一步考证),但要说基于全国身份证系统的人脸大库做Face ID,算法上优秀的当算SKYY、云天励飞、海康,以广东飞识、Huawei VPaaS为例,采用的是多算法融合系统,同时可以支持以上算法。人脸识别在2018年饱受非议,主要涉及隐私、GDPR《通用数据保护条例》,甚至是微软公司也发布了《使用人脸识别技术应遵循六大原则:公平性、透明性、问责制度、非歧视性、知情同意、合法监视》,尤其是在少数族群识别上识别率差强人意,虽然中国算法公司在这方面做的更好(比如说华云智能),但还不至于领先太多。
非人脸识别:有两种情况是AI企业需要考虑的,不是所有的场景都可以采集人脸信息(主要涉及隐私保护/种族等原因),其次是摄像机没有/不支持采集到人脸。就需要大规模的使用到非人脸识别技术,主要包括ReID(行人再识别)、骨骼检测分析、图像二次识别、特征识别等。
AI赋能安防场景分析
车牌识别:烂大街的应用,是AI赋能大安防发展最成熟的市场,广泛应用于卡口、电子警察以及停车场出入口管理,是传统安防企业的海大天(HDT,海康、大华、天地伟业)、以萨等企业的天下,AI新贵几无可能2019在这个市场上分得大蛋糕。
车辆大数据:如果是基于卡口、电子警察的车辆大数据,自然是没有AI企业的份,主要还是HDT、以萨的市场,以及众多的大安防SI(佳都科技、东方网力、海信网络、高新兴、易华录)的市场。如果将车辆大数据引入更大的“城市交通大脑”,情况完全不一样,BAT、高德、滴滴均有布局并在2018年取得了不错的战国,尤其是阿里巴巴独落10个城市级大脑工程。四大AI独角兽(SKYY,商汤、旷视、依图、云从)如果能够积极布局,相信还有很多机会,毕竟大脑级工程的起步尚未超过2年。
人脸识别:同样是烂大街的场景。凡号称安防AI的几乎没有那家没有人脸识别产品或系统的,据报道瑞为公司在嵌入式门禁人脸识别市场份额很高(有待进一步考证),但要说基于全国身份证系统的人脸大库做Face ID,算法上优秀的当算SKYY、云天励飞、海康,以广东飞识、Huawei VPaaS为例,采用的是多算法融合系统,同时可以支持以上算法。人脸识别在2018年饱受非议,主要涉及隐私、GDPR《通用数据保护条例》,甚至是微软公司也发布了《使用人脸识别技术应遵循六大原则:公平性、透明性、问责制度、非歧视性、知情同意、合法监视》,尤其是在少数族群识别上识别率差强人意,虽然中国算法公司在这方面做的更好(比如说华云智能),但还不至于领先太多。
非人脸识别:有两种情况是AI企业需要考虑的,不是所有的场景都可以采集人脸信息(主要涉及隐私保护/种族等原因),其次是摄像机没有/不支持采集到人脸。就需要大规模的使用到非人脸识别技术,主要包括ReID(行人再识别)、骨骼检测分析、图像二次识别、特征识别等。
2019,大安防市场落地趋势分析
大安防市场纽豪斯曾经多次定义,主要包括平安城市、雪亮工程、智感社区、交通大脑、城市大脑、交通管控、智慧交通、智慧警务和视频云工程,对于比较成熟的平安城市、交通管控、智慧交通本文并不会细致展开。2019年以下几个趋势是一定要关注的:非人脸识别将大行其道、聚焦垂直行业、聚焦平台级应用、深入了解客户的需求、大数据的开放和整合、两种模式取其一,说的更准确一点纽豪斯更关注公共安全市场(PS,Public Security)。
非人脸识别将大行其道
虽然说人脸识别技术已经烂大街了,但还是有一类人脸应用是值得关注的,那就是人脸聚类。
人脸聚类
人脸聚类将是城市级的PS应用,是一定要关注的,从公开报道来看,商汤和依图已经在积极布局。
A.商汤人脸聚类
根据商汤科技公众号报道,香港中文大学-商汤科技联合实验室(MMLab)提出一种有监督的Metric用于人脸聚类,来部分解决无标注数据内部结构复杂、依赖特定Metric、缺乏Outlier控制,以及时间复杂度等问题。目前在人脸的公开数据集标到了百万级别,人脸识别百万里挑一的正确率达到99.9%(MegaFace Benchmark)之后,发现再也标不动了。标注员能标出来的数据永远是简单样本,而人脸识别模型是个“深渊”,当你凝视“深渊”的时候,“深渊”并不想看到你。
深度学习时代的人脸聚类,一般采用卷积神经网络(CNN)中提取出来的特征。人脸识别的CNN通常把人脸图片映射(Embedding)到一个高维的向量,然后使用一个线性分类器,加Softmax激活函数和交叉熵损失(Cross Entropy Loss)来训练。
紫色的向量即为人脸特征
这种方式决定了这些经过映射(Embedding)后的人脸在特征空间里分布在不同的锥形(Cone)中(下左图),因而可以使用余弦相似度(Cosine Similarity)来度量相似度。或者如果对人脸特征做二范数(L2)归一化,那么人脸特征则会分布在一个球面上(下右图),这样可以使用L2距离来度量。
图示为2维,实际在高维空间
有了特征和度量标准之后就是如何选择一个聚类算法了。现成的聚类算法包括K-Means、Spectral、DBSCAN、 Hierarchical Agglomerative Clustering (HAC)、Rank Order等以及它们的变种。利用这些方法聚类之后将每一类中的样本分配相同的标签,不同的类分配不同的标签,就可以用来充当训练集了。
使用20万张图提取特征之后来测试一下这些聚类算法,K-Means花了10分钟,HAC花了5.7小时,DBSCAN花了6.9小时, Spectral花了12小时。若使用60万张图片提取的特征来做聚类,K-Means超内存了,HAC花了61小时,DBSCAN花了80小时,Spectral跑到天荒地老之后也甩了一句超内存。当图片数量增加到140万的时候,几乎所有的聚类算法都挂了。
K-Means, Spectral, HAC等传统聚类方法的问题依然存在各种各样的问题:聚类算法具有较高的时间复杂度、通常认为数据分布服从某些简单的假设、通常使用某种特定的Metric、缺乏较好的离群值(Outliers)控制机制。商汤提出了一种有监督的Metric用于人脸聚类,来部分解决无标注数据内部结构复杂、依赖特定Metric、缺乏Outlier控制的问题,顺便还解决了一下时间复杂度的问题(CDP做到了线性复杂度),当然性能也提升了一大截。
CDP本质是学习一个Metric,也就是对样本对(Pairs)进行判断。如下图,CDP首先使用多个人脸识别模型构建成一个委员会(Committee), Committee中每个成员对基础模型中相连的Pairs提供包括关系(是否是Neighbor)、相似度、局部结构等信息,然后使用一个多层感知机(MLP)来整合这些信息并作出预测(即这个Pair是否是同一个人)。
这个过程可以类比成一个投票的过程,Committee负责考察一个候选人(Pair)的各方面信息,将信息汇总给MLP进行决定。最后将所有的Positive Pairs组成一个新的Graph称为Consensus-driven Graph。在此Graph上使用简单的连通域搜索并动态剪枝即可快速得到聚类。由于MLP需要使用一部分有标签的数据来训练得到,所以CDP是一种基于有监督的Metric的聚类方法。
在复杂度上,CDP由于只需要探索局部结构,因此除了KNN搜索之外,聚类部分的复杂度是接近线性的。在20万数据上,不计入KNN搜索(依赖别的库)的时间的话,CDP单模型的耗时是7.7秒,多模型的耗时是100秒。在140万数据上,CDP单模型的耗时是48秒,多模型的耗时是585秒。试验结果上看时间复杂度甚至低于线性(小于7倍)。
B.依图人脸聚类
依图认为AI有个创新曲线,从2015年的10万人人脸认证到16年的1000万人脸大库识别,2017年发展到20亿人脸大库的识别,这是一个质的飞跃,预期未来能够实现千亿人脸大库的识别,这是一个美好的未来。那么再如此之多的人脸库中找到同一个人,都绕不过人脸聚类这个功能。
依图把人脸识别分为3个时代:
- 1.0监控时代:弱智能
- 2.0识别智能时代:摄像机具有超越人脸的识别能力,代表技术包括静态比对、动态布控,代表应用包括陈年旧案破获、逃犯抓捕等
- 3.0数据智能时代:通过分析人在物理世界的活动规律从而识别精度进一步提高、智能化的发现异常情况;其次就是实现市(省)级人像聚类,以依图目前的技术水平,可以实现1万路、1亿人/天、1年数据、1秒返回,并形成三大基础技战法及各种专用技战法,除了人脸之外还能够实现多维数据碰撞。
-
3.0数据智能时代:通过分析人在物理世界的活动规律从而识别精度进一步提高、智能化的发现异常情况;其次就是实现市(省)级人像聚类,以依图目前的技术水平,可以实现1万路、1亿人/天、1年数据、1秒返回,并形成三大基础技战法及各种专用技战法,除了人脸之外还能够实现多维数据碰撞。
- 依图的观点“数据智能”已经得到业界的主流认可,无疑“数据”是人工智能的三要素之一(另外两个是算法和算力)。PS领域极致的算法能力和大数据分析能力是依图的两大当家法宝。尽管如此,依图公司依然可以克服目前监控中广泛存在的阴影、模糊、遮挡、低像素、墨镜等多种情况,通过归档技术,实现高难度照片聚类。
纽豪斯了解到依图的人脸聚类已经在湖南某时落地案例,该项目拥有3000路摄像机、数据保存100天、常口库+抓拍聚类档案总数800+万人、抓拍国人数量2000+万张,助力刑事案件破获占比约35%。
考虑到人脸识别的争议性,在计算机视觉领域纽豪斯更加关注非人脸识别,典型应用包括:图像二次识别、ReID和骨骼检测系统,虽然也有很多其它类型的应用,但最有希望在2019年实现落地的应该集中在这三个方面。
- 图像二次识别
AI对人类最大的价值来自于两个方面:减少人工节约人力和降低成本。如果AI拥有比“人”更加强大的能力,效果更高的话,相信会得到快速的普及。以典型违章数据处理为例,目前的交通违章均需要通过人工进行二次识别,如果能够采用AI技术进行二次识别,事先将模糊、非违章的照片去除,就可以大大降低人力水平,同样如果把这些技术也用于行人闯红灯警示,而可以大大减少交通事故的发生。
ReID行人再识别
之前的公众号文章我们曾经探讨过ReID,后续还会有一篇专题文章来进一步探讨。ReID是近2年得到迅速发展的非人脸识别技术,华云智能、云从科技和千视通都取得了技术上的突破,并能够实现商用。对与ReID而言最实用的当属以图搜图功能了,有望在2019年得到较大规模的落地。
ReID(Person Re-identification),也称为行人重识别、行人再识别、跨镜追踪,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,广泛被认为是一个图像检索的子问题,目前主要应用于安防领域,未来与人脸识别相结合能够应用于更多更丰富的场景。
ReID的优势在于实时分析,对摄像机没有太高的技术要求,我们可以假定一个场景,春运过程中当一位妈妈携带一名子女在购买车票的过程中发生小孩走失的情形,警察在接到妈妈的报警后,通过给妈妈拍照采集人脸,通过同行人找到小孩的人脸照片,再通过小孩的照片用ReID技术进行跨镜追踪,就可能找到小朋友的轨迹,这具有极大的实用价值,避免报案人口头描述不清、无法准确掌握小孩外貌/衣服特征的情况下,尤为管用。
骨骼检测系统
骨骼检测技术和ReID技术有异曲同工之妙,差异在骨骼检测仅检测“骨骼”和衣服的颜色不相关,就可以大大减少颜色特征带来的误报,通过身高、步态、姿势来判断一个人来实现分析,从目前的技术发展来看,已经具备在2019年实现小范围落地的可能性。
- 图像二次识别
AI对人类最大的价值来自于两个方面:减少人工节约人力和降低成本。如果AI拥有比“人”更加强大的能力,效果更高的话,相信会得到快速的普及。以典型违章数据处理为例,目前的交通违章均需要通过人工进行二次识别,如果能够采用AI技术进行二次识别,事先将模糊、非违章的照片去除,就可以大大降低人力水平,同样如果把这些技术也用于行人闯红灯警示,而可以大大减少交通事故的发生。
ReID行人再识别
之前的公众号文章我们曾经探讨过ReID,后续还会有一篇专题文章来进一步探讨。ReID是近2年得到迅速发展的非人脸识别技术,华云智能、云从科技和千视通都取得了技术上的突破,并能够实现商用。对与ReID而言最实用的当属以图搜图功能了,有望在2019年得到较大规模的落地。
ReID(Person Re-identification),也称为行人重识别、行人再识别、跨镜追踪,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,广泛被认为是一个图像检索的子问题,目前主要应用于安防领域,未来与人脸识别相结合能够应用于更多更丰富的场景。
ReID的优势在于实时分析,对摄像机没有太高的技术要求,我们可以假定一个场景,春运过程中当一位妈妈携带一名子女在购买车票的过程中发生小孩走失的情形,警察在接到妈妈的报警后,通过给妈妈拍照采集人脸,通过同行人找到小孩的人脸照片,再通过小孩的照片用ReID技术进行跨镜追踪,就可能找到小朋友的轨迹,这具有极大的实用价值,避免报案人口头描述不清、无法准确掌握小孩外貌/衣服特征的情况下,尤为管用。
骨骼检测系统
骨骼检测技术和ReID技术有异曲同工之妙,差异在骨骼检测仅检测“骨骼”和衣服的颜色不相关,就可以大大减少颜色特征带来的误报,通过身高、步态、姿势来判断一个人来实现分析,从目前的技术发展来看,已经具备在2019年实现小范围落地的可能性。
- 人体骨骼关键点对于描述人体姿态,预测人体行为至关重要。因此人体骨骼关键点检测是诸多计算机视觉任务的基础,例如动作分类,异常行为检测,以及自动驾驶等等。近年来,随着深度学习技术的发展,人体骨骼关键点检测效果不断提升,已经开始广泛应用于计算机视觉的相关领域。