技术与技法日进千里,快速迭代过程中,真正能够留下的是应用场景的重构与对新商业范式的思考。
CVaaS 计算机视觉即服务的理念介绍
CVaaS 就是 Computer Vision as a Service, 我们把 CV 的部分标准化成为了一种服务,而每一个行业可以在这里找到自己行业需要的和图像处理、视频处理、计算机视觉相关的算法服务,然后他们可以整合这些算法服务成为他们需要的应用。
.
一、深度学习在汽车行业的应用
——如何提高分类的精确度或者准确率
1、Fine-Grained Classification细粒度分类
比如我去框定,汽车的车灯,汽车的前脸,汽车轮毂等,然后用 cnn或 deep cnn 或what ever其他的分类器做这些的分类,对于分类器来说输入是汽车的车灯+汽车的前脸+汽车轮毂,而不是整张图片。分类器再从车灯前脸等提取高级特征,从而得到一个分类模型。
在fine-tuning过程会遇到一个问题,拿来对未知信息图片进行判别,最好是框定过之后的。
对于局部图片,我们是这样提取的:
2、OCR技术
- 像复杂:噪声、模糊、光线变化、形变;
- 字复杂:字体、字 、色彩、磨损、笔画宽度不固定、方向任意;
- 景复杂:版面缺失,背景干扰。
对于上述挑战,传统的OCR解决方案存在着以下不足:
- 1.通过版面分析(二值化,连通域分析)来生成文本行,要求版面结构有较强的规则性且前背景可分性强(例如文档图像、车牌),无法处理前背景复杂的随意文字(例如场景文字、菜单、广告文字等)。
- 2.通过人工设计边缘方向特征(例如HOG)来训练字符识别模型,此类单一的特征在字体变化,模糊或背景干扰时泛化能力迅速下降。
- 3.过度依赖字符切分的结果,在字符扭曲、粘连、噪声干扰的情况下,切分的错误传播尤其突出。
针对传统OCR解决方案的不足,我们尝试基于深度学习的OCR。
首先,我们根据是否有先验信息将版面划分为受控场景(例如身份证、营业执照、银行卡)和非受控场景(例如菜单、门头图)。
对于受控场景,我们将文字定位转换为对特定关键字目标的检测问题。主要利用Faster R-CNN进行检测,如下图所示。为了保证回归框的定位精度同时提升运算速度,我们对原有框架和训练方式进行了微调:
虑到关键字目标的类内变化有限,我们裁剪了ZF模型的 络结构,将5层卷积减少到3层。
练过程中提高正样本的重叠率阈值,并根据业务需求来适配RPN层Anchor的宽高比。
三、机器学习在携程酒店图像数据中的应用
1、图像快速去重
一般的目标检测问题可以看作是一个图像部分区域的分类问题,在深度学习兴起前,可变形部件模型(DPM)一直是流行的目标检测方法,随着深度学习技术的发展,以R-CNN、Fast R-CNN、Faster R-CNN和YOLO等为代表的一系列基于卷积神经 络的目标检测方法成为了主流。然而水印检测和一般的目标检测的区别在于,水印在一幅图像中的位置基本是固定的,因此水印检测可以看作是一个简化的目标检测问题,而其中的关键就是训练水印分类器。
在训练水印分类器的过程中,我们遇到的最大问题是没有足够的标注了水印类别的图像数据用于训练。为了解决这个问题,我们选择自主地去生成训练数据。具体地,我们在大量无水印图像中随机截取若干个矩形区域图像,以这些矩形区域图像作为无水印的训练图像数据;同时,我们将要检测的水印信息图形随机缩放后嵌入这些不包含水印信息的矩形图像内,从而形成带水印的训练图像数据。通过这种方式,我们方便快捷地获取了大量的图像训练数据。
我们的房型图像分类上线后,达到了98%的准确率。下图展示了在房型图像分类上线前后,一家酒店中多个房型的首图变化的例子(红色框为上线前,绿色框为上线后)。
然而在实际应用中,我们发现仅以清晰度作为图像质量评价的标准还是存在一些不足,因为清晰度高但内容不好看的图像为数不少。这些图像因为清晰度高而被优先展示,但其不好看的内容却影响了用户的感受,所以我们希望能够进一步从美学角度来对图像质量进行评价。
图像的美感度是一个非常主观的概念,很难有一个统一的标准去量化,为了能够尽可能准确地计算图像的美感度,我们选择深度卷积神经 络模型来实现美感度评价。在实际应用中,我们又再次遇到了同样的问题:缺少大量标注了好看/不好看标签的训练图像。由于在房型图像分类中,我们利用卷积神经 络强大的迁移学习能力进行特征迁移取得了成功,所以我们决定继续沿用这种方法。
因为酒店图像的美感度受到内容、色彩和构图等多方面的影响,所以我们不再像在房型图像分类中那样只使用内容单一的场景图像数据集,而是将包罗万象的ImageNet数据集和场景图像数据集混合进行训练,力求让尽可能多的图像参与深度卷积神经 络的学习,令 络能够记住更多图像的内容,从而进一步提高 络的特征迁移能力。同时,为了保证深度卷积神经 络的特征表达能力,我们采用比AlexNet和VGGNet的层数更深的ResNet作为特征提取器。最后我们为少量图像标注好看/不好看的标签,并训练随机森林实现了图像好看/不好看的二分类模型。
我们将图像被模型判为好看的概率作为图像的美感度分数,美感度分数的区间在[0,1]之间,如果分数越大则表示图像越好看。由于美感度评价模型并没有考虑清晰度因素,所以最终我们融合图像的清晰度和美感度来计算图像质量分数。完整的图像质量评价流程如下图所示。通过图像质量评价,我们使得清晰而又好看的图像能够被优先展示,此举对酒店/房型首图的选择、酒店图片的排序等方面都有较好的指导意义。
视频基因谱引擎是深瞐的核心产品,更通俗的名字叫做“视频结构化”。据深瞐介绍,“视频结构化”这一概念该由公安部第三研究所胡所长提出,指的是把视频数据中的非结构信息转化为结构信息。深瞐的视频结构化产品可以高精度地自动识别不同视角、不同光照条件、不同监控场景、不同天气状况中的人物特征和车辆特征,便于公安机关达到后期快速检索和布控的目的。
图像处理引擎
深瞐科技的图像处理引擎,主要应用于将复杂情况下的模糊车辆、车牌图片进行清晰化处理,能够做到的有去除噪点、去除重影模糊、图像光照增强、去除雨天模糊、去除镜面反光等。
人脸识别引擎
基于深瞐在深度学习和模式识别的研究和应用成果,采用人脸检测、跟踪和结构化对比算法模型,被应用于公安机关的人脸比对、检索、身份识别、商业人流大数据等方面。
.
五、图普科技从 “鉴黄” 到视频&直播个性化推荐
企业对图普科技的认知更多的也是 “鉴黄”,映客、美拍、小米直播、迅雷、酷狗、唱吧等视频和直播的头部平台,都是图普的 “鉴黄服务” 的客户。
和鉴黄的过程类似,清除违规小广告同样基于大量图片进行学习训练。基于糗百的违规图片集中为带有违规文字的图片以及含有推广二维码的小广告图片,图普基于图像识别技术及糗百的广告图片的特征,批量制作具有针对性的广告图进行优化训练,极大的提高了广告图片识别的精确度和准确率,降低了模型迭代的周期。
此前,图普曾透露其日处理图片数量已经上涨到 9 亿张左右,其中每万张图片的处理费用为 25 元。李明强告诉雷锋 新智造,去年,图普的营收实现了十倍的增长。
.
2、帮人赚钱:视频大数据标签和个性化推荐
大数据标签主要用于短视频和直播平台,系统会通过对海量的标注过的数据的学习,根据主播的行为、场景、人物风格、年龄、性别等,自动为当前直播建立标签。例如,一个喜欢做嘟嘴表情的年轻女孩,会有很大可能被打上 “萌妹子” 的标签。而通过对人工标注的系统的学习,图普甚至可以判断主播的颜值。当然,李明强也解释,和有硬性指标的鉴黄不同,“萌妹子”、“颜值” 这些标签很多时候带有很大的主观因素。
另一方面,我们进而可以结合图片场景分类和人脸识别等算法技术,使用标签匹配方法去自动匹配与照片本身更搭配的相框。
算法本身我们可以做出很多技术,例如使用物体检测我们可以实现内容识别、除此之外我们还实现场景分类、人脸的识别、颜色的分类、人物表情等等。
而技术项目的组合,可以帮助我们是去实现更多行业内的目前人工完成的工作,例如实现自动裁剪、通过根据图片的内容、场景的分类、人脸信息等,匹配出合适的相框作为推荐,根据不同颜色的印刷材料做不同的印刷批次排序等等。
于是,一个简单的印刷快照行业的升级,我们可以归纳为如图:
七、“搜你所想”之用户搜索意图识别——NLP
.
1、用户搜索意图的理解及其难点解析
分析一下理解用户搜索词背后的真实意图识别存在哪些难点:
- 用户输入不规范,输入方式多样化,使用自然语言查询,甚至非标准的自然语言。比如上面提到的“附近的特价酒店”
、“上海到扬州高速怎么走”都是自然语言查询的例子,又如 “披星 ( ) 月”、“吾尝终日而思矣, 下面“ - 用户的查询词表现出多意图,比如用户搜索“变形金刚”,是指变形金刚的电影还是游戏搜索“仙剑奇侠传”是指游戏还是游戏软件电影小说
电商 站搜索“水”是指矿泉水是女生用的护肤水/li> - 意图强度,表现为不同用户对相同的查询有不同的需求强度。比如:宫保鸡丁。宫保鸡丁菜,菜谱需求占 90%。宫保鸡丁歌曲,歌曲下载需求占
10%。又比如:荷塘月色。荷塘月色歌曲,歌曲下载需求占 70%。荷塘月色小区,房产需求占 20%。荷塘月色菜,菜谱需求占 10%。 - 意图存在时效性变化,就是随着时间的推移一些查询词的意图会发生变化。比如:华为 P10 国行版 3 月 24 日上市。3 月 21
日的查询意图:新闻 90%,百科 10%3 月 24 日的查询意图:新闻 70%,购买 25%,百科 5%5 月 1 日的查询意图:购买
50%,资讯 40%,其他 10%5 年以后的查询意图:百科 100% 数据冷启动的问题,用户行为数据较少时,很难准确获取用户的搜索意图。 - 没有固定的评估的标准,CTR、MAP、MRR、nDCG
这些可以量化的指标主要是针对搜索引擎的整体效果的,具体到用户意图的预测上并没有标准的指标。
.
2、如何识别用户搜索意图
一般把搜索意图归类为 3 种类型:导航类、信息类和事务类雅虎的研究人员在此基础上做了细化,将用户搜索意图划分如下类别:
- 导航类:用户明确的要去某个站点,但又不想自己输入 URL,比如用户搜索“新浪 “
- 信息类:又可以细分为如下几种子类型,
直接型:用户想知道关于一个话题某个方面明确的信息,比如“地球为什么是圆的”、“哪些水果维生素含量高”。间接型:用户想了解关于某个话题的任意方面的信息,比如粉丝搜索“黄晓明”。建议型:用户希望能够搜索到一些建议、意见或者某方面的指导,比如“如何选股票”。定位型:用户希望了解在现实生活中哪里可以找到某些产品或服务,比如“汽车维修”。列表型:用户希望找到一批能够满足需求的信息,比如“陆家嘴附近的酒店”。 - 资源类:这种类型的搜索目的是希望能够从 上获取某种资源,又可以细分为以下几种子类型,
下载型:希望从 络某个地方下载想要的产品或者服务,比如“USB
驱动下载”。娱乐型:用户出于消遣的目的希望获得一些有关信息,比如“益智小游戏”。交互型:用户希望使用某个软件或服务提供的结果,用户希望找到一个 站,这个 站上可以直接计算房贷利息。获取型:用户希望获取一种资源,这种资源的使用场合不限于电脑,比如“麦当劳优惠券”,用户希望搜到某个产品的折扣券,打印后在现实生活中使用。
.
3、达观搜索意图识别引擎
达观通过 RESTAPI 接口的方式向客户提供基于公有云和私有云的搜索服务。其中语义分析模块包含了对用户 query 意图的离线挖掘和在线预测。
高精度检索算法实现了业界领先的图像检索系统,融合了清晰度,尺度,角度,遮挡,光照等多种因素,利用此系统上传服装图片可搜到同款和相似度很高的服装或者布料。
2、纺织行业的搜衣和搜布
根据上传的图片检索出同款和在颜色,款式等相似度非常高的服装或者布料,已经应用于产业。
十、美工终结者「鲁班智能设计平台」是如何工作的/h1>
我们要让机器学习设计,首先必须要让机器理解感知设计是什么。以这样一张非常常见的广告为例,在机器的眼里是有一堆像素点组成的。如果今天以像素为单位让机器去理解设计,对设计的可控性非常弱,所以在前期技术方案选择中没有走像素级生产,而是走向了元素级生产。
1、设计框架组成
四个组成部分:设计框架、元素中心、行动器、评估 络
组成一,设计框架。还是以这个广告为例,首先通过人工标注的方式,让机器理解这张设计有哪些元素组成,比如它的商品主体,花的背景,蒙版。往上一层,我们通过设计的经验知识,定义一些设计的手法和风格。手法指的是这些元素为什么可以这么构成,这个知识在设计脑子里机器是不知道的,所以会有手法这一层做输入。最上面这一层是风格,当这些元素构成之后,它从美学或者视觉角度看是一个什么感受。让机器知道它是用什么组成的,为什么可以这么组成,以及它组成后的效果。这个过程将一个设计问题转化成数据问题,这就是设计数据化。
下一步是准备设计的原始文件,比如一系列花朵和设计方法,输入到深度学习系列 络。这个 络有一个很大特点:具备一定记忆功能。因为设计是个步骤很复杂的过程,经常有好几十步才能完成一个设计。
经过这层神经 络学习之后,我们会得到一个设计框架。从技术上理解,它是一堆空间特征和视觉特征构成的模型。设计师的视角来理解的话,它相当于设计师脑子里面在做一组设计之前大概的框架印象,比如今天你接到一个任务要做一个花朵风格,思考这个设计大概会怎么做,然后从一堆文件里提取出了特征模型出来。
组成三,行动器。接下来,就是设计的具体过程。比如今天我们接到一个设计任务,要为这样一件衣服设计一个花朵风格的广告。这时候会有一个行动器,负责把前面准备好的底料放到设计框架里。这个过程和下围棋很像,左边是棋盘,右边是下围棋的棋子。行动器就是把元素放到棋盘里,这是整个行动器的生成原理。
它很像设计师实际在做设计的过程,如设计师要做一个花朵的时候,也在软件里面会不断去调每个位置、每个像素、每个角度。同时,整个过程也是一个强化学习的过程,行动器会在不断试错中更智能。
2、视觉设计的四个层次
第三层,创意洞见。它能够有一些启发性的东西出来。天猫品牌里面经常有把猫头和品牌创意做联合的事情,这是机器不可能做到的事情,或者在我有生之年没有指望它能做到的。
.
十一、修正老电影或电视剧的画面
1、超分辨率的像素递归
放大照片图像时把相关像素所构成的合理图形呈现出来,这还是有可能做到的。
PixelCNN,它也比较有戏。(等我们启动之后,用GAN解决来超分辨率问题的SRGAN就发布了,它生成的结果非常好。)
PixelCNN是一种奇怪的反直觉模型。它将图像生成问题重写成每次选择一个像素序列。像LSTM(长短时记忆 络)这样的门控制递归 络在序列生成方面是非常成功的,它通常会用在单词或字符上。PixelCNN巧妙地构建出一个卷积神经 络(CNN),它能基于先前的像素的概率分布来精确生成像素。这是RNN和CNN的混合功能。
把问题变成仅预测低分辨率颜色,我们就可以简化着色问题。我原本已准备好彻底放弃PixelCNN了,因为它显然无法放大小图像,但用来生成28×28×2的图像还是很可行的。通过将颜色数值简化为32个数字而非256,我们进一步简化了着色问题。
十二:微博:TensorFlow在微博的大规模应用与实践
其他NLP相关的文章:
1、阿里自然语言处理部总监分享:NLP技术的应用及思考
2、电商客服自动问答系统的商品意图识别
3、专访玻森数据:这款基于NLP技术的企业情 系统,商业化现状是这样的
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!