按照产品的输入形式分为了4种:文字、语音、图像、视频。接下来,按照AI技术如何处理这些输入或产品的输出形式进行了举例。
文字
机器翻译:
这个大家应该都会用到:【百度翻译】、【google翻译】。目前的【google翻译】已经拥有100多种语言之间的互译功能,十分强大。虽然,对于有歧义的句子等,还是无法很正确的翻译;但是,对于日常的辅助阅读,已经十分够用了。
智能客服:
这个应该也很熟悉了,现在很多行业90%以上的客服回答都是由机器人来完成的。由于很多问题,都是相似的,可以直接对用户输入的文字做分词处理,匹配关键词,然后回答相应的问题,极大地减少了人工客服重复性的工作。
阅读理解:
让机器阅读文章并回答问题。虽然,我们让机器做阅读理解并评分意义不大,但是如果作为一个辅助技术是非常重要的:可以帮助人类在大量的文本中找到想要的答案,减少人力付出。
机器人写稿:
这项应用已经在很多细分领域中开展了。比如地震新闻、体育新闻、财经新闻等。这些领域中的新闻播报都有固定的格式,让机器学习这些模板,然后给机器输入相关的数据,可以在极短间内输出新闻报道。前段时间关于四川九寨沟发生的7.0级地震,中国地震台网机器人自动编写稿件仅用25秒出稿,写了540字并配发4张图片。
2017年8月8日21时37分15秒,中国地震网机器人自动编写的稿件
拼写补全:
我们在日常打字的时候,在我们未拼写完全的时候,输入法就会猜我们需要打什么字。这个就是利用大数据让机器更了解我们。
语音
语音识别:
这个大家就再熟悉不过了,现在手机上的主流输入法都支持语音输入,并且自己也会经常使用,自己走在路上给对方发消息,但是对方不方便接受语音消息时,依然可以抬着头走路,刚需啊!这里值得一提的是,国内的一些相关厂商在安静的环境下,中文的语音识别准确率达到97%。但是,同样,未来的技术重点也是要在这个【安静的环境】。不过语音识别更重要的意义在于,它给我们连接机器提供了一个更方便的接口。
即时翻译:
语音识别+机器翻译,就出现了现在很多即时翻译软件,出国旅游的利器。
语音合成:
这里,想要强调的是,语音合成技术是TTS系统中最基本而重要的模块。而TTS是text-to-speech.作者本人一开始居然还傻傻地以为是将两段语音合成。所以,我们在使用siri时,就是语音合成技术让她开的口。很多,阅读软件中的机器读文功能,也是通过语音合成技术模仿人声。说白了, 就是通过训练,让机器可以学习人的声音说话。
语音唤醒:
很多电影,主角一声吼,各种机器小弟来相见,这就是用到了语音唤醒。语音唤醒有两种基本方式,一种就是通过语音识别,然后匹配唤醒词。第二种,利用声学模型(音调、频率等),匹配唤醒库里发音词的发音特征,从而唤醒。
语音分离:
之前在讲语音识别时是不是提到,在嘈杂的环境下识别率会降低。这里就有语音分离的用武之地了,可以将非人声或其他噪声分离出来,只将我们想要的声音输入。
图像
人脸识别:
已经大量应用,iphone X刷脸解锁;刷脸支付也已进入试用阶段;甚至还可以通过儿童时候的照片找出长大之后的人脸;在一些安检点会通过照相匹配身份证上的人脸信息,以查看是否是本人。这都是人脸识别的应用。
目标检测&目标识别:
大多数情况下这两个技术都是同时应用的。这项技术也是整个计算机视觉的基础,很多应用的核心技术也是基于此。效果就是可以检测出一张图片中你想要检测的目标并识别出它是什么(人、动物、手机、汽车等等)。现在学术界的Yolo9000可以检测并识别9000种类别的物体,并且可以达到实时的速度。而且,目前机器识别目标的准确率早已高于人类(在一些标准数据集上的测试结果)。所以整个技术的成熟度已经很高,可以作为基础技术应用到各种复杂系统中去:例如,智能驾驶中需要检测并识别周围的物体;智能安防领域中需要检测摄像头中的感兴趣目标,等等。
最后,用一句话概括,就是可以让机器认识物体。
场景识别:
一张图片我们分为前景和背景。当人站在足球场上时,我们就可以利用目标检测和识别技术将人检测并识别出来,而场景识别呢,就可以告诉我们,这是足球场。一个是检测前景物体的,一个是检测背景的。而场景识别,要更加复杂一点。
OCR:
Optical Character Recognition——光学字符识别。是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。
这个应用就十分广泛了,而且也已深入我们的生活:比如,你在手机上添加银行卡时,很多软件会让你直接把卡放在摄像头的中央位置,然后就会自动识别出卡号。还有一些软件需要添加身份证或者是个人证件时,也可以使用相似的操作;以及你在停车场进出的时候,车牌识别,其实也算这个领域。也有很多软件应用在直接把PDF的内容转换成可编辑的文档。可谓十分广泛。也是非常基础的一个应用。
图像处理:
其实在这个领域内,有些方法并没有用到机器学习的内容,但是也有用到的。应用也是十分广泛的。现在的很多美图软件,都可以按照用户想要的效果输出处理后的图片。当然还有一些更有意义的:比如,图像去雾、图像去燥、暗光增强、失焦修复。当然还有各种滤镜啊等等。应用十分广泛。
还有值得一提的是,图像超分辨率:就是可以用深度学习模型将原始低分辨率的图像经过处理后变成高分辨率的图像。并且,效果就是,你会认为处理过后的图像就是原始图像。再多说一句,这项技术更进一步,可以达到,你给机器输入一个文字:“猫”,它就可以帮你生成一张猫的图片。
图像融合:
其实图像融合也可以算是一种图像处理的方式。目前已经有很多图像融合的APP了,并且这些图像融合不是简单的两个图像相叠加,是在风格上的融合,并保持一定的内容特征。在学术上,叫做图像风格迁移,可以让人人都成为梵高风、毕加索风的图片创造者。大家可以下一个【prisma】体验一下。
这里其实,想说,看很多文章说这样机械化的创造,会不会消灭艺术;但,我觉得,虽然机器在融合的过程中并不会加入情感和思考,但是,背后操作的人,依然有着温度。所以,作为一个工具,可以让我们人人都成为一个“假”的艺术家,可这也是艺术希望的啊。我们需要做的,就是更好地了解这些工具,并让他们成为生产力。
图像分割:
其实图像分割,就是抠图,并且是完全按照物体的轮廓扣出来的图。现在很多软件也可以做到,把你想要的前景目标按照其边界轮廓扣出来,然后,你就可以任意妄为的让它去你想去的地方了。
视频
其实视频中的很多应用基础是上一节讲过的图像技术,因为视频都是由一张又一张的图片组成的。在处理视频时也会将其作为图片进行处理,随后再将其连贯起来看。但是需要注意的是,视频,比图片多了一个时间序列信息。而利用这个信息,也是很多视频应用中,最关键的一步。
行为分析:
当我们将视频中出现的目标按照先后关系连续去看每一个动作时,其中就蕴含着行为的特征。技术上实现的原理也是这样的,先通过把每一帧里 人的动作给识别出来,然后再放到另一个模型中连贯的去处理这些动作特征,最后得到预测的行为结果。
这个,在人机交互中有十分大的潜在应用价值。而在实际投入使用中,很多城市都安装了预警摄像头,如果在其监控范围内有潜在的犯罪行为,就会自动报警。
视频分割:
这个就是做连续的图像分割。把视频中的一些前景或背景分割出来,有利用更好的研究视频的内容信息。也可以作为一种辅助工具,用于无人机导航和智能驾驶中去。
视频语义理解:
视频语义的理解其实是一个多特征的融合。利用之前提到过的:行为分析、人脸识别、语音识别等技术,对视频的相应内容进行识别,并综合这些特征,理解视频内容。
SLAM:
Simultaneous Localization and mapping,同步定位与地图构建。是近几年很火的一项研究。我所知道的,有两个应用:
无人机在室内环境下无法利用GPS导航飞行,这个时候就需要SLAM技术,在陌生的室内环境中进行视觉导航。大致的原理就是,通过摄像头拍下室内的场景,然后进行地图的构建,随后用户就可以操作无人机飞行室内的一些指定位置了。这样就解决了之前无人机无法在室内定位导航飞行的难题。
在陆地上走的机器人,进入一个陌生的环境也需要进行导航。通过在运动过程中拍下的室内场景,构建室内地形地图特征,并定位自身位置和姿态。这个在一些灾难救援场景中,就显得尤为关键和重要。
目标跟踪:
目标跟踪就是将目标在视频中的行动轨迹给画出来,从而就能定位一个人。目标跟踪其实是在目标检测的基础之上做的一个算法跟踪。因为,因为目标检测无法区分检测到的两个人,并且,在目标被遮挡的情况下,也是无法检测到目标的。而应用目标跟踪技术,即使在遮挡的情况下,根据目标移动的轨迹也可以预测出他的位置,并且,如果同时检测到多个目标,还可以区分出这些目标的轨迹。
智能安防:
以前,我们安防预警需要靠人盯着,或者说在事发之后,需要人为地去翻看录像。而,将以上目标检测与识别、人脸识别、目标跟踪、行为分析等技术整合之后,就可以依靠机器查出犯罪嫌疑人分的移动方向,甚至在城市的其他摄像头中找到犯罪嫌疑人。也可以,让机器全天候24小时的情况下监控一些关键区域,预警是否有危险情况的出现。
智能安防是一个领域,其中需要应用到的技术是依据场景和需求而定,但其中肯定少不了AI的应用。
AR/VR:
这一块的技术应用笔者不是很了解,但是,其中肯定集成了深度学习的一些基础应用技术,例如:人脸识别、目标检测、场景识别等。而VR/AR未来可能会随着硬件的普及,重新定义一些我们的生活方式。不过,在此之前,应该先很好地解决长时间佩戴眩晕问题。
好了,到这就先告一段落了,仔细回顾一下上面所介绍的,在产品的形式上,AI几乎已经是包揽了所有的计算机软件形态(不知道这样说准确不)了。而一些基础应用,已经渗入到各行各业中,有的作为工具、有的作为零件,被集成到了行业中的系统中,为用户或使用人员带来了便利。
而其中,有一个特点,就是应用最为广泛的,是一些基础技术。它们作为工具,加快了传统的人工处理或一些传统技术处理的速度。
2021-08-07 953
2017-11-08 1339
2018-07-10 1390
2019-10-12 1045
2019-09-23 1377
2023-09-19 349