从人类的视角出发,一张图片是由物件和背景构成,不过对电脑而言,图片是由不同颜色的像素构成,很难判断出哪些是背景、哪些是物体,以及这些物体是什么。不过,Facebook 人工智能研究团队(FAIR)克服这些挑战,于本月 26 日开源 3 款人工智能影像辨识工具,成功教电脑如何用人类视角辨识图像。
辨识三步骤:确认是否有物体、描绘物体轮廓、辨识物体
Facebook 利用机器学习,让演算法学习人类的神经网络如何认知物体和环境。例如,让演算法接收多张绵羊图片,并且告诉演算法这是绵羊,之后电脑便可以自行辨识出图片中的绵羊。
▲ 右图为电脑辨识图片的视角,一张图片由不同颜色的像素组成。(Source:Facebook)
这 3 款人工智能工具分别为 DeepMask、SharpMask 和 MultiPathNet:
- DeepMask:辨识图片里是否有物体存在
- SharpMask:更细致地描绘出这些物体的轮廓
- MultiPathNet:辨识这些物体是什么
例如,DeepMask 虽然可以找出图片中有狗和绵羊,却无法区分两者,需要仰赖 MultiPathNet 辨识物体;结合这 3 款工具后即为一套影像辨识系统,可以让电脑在“像素”阶段如人类般理解图像。
▲ 这套系统已可成功辨识影像,红线部分为机器未判断出来的物体。(Source:Facebook)
未来目标为影音图像自动辨识
Facebook 在博客指出,透过影像辨识系统,未来不用特地在图片上标记物体,也可以用文字搜索到特定图片。这项技术对视障者也相当实用,例如,只要用手指轻触图片,该系统便可告知图片中包含哪些物体,让视障者“看”见影像。
此外,这项技术也可加强增强现实(AR)的应用,例如,侦测出图片中的三明治含有多少卡路里,或是运动员是否处于良好的健康状态,以及让使用者模拟家具放在房间的样子、试穿虚拟衣服等商业应用。
▲ 影像自动辨识技术可加强增强现实的应用。(Source:Facebook)
下一步,Facebook 希望能让这套工具辨识影片中的物体,不过物体在影片中不断移动,辨识难度更高。可想见,这项技术将有助于Live直播影片的推广,可更容易向使用者推荐符合兴趣的影片。
Google 也开源人工智能工具 TensorFlow
根据《The Verge》报导,除了 Facebook,Google 也已将类似的人工智能工具用于图片搜索、email 的自动回复功能、以及搜索字词“自动完成”功能,并开源这套人工智能演算法 TensorFlow。
- Segmenting and refining images with SharpMask
- Facebook is giving away the software it uses to understand objects in photos
- Facebook opens its advanced AI vision tech to everyone
(本文由 数码时代 授权转载;首图来源:Facebook)
如需获取更多资讯,请关注微信公众账号:半导体行业观察