第六百四十九章 视觉搜索-《重写科技格局》


    第(2/3)页

    于是我们开始在考虑,还有没有其他的办法去解决这个问题,直到我们想到一种可能性,如果我们可以让手机去认出我们好奇的目标,并由手机将结果反馈给我们,也就是通过手机自己的识别来完成搜索目的是不是有可能呢?

    如果可能的话,我们是不是可以将其命名为,视觉搜索。

    用户只需要打开摄像头对准目标,就能获取相关信息。”

    “这只能算是视觉识别吧。”孟谦微微皱眉道,略有一点小失望,“只要把数据库搭建起来,把算法设计好,再过几年任何一款手机都可以拥有这个功能。”

    “如果只是显示被拍摄物体的基本信息,那确实只是一个视觉识别,我们公司很快会攻克这一技术。

    但如果再加上用户行为理解的话,它就不仅仅只是识别,可以进而演变成搜索功能了。

    比如我们出去旅游,作为移动手机,它有你的定位,还有你的一系列数据,比如时间,近期行程,出行方式,因为借助移动手机,算法可以获取到的信息是超越这个图片或者视频本身的,那么算法就可以通过这些数据去猜测用户现在最想搜索的内容是什么并对搜索结果进行排序,出现像一点搜索那样的一系列反馈结果而不仅仅只是一个对象基本信息。

    用户可以在这一系列反馈结果中找到自己想要的内容,当然,视觉搜索可以结合语音和文字输入,当算法判断错误的时候,用户可以通过语音和文字精细化所想要搜索的内容。

    这种基于视觉的搜索应用会有很多可以期待的场景,比如学习,比如社交,比如户外商业化。”

    “要同时实现视觉识别和用户理解,这个算法开发起来可不简单。”孟谦直接指出了困难,毕竟这是2019年都没有实现的技术,“光是最基本的视觉识别就存在很大的问题。

    你这个视觉识别跟我们正在攻克的视觉识别还不一样,现在的计算机视觉技术发展是基于点状云的,也就是通过3d扫描物体,构建点状云,然后用点状云训练机器的算法,让机器能够辨识出这个物体,你们应该都很清楚。

    然而这种计数原理更适用于室内,在识别物体和人脸方面会比较有效,到了户外识别能力就变得非常差,最常见的,随着光线的变化,建筑反光的颜色和强度会变化,阴影会变化,此外,建筑物周围的行人、停靠的车辆,也会影响机器对其的识别,你们准备怎么解决这个问题?”

    “我们采用了另一种算法逻辑。”卓良才把准备好的平板放到孟谦的面前,“我们的识别基础是几何化,标签化。

    首先我们必然要建立一个庞大的数据库,而且随着用户上传信息越来越多,我们的数据库也会越来越庞大。

    其次,我们会对户外的物体进行特征性的几何化处理,比如山的形状,塔的形状,这些极具特征的形状,从而减少对光线等变化较大的信息的依赖。

    然后我们会对数据库里的信息进行标签化,这个时候就像我刚才提到的定位,在知道用户在哪拍下这个图片的前提下,通过标签快速找出所在地,再结合几何信息就会很好确认目标。”

    “你们最初开始考虑这个技术的时候,灵感来源是什么?”孟谦认真的问道,“应该不只是纯粹的在考虑搜索的本质吧?你两的研究方向一直也不是搜索啊。”

    卓良才跟曹爽笑了笑道,“是有一天我们在西溪湿地那边看到一块外形奇异的石头,然后我们就这么盯着那个石头看了半天,大脑却放空了。
    第(2/3)页