2017年04月前后,Xtecher对黄鼎隆的采访,约在黄鼎隆位于深圳市盐田区壹海中心的海景办公室里进行。
这是码隆科技创立以来的第三个年头。他们在商品识别上的研发不断突破,正在计算机视觉领域的大道上一路驰骋。与持续升温的人脸识别相比,柔性商品识别在计算机视觉领域显得格外冷门。因为它比介于刚性与柔性之间的人脸识别的技术难度更高。
刚性物体的相对结构稳定,即使物体受力也不会改变,识别难度较低。人脸则介于刚性与柔性之间,每个人的五官在脸上的布局位置大致相同,所以不会发生大的改变。
而柔性物体是指受力后会变形,且作用力失去后物体自身不能恢复原来形状的商品。它的相对结构则无时无刻不在产生变化,最典型的就是衣服,会出现折叠、遮挡、褶皱。
不难看出,柔性商品识别在上述三个方向中难度最大。那么,为什么要选择柔性商品识别这一赛道呢?
码隆科技CEO黄鼎隆告诉Xtecher:“是因为最大的难题才有利于打磨出最锋利的技术。”而且,柔性商品识别的商业场景更清晰,市场空间更广阔。
微软产品总监出身的黄鼎隆认为:“我们在解决问题过程中,不断思考如何把有共性、可服务客户的东西提取到平台上。很多大企业如微软、谷歌,都以最终要实现的规模化业务,以产品的思路去做这件事情。”
经过近三年时间努力,码隆科技打造出了一个位于云端的面向B端具有商品识别功能的人工智能平台——ProductAI。
ProductAI有两个核心功能:一、根据客户提供的图片及视频数据,快速自助建立起“以图搜图”引擎。并提供图像处理接口,帮助企业实现图像标记、分类、聚类、定位、以图搜图等功能。二、为图片“打标签”,令数据结构化。
ProductAI主要有以下两个核心功能:
一、“以图搜图”节省时间成本
“以图搜图”功能的关键点在于从语义上准确理解图片所表达的意思。其基本原理是理解图片,使引擎成为一个包含各种图片语义的高维度向量。
除了识别图片之外,ProductAI还能对物体进行360度立体精准识别,并激发相应的互动体验。不论是平面海报还是立体模型,只要经过 24 小时数据训练便可向企业客户提供专属识别接口。
二、为图片匹配标签 令数据结构化
ProductAI在理解图片的基础上通过把非结构化的数据结构化,对图片进行分类、标注来匹配标签。使用ProductAI 的自助服务,五分钟内便可为企业客户搭建起专属图像搜索引擎。从此,网站、移动端及智能硬件等平台的搜索引擎不再只停留在文字键入,只要上传一张图片便可搜索出语义上相同的图片。
此外,“打标签”这个功能还可以渗透在企业内部管理上:若以前一个企业内部需要管理其SKU(库存量单位),可能会由于数据太庞大而无法有效解锁,但ProductAI这一功能令数据结构化并便于检索,有效节省人力成本。
黄鼎隆向Xtecher进一步解释,例如在视觉中国网站中,上传一张沙滩的图片,平台便自动匹配“沙子”、“天空”、“海洋”等标签。对于有大量图片和视频数据的企业,人工识别并标注信息会耗费巨大的人力和物力。对于ProductAI平台的“打标签”功能,根据第三方有效统计其效率为人工标注的 200 倍。
凭借过硬的技术,码隆科技令ProductAI拥有令其他产品变得更智能的优势,同时在计算机视觉识别领域脱颖而出,进入大众视野,与企业用户更大程度地实现价值共享。
to C走向to B
多角度探索商业模式
码隆科技在成立初期,曾针对C端推出一款移动应用StyleAI。用户可上传任意图片素材,StyleAI 会根据图片中的色彩等元素,反馈出与之风格相似或相同的时尚单品图片。
人工智能视觉决策引擎项目,及其相关应用StyleAI项目令码隆科技在2015年1月成功入选了微软创投加速器。StyleAI也以能给用户带来搭配灵感的新奇功能吸引了一部分C端用户,但由于它不是电商入口,无法积累用户消费行为以及构建闭环,因此它在商业角度上并非一款出色的产品。
经过一番研究和思考,黄鼎隆发现C端产品为保证向用户提供优质体验,因而对每个环节的衔接要求更高,而 B端产品笼统上看只需提供一个环节。
黄鼎隆告诉Xtecher,因为两个原因,他们选择转变商业模式:其一,是他们希望技术服务于已拥有大量数据的用户,以此最大程度地实现技术的价值;其二,黄鼎隆表示基于对大形势的判断,若继续开发APP,逆势而为无法带来更多商业价值。
所以,码隆科技在商业模式上果断选择了由2C向2B的转型。
以时尚为切入点
多领域的广泛应用
由于ProductAI“以图搜图”功能可以精确识别服装面料等易变形、遮挡、扭曲物体,所以码隆科技把时尚行业作为商业切入点的主要行业。
在纺织面料交易平台上,服装设计师可快速找到心仪的面料,提高采购服装面料的效率。与电商零售合作,令顾客在平台上以图搜款,增加搜索商品的便捷性。
在家居纺织行业中,ProductAI能准确识别出图片中家居的风格,并对家居的精准定位、家居用品以标签的形式进行识别。比如在俱合网上传一张室内图片,就能看到很多同款的家具。还会根据图商品标签推荐同种风格的商品。
除了面料纺织行业,旅游业也是ProductAI应用较频繁的行业之一。
ProductAI可对内容场景进行识别,对用户图片进行滤镜处理之外,还能对旅行场景进行智能识别,并匹配相关营销文案。ProductAI还可通过滤镜处理和元素拼接等技术,实现盗版图片的识别。
2016年底,ProductAI人工智能平台在黄鼎隆团队用心打磨下已经成功上线。目前,ProductAI已通过API接口开放的模式与视觉中国、瑞丽、暴风影音、优料宝、微软在线等展开合作。
“我们的理念是,真正的人工智能不在于自己有多智能,而在于能让别的产品变得更智能。”黄鼎隆告诉Xtecher,“我们产品的视觉识别准确率很高,这是技术的突破。其商业价值在于能够将这个能力植入到别的产品中,使别的产品变得更智能。”
那么,如若巨头公司进入商品识别市场,码隆科技是否会担心受到冲击呢?
对此,黄鼎隆表示:在小市场的竞争中,初创公司比巨头公司有更多机会彰显优势。他打了个比喻:“AI与教育有相似之处,一对一的私教效果或许比100位老师教育一个小孩子的效果更优质,AI 领域也如此。”
另外,像谷歌这样的巨头公司,他们更注重在视觉领域的全面发展,暂时没有在这种垂直领域投注太多精力和时间。黄鼎隆说,这项技术的研发难度比较高,需要投入大量人力和时间,所以一般时尚行业公司不会考虑研发这种技术。
目前,ProductAI已经成功探索出动态收费机制。根据素材调用次数及调用服务类型进行收费,每次调用收费从1分至1毛钱不等,调用次数越多则单次费用就越低。因此极大地降低了商家介入人工智能的门槛,也使双方获得价值分享。
技术积累
为产品的成功上线奠定基础
在ProductAI成功上线的背后,还有一个不容忽视的因素——技术积累。黄鼎隆曾在腾讯担任产品总监,他笑称腾讯是一个能培养出最优秀的产品经理的平台。
他告诉Xtecher:“在腾讯那段时间,最大的收获是有机会接受亿万级别的数据对你大脑里的模型进行训练。”
在加入腾讯团队之前,黄鼎隆也有在微软工作的技术积淀。当时他与效力于研究部门的Matt Scott对接,分别处于市场端和研究端的两人合作开发了必应词典。必应词典在当时占据了Bing很大部分流量,成功完成整个产品的闭环并实现了商业变现。
扎实深厚的技术积累和丰富的成果,令他对码隆团队的技术研发胸有成竹。
“中美”黄金组合
擦出别样的火花
谈及当初为何选择创业时,黄鼎隆称这要回溯到2014年一个寒冷的冬日。时任微软亚洲研究院高级研发主管的Matt Scott的婚礼让昔日微软Bing Search(必应搜索)研发团队的队友重逢欢聚。在温暖的烤肉店里,他们一边享受着烤肉给味蕾带来的刺激,一边谈论近几年深度学习的技术进展。
2010年,ImageNet比赛图像识别中对象分类项目的准确率是72%,时隔六年,准确率达到了97%。飞跃式的进展令黄鼎隆和队友们看到了视觉识别领域的曙光。
黄鼎隆把视觉识别比作一座宝藏,他和Matt Scott等队友长期关注着这把“钥匙”的研究进展。“那天突然意识到那把钥匙有机会面世,而打造这把钥匙最重要的材料就是深度学习,我们觉悟到真正的时机来了。”
带着这份笃定和信心,黄鼎隆和其他成员计划合作研发视觉识别领域的商品识别技术,并推出以商品识别技术为支撑的智能产品。
码隆科技的命名,是由两位创始人Matt Scott(中文名译为“码特”)及黄鼎隆的“隆”字合并而成,蕴含“中美式”组合的寓意。
这一对“中美”黄金搭档,被黄鼎隆幽默地比喻成中国乐坛的“羽泉”、“水木年华”这样的组合。在他眼里,这个组合具备中西结合的特色。他笑称“不同文化维度的人在一起合作,往往会发生一些‘化学反应’。”
黄鼎隆告诉Xtecher,他们这一对“中美”组合带领的团队,既包括了西方社会重视承诺的契约精神,也糅合了中国人自古至今颇为看重的“人情味儿”。中国人强调和谐,讲究保持平衡,而美国人则追求极致。
在创新的过程中他们能将二者结合,努力做到细节上的极致,又能达到整体上的平衡。两种文化水乳交融,给这个团队带来了不同的智慧火花和持久的凝聚力。
“我们团队的管理方式是以结果为导向的,员工享有自由的空间但也需要高度自律。”黄鼎隆这样介绍码隆科技团队的管理风格。
在甄选人才方面,黄鼎隆似乎有着一套十分严谨的用人制度。只有2%的人才能过关斩将地进入团队中,成为精英中的一员。目前,码隆科技团队人数尚未达到50人,其中技术人员占83%。
黄鼎隆向Xtecher介绍了他们公司非常注重锻炼员工在Demo(新算法模型小样)上的展示。团队成员每周向全公司演示现阶段研究的最新成果模型,并在公司建立了一个量化评测体系。
黄鼎隆把这支风雨同舟的团队比喻成攀登珠穆朗玛峰的精英小分队,披荆斩棘,努力成为未来全球商品识别领域的勇士。
“一图胜千言”
行业前景广阔
黄鼎隆告诉Xtecher,他在清华大学工业工程系读博的阶段参与了一个项目,而那个项目当时与如日中天的诺基亚有合作关系。当时诺基亚发表了一篇论文,包括对人机新的交互方式的设想。比如:语音技术、触摸屏技术成熟后,人与手机的交互方式会有哪些。
诺基亚当时已经从科研的角度出发,基于smart phone智能手机的概念去考虑新的使用场景,但后来没有完成从设施端到产品端的转化,因此技术无法落地。
黄鼎隆一直认为,“一图胜千言,挖掘图片数据会比文本数据更有价值。”毕竟,人类90%的信息获取需要依靠视觉,例如当我们看到周围的风景、事物时,我们是通过视觉信号获得认知的。同时,图片具有无国界、跨语言的特点。
据统计,中国人工智能领域已有近百家创业公司,约65家获得投资,共计29.1亿人民币。它们覆盖了工业机器人等硬件产品层、智能客服等软件层、视觉识别等技术层以及数据资源等基础层。根据iResearch,目前,语音和视觉识别技术分别占中国人工智能市场的60%和12.5%。因此可见国内人工智能市场的视觉识别技术,其市场空间十分广阔。
在图像识别领域,北京大学信息科学技术学院智能科学系教授徐超称,“在很多专业的图像领域,计算机视觉识别已经达到、甚至部分超过人类的识别水准”。
黄鼎隆表示,人本身90%的信息获取都是通过视觉,尽管现在计算机大部分停留在文本交互方式,但未来将会是一个以视觉为主要交互方式的时代,他认为,未来会有新的交互设备取代手机,AR、可穿戴设备、机器人、无人机等都存在可能性。
不管最终是哪一个成为新的交互设备,但它必定会拥有一个共同特点——以视觉交互为主。现在他表示码隆科技希望把重点放在对商品更透彻的理解上,在新的交互设备兴起的未来,有信心能占据一席之地。