淘宝搜索的相关性
谈谈淘宝搜索的相关性
在淘宝搜索,大家都是如何挑选商品的呢?输入关键字,比如“iphone”,点击搜索。然后所有在淘宝上出售的iphone手机就都展现在我们的结果页面上了,对吗?其实,这短短的几毫秒当中,是淘宝强大的计算处理能力和我们许多工程师的心血在背后支持的。
可能大家都知道,目前淘宝搜索是通过商品的标题和用户输入的关键字匹配得到的搜索结果的。也就是说,如果搜索的关键字是“iphone”,我们只会展现标题中包含有iphone的商品(当然,接下来我们会尝试用更多方法帮助用户找到相关的商品)。目前在淘宝的商品管理平台中,标题都是由卖家自己来为商品填写的。通过标题匹配的方式,我们发现很多不是iphone的商品也出现在我们的搜索结果当中。比如,“iphone手机 多功能电源适配器”或是“苹果iphone/3GS手机链”。这样,用户经常要翻很多页才能找到几件和自己想要找的东西一致的商品。
这样的例子经常出现。在一些情况下,卖家为了让自己的商品获得更多的流量,故意在商品标题中堆砌很多与本身商品完全不相关的词汇。如“伊芙丽/哥弟/三彩/秋水伊人/艾格 10 专柜女装”,这样许多想搜索这些品牌服装的买家很难通过搜索找到自己想要买的商品。
为了提升淘宝搜索的用户体验,帮助买家更好的通过搜索找到他们想要的商品。我们的算法工程师在商品标题与用户查询词匹配的基础上,增加了一些相关性的计算原则。
类目属性与相关性的关系
淘宝的商品搜索环境和普通的网页搜索不同。这主要表现在,淘宝搜索的商品,他们在卖家上传的时候都是放在一些特定的类目下面的。比如,iphone手机应该放置在“手机”这个类目下;而日常使用的皮带应该放置在“服饰配件/皮带/帽子/围巾”下面的“腰带/皮带/腰链”这个类目下。每一个商品都有一个固定的类目存放路径,方便商家管理自己的商品。不过,在淘宝有时候为了买家挑选商品的便利,我们有一个前台类目的概念。比如,买家在挑选皮带的时候,需要首先定位到自己想购买的是男士皮带还是女士皮带。因此,我们展现给买家挑选的有一个“男士皮带”的类目,他会将所有“腰带/皮带/腰链”下配件性别是男士的腰带都自动放在这个前台类目下方便买家挑选。打个比方来说,这就是超市的仓库和货架展台。仓库中一类商品为了方便只能放在同一个地方,而货架展台中一类商品可以放在多个货架:即可以放在特价促销的柜台,也可以放在正常商品所在的柜台。也因此,商品所在的前台类目是随着季节、促销、市场流行程度时时变化的,而方便卖家上传管理商品的后台类目是基本恒定,很长时间才会变化一次。随着前台类目的变化而产生变化的是利于挑选的前台类目和利于管理的后台类目之间的对应关系。
跟大家介绍了这么多关于前后台类目的情况,其实是为了提醒各位卖家注意自己商品上传时所存放的类目。回到我们相关性的话题上来,淘宝搜索的相关性和商品所在的前台类目是息息相关的。用户输入一个关键字的时候,我们怎么来判断他想找的是什么商品呢?这个就依赖于我们强大的算法技术了。我们会根据这个关键字来猜测用户想要找哪一类的商品。比如用户输入的是iphone,大体应该是想找苹果牌的手机,那么配件类的商品在默认排序当中是会被降权的。用户输入的是 “防晒霜”,那么他大概是想找“美容护肤/美体/精油”类目下的“面部防晒”或“身体防晒”类的商品;其他类目下的商品,就会被降权。用户输入的是“皮带 男”,那他大概想要找的是“男士皮带”类别的商品;女士皮带或其他商品就会被降权。因此,您的商品在后台商品上传的时候,准确度越高,所有的商品属性填写越完善,越能够被买家精准搜索到,从而更容易达成成交。以皮带为例,如果您在上传的时候偷懒,只把商品存放在“服饰配件/皮带/帽子/围巾”下面,那么买家在搜索男士皮带的时候,因为前台类目的关系,您没有完整填写属性就很有可能找不到您的商品。
有一些卖家可能已经知道我们的相关性计算是和类目、属性有很大的关系,所以他们抱着侥幸的心理故意将商品错放类目或者属性希望获得更多的流量。比如说,他根本不是一件雪纺类的女士连衣裙,但是因为今年雪纺群是热门款式,故意将自己的商品放在雪纺连衣裙类目下,希望能够获得更多的流量。这里我们要奉劝各位卖家一句,再狡猾的狐狸也逃不过猎人的眼睛。我们的反作弊小组已经盯上了你们,这一类商品一经发现,会直接过滤或放置在商品列表的最后:最后的结果是得不偿失。另外,现在最先进的营销手段就是精准营销,与其将它放置在一个不正确的类目被没有需求的买家发现还要受到处罚,不如将它放在正确的类目下面,被有需要,成交意愿高的买家发现的效果更好。因为您一旦错放类目和属性,实际上也就丧失了被归到正常类目的可能,有高成交意愿的买家也无法找到您的商品了。
商品标题同样很重要
标题中出现了用户输入的关键字,并且类目也和用户想找的商品类目相关,是否就一定会出现这件商品呢?答案是否定的。除了类目、属性外,商品的标题的规范性也是相关性中的一个重要因素。淘宝有商品标题规范:http://service.taobao.com/support/knowledge-893353.htm这里面详细说明了商品标题中不能乱用的关键字。有的卖家在商品标题中有意的堆砌关键字或者使用人眼无法正确识别究竟是何种商品的标题,这种情况都是会被搜索降权的。举例来说,用户想搜索LV手袋,商品的标题中出现“可媲美LV的真皮手袋”,类目是正确放置在了箱包皮具类目了,可是并不是用户想要找的商品,同样会被相关性算法判定为不相关的商品。总而言之,相关性的目的就是为了让用户更加精准的找到他们想要购买的商品。
我们的算法还会不断的完善,更加准确的猜测用户的意图。
相关性过滤即将上线
经常有用户向我们反馈,虽然默认排序下看上去都是他想要找的商品,但一旦开始精准挑选商品时,使用价格/销量/信用等单一维度排序的情况下,商品搜索的质量就变得非常糟糕。经常有十分不相关的商品占据了前面好几页的位置。例如,我想挑选一款价格最便宜的手机,但是我输入“手机”搜索,并且按照价格排序后, 排在前面的都是手机链或其他手机配件。
我们十分重视淘宝搜索的用户体验,致力于给买家最合适的商品搜索结果。因此在5月份,我们会针对价格/销量/信用排序下用户反馈较多的相关性较差的情况做出改进。针对单个用户的查询词做出意图识别,给出和查询词相关的内容。这个功能上线之后,用户搜索“手机”,并且按照价格排序后,排在搜索结果页前面的大 部分都会是用户希望查询到的手机产品了。
该功能上线后,卖家可能会发现自己的部分宝贝在价格/信用/销量排序下无法直接展现的情况,如果遇到此类情况,建议您:
1、可以查看自己的宝贝是否触犯了作弊相应的条款,
如炒作信用/滥用不相关的关键字/发布广告商品/错放类目和属性
2、可以查看您的宝贝所挂的后台类目是否和其他同行放置宝贝的类目一致。
3、可以查看标题描述是否有不规范的地方。
譬如”哥弟”,在标题中写成了”哥*弟”或”哥/弟”之类的。
或您在标题中描述的产品品牌的英文缩写不正确。如Nike的商品,您在标题中写成了ni*ke。
4、是否用户意图在寻找正品产品,而您售卖的是仿品等相关产品。
请您遵守如实描述等相关规则,否则可能会触犯我们的作弊相应条款。
自淘宝开始相关性算法以来,淘宝的算法工程师总是尽量使他们的算法的精确度接近100%。既然是由算法来判断是否相关或作弊,不可避免有误伤。但是,可以保证的是,误伤的可能性相当低。如果您发布的商品不属于以上的任何一种情况,欢迎您在博客或者论坛上给我们留言,我们在核实后会尽快改善。
我们非常重视和广大卖家的沟通,我们也非常欢迎卖家对我们的搜索质量提出宝贵的意见。如果您有任何的建议,也非常欢迎您通过我们的博客或论坛提出。