搜索能力初探

初接触搜索,简单学习了解了一下基础的搜索能力

搜索流程

用户

根据搜索的过程,可以拆解用户的搜索流程如下:搜索入口 - 搜索触发 - 内容输入 - 点击搜索 - 反馈结果。

实际触发流程

  1. query
  2. 预处理 去除空格或的,淫秽词,极限敏感词
  3. 改写/纠错 需要判断这个关键词是否有错别字(算法/人工词库),是否命中人工改写的词库
  4. *语种发现 暂时用不到
  5. 词性还原
  6. 分词
  7. 同义词扩展 词典以及人工维护的同义词词库用来扩展分词之后的关键词
  8. 匹配召回 词组匹配要优先于单词匹配,全词匹配召回
  9. 无/少结果判断
  10. *类目预测
  11. 排序算法
  12. 渲染呈现

竞品范围

阿里健康

阿里健康商城

京东健康小程序

叮当快药小程序

触发前

常用用法

默认搜索词: 内容前置,用户在不输入搜索词的情况下直接得到想要搜索的词

竞品

阿里健康&商城&京东健康&叮当快药

图1

阿里健康默认显示“搜疾病、药品、症状”

阿里健康商城默认显示推荐词“人参五宝茶”

京东健康默认显示“搜药品、滋补保健品”

叮当快药默认显示“搜药品、症状、品牌”

高济药急送默认显示“搜药品、症状、品牌”

商品名称关键词,类目词,品牌词,特定活动

解决方案

默认搜索词

  • 极简版:
    • 运营人工配置
  • 自动推荐版:
    • 热门搜索词、热门品类、热门活动

触发后,输入前

常见用法

搜索历史、热门搜索、搜索发现

竞品

阿里健康&京东健康&叮当快药

图2

阿里健康提供了按病症找药

商城给出了热门推荐,没有记录历史搜索数据

京东健康记录了用户搜索历史,并在推荐词中加入了活动相关标签

叮当快药包含历史搜索、热门搜索和常用分类

补充了美团外卖,包含搜索发现和历史搜索,搜索发现支持换一批推荐词

解决方案

  • 搜索历史

    • 搜索历史是假设用户使用搜索具有一定重复性。帮助用户快速检索历史需求。一般搜索词按时间先后顺序由近及远,数量过多时会进行折叠或只保留 N 个,用户有清空历史搜索词的选项。
  • 热门搜索词

    • 通过已有用户的搜索日志,进行数据分析,选择将高频 & 高转化搜索词进行展现,便于用户冷启动 / 意图冷启动进行筛选。

    • 也可运营同学的参与,如大促热门活动主题。

      注: 热门搜索推荐词应避免长尾,应尽量高频、宽泛、多样。

  • 搜索发现 / 搜索词推荐

    • 这一板块使用了千人千面,更加个性化。并且很多时候有换一批的功能,可以让更多内容有曝光机会。由于有搜索历史的存在,所以搜索词在个性化的同时,应尽量避免与搜索历史栏出现语义重复,提供更有价值的搜索词,从而最大化曝光效率,并且为了防止过多推荐词带来干扰,一般搜索发现词在10 个以内。

      热门搜索和搜索发现一定程度上需要做语义归一化,避免浪费坑位,如“胃疼”与“胃痛”。

搜索中

常见用法

  • 搜索词自动补全产品形态
    • 关键词匹配 / 补全 / 联想 / 纠错的作用主要有三个:引导、纠错和高效。
    • 竞品均是前缀匹配,高济药急送为混合匹配
    • 补全和联想,有数量限制不宜过多,竞品和高济药急送均是10个联想词
    • 需要通过数据挖掘 (群体行为和智慧) 来给出高频恰当的搜索建议。

竞品

阿里健康&阿里健康商城&京东健康&叮当快药

图3

搜索后

用户搜索完成后的商品检索和排序展示过程

常见用法

  • 内容纠错
  • 难免用户在搜索过程中有错误的输入,纠错功能可以通过算法判断后输入有误,然后展示正确搜索词商品列表给用户,并友好地告知用户正确的搜索词,并确认是否需要搜索系统判断有误的搜索词 (确实有长尾、低频词搜索需求存在)。考虑到了整个纠错功能的容错性,减少了用户输入错误或者本身记忆错误带来的搜索问题,用户也不用再次进行搜索了。自动容错功能,将极大地提升用户体验,并提升用户的购买率。

竞品

阿里健康&阿里健康商城&京东健康&叮当快药&高济药急送

图4

测试流程:搜索关键词“敢冒”

阿里健康首页搜索,直接显示提示使用寻药平台

阿里健康商城自动识别搜索“感冒”

京东健康命中第一个商品名称中包含 “敢冒”,后面是“感冒”的搜索结果

叮当快药自动识别搜索“感冒”

药急送无命中结果

  • 筛选器

  • 当搜索结果过多相关度结果参差不齐时,召回的商品还是海量的,对于用户精准快速的获取商品仍然是一个不小的挑战,而排序和过滤的功能则能够很好的缓解这一情况。过滤和排序能够一定程度上帮用户调整和缩小搜索商品列表,大幅度降低用户下滑寻找商品的工作量

    目前筛选器是各大电商的搜索产品标配,使用频率非常高。筛选器通过传递筛选参数,搜索引擎会在原有召回基础上进行商品过滤。筛选在各大电商均做了2 类方式的展现,当筛选项维度少时,可以将筛选(与排序一起)放置商品列表结果中间 (类似淘宝搜索的锦囊),一般在浏览若干个商品以后出现;若维度丰富,一般使用侧边栏形式。

阿里健康&阿里健康商城&京东健康&叮当快药&高济药急送

图5

在相关的对比中只有京东健康提供了京东物流、品牌、类别、适用人群的筛选器,其余只是提供了综合、销量、价格、新品(京东)的2次排序功能

  • 无结果
  • 用户进行搜索后,出现无结果或少结果原因可能有以下几点带来:1.输入错误的搜索词;2筛选条件过多或搜索词过于长尾 / 具体;3. 本身平台符合搜索需求的商品少或无。对于前两种,可以提示用户并进行自动容错,展现正确的商品列表;对于第三种情况,一般会匹配相关替代商品进行补足,或提示用户更换搜索词

图6

输入长尾词或异常词

搜索内容

词类型

品类词、品牌词、属性词、症状词、停用词

词关系

同义词、形近词、同音词、子母品牌、类目、文本相似性

词维度的用户画像

用户强弱意图 / 转化意图识别,可以快速帮助搜索系统定位召回及排序策略,不同的意图可以带来不同的排序和展现效果。如强意图下相关性因子应该加强,弱意图下应该更加注重点击 / 转化等反馈行为量

  • 强意图 / 转化型: 需要快速帮助用户定位所需的商品 (因素: 价格、品牌、品质、商家等),推送引导的目的是让用户作出购买,收藏等决策,追求转化的数量 + 速度 + 质量。
  • 弱意图 / 闲逛型: 需要帮助用户发掘新的兴趣、新的话题,但同时不能让用户 感觉无聊,目的是满足用户需求,把用户喜欢的推荐给他,追求 pv/ 点击率。

根据用户行为和 query 的静态信息,分析 query 是搜索型(偏向买)**还是**浏览型(偏向逛)**。后续利用模型对 query 分类,用以分析排序策略对不同类型 query 的影响,方便对不同类型 query 作不同排序**。

搜索基本组成

索引

索引分为全量索引增量索引两部分

索引的内容

基础信息

​ 分类、品牌、主治、通用名、商品名

促销标签

配送时长(即时达/次日达)

药急送上下架

条形码

排序得分

排序与权重

类目排序和商品范围排序

目前类目预测主要是两种方式互为补充:人工和机器算法。

商品

销量 (滚动7天 15天 30天)、成交笔数&成交金额、UV点击率&详情页转化率、退货率/好评率、主图质量、类目相关度、加购&收藏、标题&参数准确率

门店

退货率&好评率、客服响应时间、投诉率、门店收藏、SKU丰富度

搜索数据指标

简版

  1. 搜索次数
    1. 搜索按钮
    2. 联想词
    3. 热搜词
    4. 历史搜索记录
  2. 搜索人数 搜索UV
    1. 根据PV过滤
  3. 有效点击率 ( 结果页点击商品次数+加车次数)/搜索次数
    1. 点击商品
    2. 点击加车
  4. 结果页PV转化率 产生有效点击的搜索PV/搜索次数
  5. 结果页UV转化率 产生有效点击的搜索UV/搜索人数
  6. 搜索结果页首屏命中率 前N个商品点击次数/点击次数
  7. 搜索放弃率 无点击搜索次数/搜索次数
  8. 加购率 加车次数/搜索次数
    1. 结果页加车和结果页跳转详情加车(第一次详情页加购)
  9. 成单或成交转化 订单/搜索次数
    1. 按原推荐商品方式计算
  10. 平均搜索UV价值 通过搜索产生的GMV/搜索UV
    1. 按原推荐商品方式计算

标准版

  1. 搜索次数

    搜索词被搜索次数,结果页首页PV数

  2. 使用搜索UV

    产生搜索行为的UV

  3. 平均搜索次数

    搜索次数/使用搜索UV

  4. 使用搜索UV 占比

    搜索UV/总UV

  5. 搜索有效点击次数

    搜索结果页,点击商品、加车次数

  6. 搜索有效点击率

    搜索有效点击次数/搜索次数

  7. 有效搜索次数

    产生有效点击的搜索次数

  8. 有效搜索占比

    产生有效点击的搜索次数/搜索次数

  9. 有效搜索UV

    搜索后产生有效点击的UV

  10. 有效搜索UV占比

    搜索后产生有效点击的UV/使用搜索UV

  11. 平均有效收缩次数

    有效搜索次数/使用搜索UV

  12. 搜索结果数为0次数

  13. 搜索结果数为0次数占比

    搜索结果0次数/搜索次数

  14. 搜索结果少的次数

    返回结果<=N

  15. 搜索结果少的次数占比

    搜索结果少的次数/搜索次数

  16. 搜索换词数

  17. 搜索换词率

  18. 搜索放弃数

  19. 搜索放弃率

  20. 使用筛选搜索次数

  21. 使用筛选搜索次数占比

  22. 搜索提交订单转化率

  23. 搜索提交定单数占比

人工干预模块

(1)同/近义词和词组维护

即在我们的语言中形态和发音完全不同的两个词有可能表达的一个意思,比如:女人和女士等,由于搜索在输入端和匹配端的信息不是对等的;比如:我们的商品标题里由于维护的字数有限,没法将所有的相关的关键词信息输入进去,如果我们将标题维护为 女士高跟鞋******* 那么用户输入“女人高跟鞋”使用精确匹配的规则就无法搜索到对应的产品,因此同义词就是用以扩展搜索结果,给到用户更多相符合的产品而存在的。

目前针对汉语和英语其实有很完善的词典,但是随着目前随着网络流行语不断加入,即便是词典丰富也无法满足需求了,同义词人工维护的模块还是有必要保留,用以解决某些突发的状况。

(2)上下位词维护

功能和同义词类似,只不过较之于同义词多以一个层级关系,同样是用来进行搜索结果的拓展。举个例子:用户在输入荣耀手机,那么荣耀其实是华为旗下的子品牌,一旦此时网站内的荣耀商品只有这么几款,除此之外用户就是呈现给用户的都是荣耀的手机配件,这样是否有利于转化呢。

因此,层级关系的上下位词维护就显得有必要,将华为维护成荣耀的上位词,在搜索荣耀后一旦荣耀手机呈现完 剩下的由华为手机进行补足这样丰富了搜索的结果,也更加有利于少商品时的转化。同理,鞋子>男鞋or女鞋or儿童鞋等。关键词层级拓展的关系也能增加搜索的查询范围

(3)词链维护

即将词和链接对应起来,只要用户搜索这个关键词,关键词就会跳转至指定的链接里去,一般用来维护活动关键词,用以给活动促销引流之用。

(4)热词维护

说的更加清楚点,很多电商平台叫这个模块 搜索发现。该模块具备典型引流的作用,一般会加入带有链接的活动词,以及用户经常使用的高质量高转化的关键词,提供给用户进行点击。

关键词商品人工干预模块:一般而言这种强行干预排序的功能是算法和产品所不齿的,但是在电商公司不能拿你自己的理念来挑战老板的权威,一般搜索运营的规则在金钱面前都得暂时低头,忍辱负重。

在某些新品发布,或者在及其盛大的促销节点时,参与活动或者商品,公司都会要求增加曝光几率,包括搜索。在搜索中可能有些是算法无法实现的,这个时候这个粗暴干预搜索结果页商品排序的功能就显得犹如救火英雄搬的存在。只需要商品的id序列就能在特定的关键词里,将这些特定的商品强制置顶。当然这种强制置顶的逻辑还是要符合最基本的搜索规则的。

(5)搜索结果页顶部图片分类维护

该功能其实是搜索结果页筛选项的一部分,只不过以图片的形式进行的展示,其实该功能可以由算法进行自动带出,但是带出的准确率并不是100%。

所以人工干预的入口就显得有点必需,具体如图:当用户输入一个较为宽泛的词时,由于该词的含义包含的商品分类比较广,如笔记本,包含了笔记本电脑和学生用的纸质的笔记本,而笔记本电脑里还有许多细分的类目。这个时候如果加上该顶部的图片分类,用户就能更快的定位到他想要的类目中去,点一下上面的图片分类 即意味着在该类目下搜索“笔记本”,呈现的结果也是在该类目下搜索笔记本的呈现结果。

该模块起到的作用就是快速帮助定位那些“范词”即词的范围比较大的词,比如:搜索“鞋子”我们不知道用户他要搜什么样的鞋子。因此此时如果给用户在顶部呈现图片分类,能够快速的让其定位到想要的类目里去,更加有利于用户的点击和转化。

(6)关键词人工改写维护

该功能是一个权限很高而且很粗暴的功能,我叫他暴君功能。该功能能处理很多应急个案事件以及某些无少结果的问题,即将一个关键词强行转接到另外一个关键词的结果页上去。比如:搜索女士性感T恤,使用暴君功能直接将其改写为“女士T恤”之后 女士性感T恤就会直接显示女士T恤的结果页。

当然我举的例子不太恰当,搜索还是要还原用户本来的搜索意图,实在没招了可以使用暴君功能,这是下下策!

(7)关键词纠错维护

该功能旨在将用户输错的关键词予以纠正后在进行搜索的模块,一般是算法以及词典的方式进行,某一些关键词由于算法并没有100%的把握将关键词纠正,所以人工关键词纠错词库就是最好的补充。

(8)联想词维护

前文已经提过了,这里就不再赘述。不过需要强调的是,联想词是搜索方式的重要的组成部分之一,几乎占据了搜索词流量的30%以上,部分app占比更多。因此在如此多的流量加持下,联想词也必须要加入人工维护的入口,毕竟算法不是万能的。

(9)类目置顶干预

该功能即强制置顶关键词搜索的某些商品,比如用户搜索“笔记本”但是搜索结果页会出现纸质笔记本和电脑笔记本商品,掺杂其中,并不利于用户选择,因此可以人为将笔记本类目的商品进行置顶,这样就解决了该问题。当然该功能还可以用在类目排序算法还不是特别好的初创网站上,进行人工类目预测的一部分。

(10)关键词排序权重干预

指在统一的排序算法上,运营人员可以根据不同的关键词自定义不同的维度的排序权重,实现精细化运营的一部分。不过目前鉴于很多算法上都会基于个性化千人千面的性质来进行算法调配,以达到搜索到gmv转化的最大化,人工干预排序权重的功能已经用的比较少了,不过还是有必要维护干预的入口,以免造成二次开发的人力浪费。

(11)停用词/敏感词维护

该功能旨在为规范商家以及广告法等一系列不允许出现的一系列禁用词,某些阿拉伯国家明确禁止的涉及色情,暴力血腥等关键词等,在部分音型文字比如英语 阿拉伯语 法语等,其中的介词,for with at by等等,用户在带有这些介词和停用词的关键词时,分词系统会自动过滤,将其排除在索引召回的关键词外。避免影响搜索结果的展示。

(12)搜索结果页顶部图链维护

该位置如图所示,其样式可以多样,目前主流电商在此处放置的一般为品牌旗舰店的图片链接,在一些品类词里面也可以放置营销图链,用以给对应的活动引流。因此这一块也有一部分人工干预的操作后台来实现。

(13)搜索结果页无少结果推荐关键词维护

该功能旨在用户在输入关键词进行搜索后,app界面显示没有对应商品,或者对应商品少于4个或者8个时,呈现给用户的展示界面。呈现的样式可以多种多样,可以是经过算法自动分割之后的关键词展示,也可以是相似商品展示(少结果);同样也可以是与用户输入的关键词意思接近或者相关的关键词推荐让用户重新搜索等。

下图为京东的具体实例:输入的关键词为京东搜索后的无结果页面,全词匹配无结果。通过算法减词后识别出两个推荐给消费者,并默认选取其中一个关键词搜索结果页展示给用户,保留另外一个给用户自己选择。这样更有利于无少结果的转化,防止用户直接跳失。

(14)搜索结果页商品瀑布流参数展示维护

如下图所示,当用户在进入到搜索结果页后,在浏览页面商品时,随着不断的商品向上滑动,即表明用户还没有看到自己满意的商品。此时,需要给用户更精确的定位,确保用户不至于长时间浏览后直接跳失,因此在瀑布流之间穿插商品的核心参数,有利于用户点击后更加精确的筛选,增加成交量。

当然这个模块的形式并不是只能以参数的形式存在,还可以用活动或者频道banner用来填补,作为引流的一部分。参数一般由算法自动带出与生成,亦可以人工维护。

(15)付费系统

由于该系统涉及到搜索营销后台,等同于淘宝的直通车或者钻展,该系统是为电商的供应商以及开放平台商家设计的,旨在让他们在该系统上付费买广告位等,也算是电商的纯利润吧。

一般该系统设置有管理员账号和商户平台账号,商家根据自身的营销节奏可以适当的进行充值购买广告位等,管理员根据平台运营规则对账号进行管理与数据统计追踪。我将在后面的文章里进行详细介绍与解读。