Python可视化对比分析淘宝低价人群和匿名用户的淘宝连衣裙数据

1、我是一个低价人群用户

上周发表文章《一个匿名用户的淘宝“连衣裙”大观》后,交流群里面很热闹地讨论了起来,小伙伴们都在秀自己的淘宝连衣裙搜索价格,相较于小伙伴们搜索出的数百、数千的搜索“连衣裙”结果价格,很显然,我低价人群无疑了。以下是州的先生在淘宝上搜索“连衣裙”返回的商品价格:

虽然还是要高处于128元,但是也高不到哪里去,勉强算是低价偏上人群吧。既然已经是低价用户了,那么就再去淘宝抓取一遍登录后搜索“连衣裙”返回的数据。一共也是100页的搜索结果,合计4404条记录。

以下分析仅限于州的先生淘宝搜索“连衣裙”返回的商品数据和匿名状态下淘宝搜索“连衣裙”返回的商品数据这两个样本之间的对比,所产生的结果和结论亦限于两者之间的关系。

以下所称登陆用户,皆为代指州的先生淘宝账号。

2、登陆用户售价更集中

首先来看总体的商品售价对比。使用Pandas获取商品售价的总体描述,得到州的先生淘宝搜索“连衣裙”和匿名状态搜索“连衣裙”数据中商品售价的基础统计信息。在此对数据的总体数量、商品售价的均值、商品售价的最小值、商品售价的最大值、商品售价的25%分位价格、商品售价的售价中位数、商品售价的75分位价格和商品价格的标准差。结果如下表所示:

可以发现,登陆用户搜索的所有商品售价的标准差远远小于匿名用户搜索的所有商品售价的标准差。我们都知道,标准差越小,数据的趋中性越好,标准差越大,数据的趋中性越差。也就是说,登陆用户搜索商品的售价越集中越稳定于一个区间,而匿名用户搜索商品的售价越分散越不集中于一个区间内。

这个我们从两者的极值也可以发现,登陆用户的售价最小值为10,售价最大值为17199;而匿名用户的售价最小值为9.2,售价最大值为99999;

同时,因为州的先生淘宝账号本身所属的区间,所有商品售价的均值、25%分位值、中位值和75%分位值均高于匿名用户。

3、售价定价最多商品相似

进行完商品售价的基础统计之后,我们再来具体看看商品售价的情况。通过对商品售价进行分组聚合计算统计。我们得出登陆用户和匿名用户两者“连衣裙”搜索结果商品中最多的采用的售价的前十个价格。分别是:

  • 登陆用户:168元, 158元, 178元, 188元, 198元, 138元, 399元, 299元, 148元, 128元;

  • 匿名用户:158元, 168元, 178元, 188元, 138元, 198元, 148元, 128元, 139元, 159元;

登陆用户和匿名用户的搜索结果中最多商品采用的售价中,有8个是一样的,只有登陆用户中的399元和299元不同于匿名用户中的139元和159元。

看起来,登陆用户的搜索结果中,最多售价的商品价格略高于匿名用户的最多售价商品。这也侧面印证了基础统计数据中,登陆用户均值、20分位值、75分位值高于匿名用户相应数据。

4、价格分布区间相似

我们再来看一看登陆和匿名用户两者之间所产生搜索结果商品的售价区间。

我们以一百元为区间间隔单位,按照100元以下、100-199元、200-299元、300-399元、400-499元、500-599元、600-699元、700-799元、800-899元、900-999元、1000-1099元、1100-1199元、1200-1299元、1300-1399元、1400-1499元、1500-1599元、1600-1699元、1700-1799元、1800-1899元、1900-1999元、2000-2099元、2100元以上等区间价格,对州的先生登陆账号的搜索结果和匿名用户的搜索结果进行统计。

最后得到两者的区间价格分布柱状图,如下所示:

可以看到,登陆用户和匿名用户搜索得到的商品中,商品价格分布和价格区间段数量大致是一致的。因为淘宝对登陆用户拥有更多的消息判断,其返回的商品售价会有些许差异,但是两者还是会以“连衣裙”这一商品的本身属性和在淘宝上整体的销售态势紧密相关。

5、匿名用户店铺类型分布更均匀

看完了价格信息,我们再来看看店铺类型。大家都知道,淘系现在分为了淘宝C店和天猫店以及企业店铺三种店铺类型。绝大多数都是淘宝C店和天猫店。而天猫店作为进驻门槛更高(费用、资质等)的店铺类型,在淘宝的搜索中会有一定的资源倾斜。

下面我们来看看,这是否在“连衣裙”宝贝的搜索结果中有所体现。

天猫店铺和淘宝C店的区别除了可以从店铺地址来判断,还可以直接通过店铺名称来判断,天猫店铺一般都是以旗舰店、专营店等形式结尾,而淘宝C店则不允许使用这类字眼(从前部分淘宝C店会投机取巧使用XXX舰旗店)。我们以此来对搜索结果商品中的店铺类型进行筛选。最后得到:

  • 登录用户中:天猫店铺占64.83%,淘宝C店占35.17%;
  • 匿名用户中:天猫店铺占57.2%,42.8%;

可以看到,在匿名用户的搜索结果中,店铺类型的占比会更加均匀,天猫店铺的占比只是稍稍有所偏高,而在登录用户中,淘宝则根据我的消费更多地为我返回了天猫店铺的搜索结果。(在旧版的生意参谋中,可以通过关键词搜索查看到关键词的宝贝在天猫商城中占比,但是改版之后,这一功能取消,现在也无从查询到这一数据。)

6、128元以下商品匿名用户数量更多

网上传言连衣裙客单价128元是划分低价人群的分界线,那么我们来看一看登陆用户和匿名用户返回的连衣裙商品中售价低于128元的商品数据。

经过统计,在登陆用户中低于128元的商品共有649件,占所有样本数据的14%;匿名用户中低于128元的商品共有815件,占所有样本数据的18%;

其中登陆用户的649件商品中,有158个商品售价,采用售价最多的是89元,共有44件商品采用这个售价;匿名用户的815件商品中,有188个商品售价,采用售价最多的是99元,共有59件商品采用这个售价。

7、相同商品占比一半以上

通过对登陆用户和匿名用户的数据进行交集计算,我们得到两者搜索结果中有2544个商品是相同的,也就是说,同样搜索连衣裙,淘宝返回给登陆用户和匿名用户的数据中,有高达57%的商品是一样的。

可以看到,相同商品的商品售价区间和登陆用户以及匿名用户的商品售价区间的结构大体是一致的。笔者认为,这构成了淘宝平台上“连衣裙”这一商品的基础价格属性:

100-199元的“连衣裙”商品占绝大多数,或者说在淘宝上购买“连衣裙”这一商品的人群大多会选择这一价格区间。这一价格区间包含了128元这个网传的低价人群分界线上下的商品,是最容易上下跨越进行购买的价格区间。

在100一下和200-299这个区间价格,都是100-199元价格区间的上下延伸,商品数量较之有较大的减少,但是占比仍然不算少。

400元及以上售价的“连衣裙”商品,较之于前面的价格区间,商品的数量急剧下降。州的先生推测,购买400元以上连衣裙的淘宝用户,占整体的购买连衣裙淘宝用户的占比是偏低的。价格越往上走,受供求关系的影响,商品数量越少。

8、最后

通过以上的不完全不标准的探索,我们可以知道:

  • 1、“连衣裙”这一商品本身有其固有的商品价值属性,搜索结果中商品的价格会提现商品的基础属性;
  • 2、但是根据不同用户的消费习惯,淘宝可能优先推荐符合其历史消费水平的商品给用户;
  • 3、同时,为了确保能够涵盖用户的需求或者说更好地判断用户当前或未来一段时间的消费水平,淘宝会返回低于或高于用户历史消费水平的商品供用户选择,这应该是推荐系统自我完善所必需的;
  • 4、以上结论,不一定正确。

欢迎留言讨论~

猜你也喜欢

  1. AC说道:

    最后一点很神奇 :biggrin: :biggrin: :smile:

发表评论

电子邮件地址不会被公开。