运用汽车数据进行Python可视化分析


数据来源

vehicles.csv是一份来自于www.fuelconomy.gov 的数据,它包含了美国各个汽车制造商各个型号汽车不同时间点的油耗表现参数和各个汽车型号丰富的其他特性和属性,为我们整理和分组分析数据以发现有趣的趋势和关系提供了机会

分析过程

描述汽车油耗数据:

查看数据中的行数

返回结果为:38064

一共有:83列

再看看包含的年份:

其中一共包含了34年的数据,从1984-2017年;

接下来,我们看看数据集中的汽车都使用的是什么类型的燃料:

返回结果为:

查看汽车所使用的变速箱的类型:

嗯,返回的结果很多哇:

上面返回的数据很多,而且没有对变速箱进行分类,我们对它按手动和自动进行一下分类:

结果出来了,自动档比手动挡多出了差不多一倍的数量:

接下来,咱们分析一下汽车油耗随时间变化的趋势

首先,按年对vehicles数据进行分组

查看前5条数据:

comb08 highway08 city08
year
1984 19.881874 23.075356 17.982688
1985 19.808348 23.042328 17.878307
1986 19.550413 22.699174 17.665289
1987 19.228549 22.445068 17.310345
1988 19.328319 22.702655 17.333628

对列进行重命名,并新增一个以索引为值的year列

前5条数据为:

comb08_mean highway08_mean city08_mean year
year
1984 19.881874 23.075356 17.982688 1984
1985 19.808348 23.042328 17.878307 1985
1986 19.550413 22.699174 17.665289 1986
1987 19.228549 22.445068 17.310345 1987
1988 19.328319 22.702655 17.333628 1988

接下来将处理后的平均数据绘制成线图:

得到平均每加仑汽油可行驶里程数随时间的变化图:

1

可以看出,随着时间的推移,每加仑汽油可行驶的里程数是总体增加的,换而言之,汽车每公里的油耗是总体不断减少的。 但是,在数据中我们忽略了一个问题:有着出色油耗表现的混合动力汽车越来越流行。

为了获得更加准确的分析,我们需要将混合动力汽车的数据从数据集中删除。

筛选出的数据有:24947条

然后,对剔除混合动力汽车数据的数据集进行分组和计算平均值:

查看前5条数据:

再对处理后的数据集进行可视化:

2

去除混合动力汽车数据后,每加仑可行驶的里程数与之前的数据细微之处有些许变化和不同,但是,基本的走势和变化趋势都是一致的:也就是每加仑汽油可行驶的里程数不断地在增加,并且这一趋势变化中,在2006年的时候出现了显著的提升。

接下来,我们想知道,到底是什么原因导致了平均每加仑里程数增加?有没有可能是因为大引擎的汽车越来越少了?

获取汽车排量信息

发现数据集中有如下汽车排量信息:

在数据集中发现空值,我们将其去除:

接下来,绘制每加仑汽油可行驶里程数和引擎排量之间的散点图:

3

从散点图上可以发现,随着汽车引擎排量的增加,每加仑汽油可行驶里程数逐步地在减少,两者呈现负相关性。

那么,现在我们的问题是,大引擎汽车近年来是不是制造得更少了?

我们继续按年份对数据进行分组:

再绘制出各年的comb08和displ平均走势图:

4

从上面两个走势图可以发现,每加仑汽油可行驶里程数在2006年之前一直都是上下浮动的,变化并不大,但在2006年之后,每加仑可行驶里程数就扶摇直上了;而反观平均汽车引擎排量,则是在2007年达到了顶峰,然后下滑趋势明显。

那么在2006年和2007年到底发生了什么?感兴趣的可以自己去找一下旧闻,这里暂且不表。

下面,我们来看看汽车的品牌和型号是如何影响油耗随时间变化的趋势的:

查看四缸汽车在美国市场出现的品牌和信号的频次

5

可以发现,从1980年以来有四缸引擎的汽车品牌数量呈下降趋势,但是我们并不知道汽车品牌的总数是否发生了变化?

下面我们从汽车品牌入手:

得到如下结果:

嗯,只有11家制造商每年都生产四缸引擎汽车;

接下来看看这11家汽车制造商的型号随时间变化的油耗表现:

最后,得到各年各汽车制造商品牌的油耗情况:

6

基本的可视化分析就结束了。不知道看完分析过程之后,你有没有别的思路和想法呢?欢迎告诉我。

发表评论

电子邮件地址不会被公开。