Scikit-Learn机器学习实践——垃圾短信识别

2017/11/16 0 人评论 40,273 次阅读

前不久，我们使用NLTK的贝叶斯分类模型垃圾对短信数据进行机器学习的垃圾短信识别。

其实除了使用NLTK，我们还可以使用Scikit-Learn这个集成了诸多机器学习算法的模块进行上述的实验。

Scikit-Learn的API设计非常合理和高效，对于初触机器学习的同学来说非常友好，值得大家尝试和使用。本人也经常在实验环境和工作环境中使用scikit-learn进行机器学习的建模。

下面，我们就使用scikit-learn模块，通过其朴素贝叶斯算法API对短信数据进行一次垃圾短信的识别。

文章目录

导入短信数据
对短信进行分词
提取特征和目标数据
分割训练集和测试集
提取文本特征
建立朴素贝叶斯分类器并进行训练
模型测试
模型评估

导入短信数据

首先，我们需要对原始的短信数据进行处理，导入pandas模块和jieba模块。

pandas模块用于读取和处理数据，jieba模块用于对短信进行分词。

接着，我们导入短信数据：

查看一下部分短信数据：

其中第一列为原始序号，第二列为短信的分类，0表示正常短信，1表示垃圾短信，第三列就是短信的正文。
我们只需要关注第二和第三列。

查看一下这个短信数据集的形状：

一共有七十余万条短信。

对短信进行分词

文本的分类，基本上是基于词袋模型，也就是一个文本中包含多少词以及各个词的频率。对于英文而已，其天生的句子空格可以很容易的分割单词出来，但是中文就得先进行分词处理，也就是将一个完整的中文分割为一个一个词。
在Python中，有第三方模块——jieba，结巴分词来提供对中文的分词。
我们使用jieba对短信的内容进行分词。