词袋模型(新闻文本分类)

如题所述

第1个回答 2022-06-25

            我们要用词袋模型进行文本分类，训练模型大致可以分为两步：第一步，用TF-IDF表示文本特征；第二步，把TF-IDF值和标签值送入分类模型训练。

                                     “TF-IDF值” = “TF值” ✖ “IDF值” （在实操中，我们会把TF值进行归一化，以防止它偏向长文本）

TF值：某个词（字）在文本（一段话）中出现的频率

IDF值：某个词（字）在文本（一段话）中的普遍重要性的度量。某一词（字）的IDF值，可以由总文本数目除以包含该词（字）的文本的数目，再将得到的商取 10为底的对数。

首先看一下数据，此数据集为训练数据集，分为“频道”和“文章”两列，后面将使用这样的数据集来进行模型训练。

由于在文本中有许多没有用的词（字）和标点符号，所以要去停用词

参数解释：

                tokenizer = jieba.lcut 用jieba分词中的精确模式；stop_words 定义停用词词典，会在结果中删除词典中包含的词；norm 表示对TF-IDF矩阵的每一行使用l2范数归一化； use_idf 表示在TF矩阵的基础上计算IDF，并相乘得到TF-IDF；smooth_idf 表示通过加1到文档频率平滑idf权重，为防止除零，加入一个额外的文档（防止计算IDF时出现除0的尴尬情况)；sublinear_tf 表示使用 1+log(tf)替换原来的tf, True值表示使用

                contents参数就是我们要计算成TF-IDF值的文本数据集（即文章那一列的数据）

得到的TF-IDF值：

我们可以看看这个词袋包含多少词：

我们在得到TF-IDF模型之后，我们还需要对频道那一列进行处理。频道那列其实就是标签值，包含娱乐，体育，音乐之类的类别。

把频道那一列进行编码，得到标签值y ，再用刚刚训练好的tfidf模型计算出x值：

这里我们在分割训练集和测试集时，不再直接用x,y来分割，因为此时数据量太大，会让分割时间变长，所以通过分割index值来得到训练集和测试集：

这里使用逻辑回归模型：

训练完我们评估一下模型效果：

最后保存模型：

加载保存的模型：

和实际类别进行比对：

上面整个流程就是一个简单的通过词袋模型进行新闻文本分类，通过计算出TF-IDF值，再送入分类模型进行预测。

相似回答

文本分类方法有哪些答：文本分类的核心都是如何从文本中抽取出能够体现文本特点的关键特征,抓取特征到类别之间的映射。所以特征工程很重要,可以由四部分组成: 1,基于词袋模型的特征表示:以词为单位(Unigram)构建的词袋可能就达到几万维,如果考虑二元词组(Bigram)、三元词组(Trigram)的话词袋大小可能会有几十万之多,因此基于词袋模型的特征表...

文本分类综述(一文搞懂文本分类)答：浅层学习: 这是文本分类的起点，它依赖于人工特征提取，如词袋模型(BOW)和N-gram。尽管简单，但浅层学习模型如朴素贝叶斯(NB)、K-近邻(KNN)和支持向量机(SVM)展现出强大的领域适应性。深度学习的崛起: 相比之下，深度学习模型如RNN（特别是LSTM和其变体）通过自我学习文本，尽管对数据量要求高，...

CBOW(连续词袋模型)简介答：CBOW，全称为连续词袋模型，犹如一座语言学的宝藏，是神经网络世界里一颗璀璨的明珠。由天才科学家Tomas Mikolov等人在2013年首次揭示，它旨在通过巧妙地捕捉单词间的语义与语法联系，将每个单词转化为一维度的实数向量，为理解自然语言提供了全新的视角。核心理念：上下文预测的智慧 CBOW的核心思想是基于上下文...

话语分析中的表征是什么答：在自然语言处理中，话语分析的表征是指将语言信息转换成计算机可以理解的结构化数据表示形式。这种表征可以为计算机实现自然语言理解和生成任务提供必要的信息和基础。下面列举几种常见的话语分析的表征：1. 词袋模型：将文本信息转换成一个包含所有单词及其出现频率的向量，每个向量维度对应一个单词，维度值表示...

在自然语言处理任务中句子在分词之后通常使用哪种数字化表示?_百度...答：在自然语言处理任务中，句子在分词之后通常使用词袋（Bag of Words）或者词嵌入（Word Embedding）这两种数字化表示。词袋模型是一种常用的文本表示方法，它将文本中的词语转化为词频向量，每一维表示该词在文本中出现的次数。词袋模型是一种稠密向量，它不区分词语之间的顺序关系，适用于文本分类和聚类等...

特征提取方法有哪些答：首先，基于文本的特征提取主要是从文本数据中提取出有意义的信息，比如词袋模型（Bag of Words, BoW）、TF-IDF（Term Frequency-Inverse Document Frequency）、词嵌入（Word Embeddings）等。其中，词袋模型将文本视为单词的无序集合，忽略了语法和单词顺序，主要用于文本分类等任务。TF-IDF则是用来反映词语...

文本、图像和视频的特征提取方法有哪些?答：文本特征提取：文本特征提取是将文本数据转化为机器学习模型可用的特征表示形式。常用的文本特征提取方法有词袋模型、TF-IDF、Word2Vec等。词袋模型将文本转化为固定长度的向量表示，统计每个词在文本中的出现次数；TF-IDF用于衡量一个词对于一个文档集合的重要性，常用于文本分类、聚类等任务；图像特征提取：...

一文概览NLP算法(Python)答：词向量技术，如One-hot编码（词袋模型）和词嵌入（Word2Vec、FastText、BERT），是理解自然语言的关键。BERT等预训练模型的崛起，极大地推动了NLP的发展，通过神经网络学习的低维关系向量，使得相似词在向量空间中紧密相连。学习后的词向量，如TF-IDF，能显著提升文本处理效果。句法和语义分析则挖掘词语间...

人工智能简史答：在文本分类方面，有CNN和RNN的广泛应用，如词袋模型、注意力机制提升模型性能，词嵌入则捕捉词语间的语义关联。同时，AI发展需兼顾安全与福祉，政府和企业需合作建立监管框架，确保技术的合理使用和伦理责任。算法特点与应用：朴素贝叶斯：简单分类，如垃圾邮件过滤和情感分析支持向量机：监督学习，广泛用于...

大家正在搜

文本分类模型文本分类模型对比常见的文本分类模型 bert模型文本分类文本信息的分类模型研究 lda主题模型文本分类文本情感分类用什么模型 bow模型文本分类中文文本分类具体实例