使用Python检测虚假新闻：半岛官方下载地址

作者：半岛官方下载入口来源：点击：次浏览日期：2023-11-21 12:50

本文摘要：数据科学, 社交媒体真假盖尔·库泽尔·迈耶斯> Photo by Shahadat Rahman on Unsplash 社交媒体网络上充斥着假新闻。

数据科学, 社交媒体真假盖尔·库泽尔·迈耶斯> Photo by Shahadat Rahman on Unsplash 社交媒体网络上充斥着假新闻。有没有措施检测到它？2016年总统大选最有争议的方面之一是它在Facebook上的品评。社交媒体庞然大物引起了来自各个方面的品评。

品评人士认为，Facebook拒绝核实和审查其平台上所列新闻的真实性是危险的。几年后，马克·扎克伯格（Mark Zuckerberg）泛起在国会并回覆了一系列问题。美国国集会员指责Facebook首席执行官允许2020年大选之前流传政治信息。

在所有紧张局势中，扎克伯格因缺乏对政治广告运动的事实核实而感应震惊。"我可以针对主要目的的共和党人投放广告，说他们投票赞成绿色新政吗？" —亚历山大·奥卡西奥·科尔特斯—扎克伯格大吃一惊，很难回覆。这些事件讲明，群众对接纳行动攻击冒充内容的意识日益增强。

> Photo by Kon Karampelas on Unsplash 在社交媒体上消费新闻是一双刃剑-价钱适中，易于会见且可流传大量信息。人们保持与全球事务的最新状态，交流思想。然而，通常，这种优势被用于病毒式营销。只管包罗错误事实，但还是有意宣传低质量新闻。

社交媒体上的虚假新闻可以接纳多种形式。建立了几个恶意帐户来流传假新闻，例如巨魔，电子人用户和社交机械人。假新闻的迅速流传可能对社会发生负面影响。

它可能会引起误解，甚至危及生命。2016年总统大选期间最受接待的政治新闻是基于虚假事实自己。因此，在真实媒体上查找基于事实的新闻绝对须要。

你应该知道什么在继续前进之前，相识某些观点很重要：特遣队伍在机械学习中，存在一个主要的难题：算法盘算数字。可是，自然语言主要包罗文本。因此，需要将该文本转换为数字，该历程通常称为文本矢量化。

它是机械学习的重要组成部门，有助于举行文天职析。向量化算法会发生差别的效果，因此您需要仔细选择一个。TF-IDF是一种统计量度，用于确定单词在文档集中放置时在文档中的相关性。它是通过将以下两个指标相乘得出的：·术语频率是单词在文档中泛起的次数。

·反向文档频率是单词在一组文档中泛起的次数。您将使用TfidfVectorizer将文本转换为特征向量。被动攻击性分类器被动进取算法是在线学习算法。它们用于从大量数据中学习。

例如，您的系统正在从Twitter 24/7收集推文，而您想凭据该数据举行预测。由于存储限制，这是不行行的。您不能在内存中存储太多数据。被动进取算法从这些示例中学习并在使用后立刻将其抛弃，而无需将其存储在内存中。

这些算法之所以称为被动算法，是因为它们在分类效果保持正确之前是听从的。一旦发现盘算错误，他们就会变得努力，更新并调整模型。混淆矩阵如果输出应该生成两个或更多类，则在机械学习分类中使用它举行性能丈量。

有四个可能的效果：·True Positive-您预测为肯定，效果是真实的。·True Negative-您预测为否认，事实证明这是事实。

·False Positive 误报-您预测为肯定，但事实证明是错的。·False Negative-您的预测否认，事实证明是错误的。

问题假设您已经在Python中构建了一个Web抓取应用法式，该应用法式会收集来自社交媒体网络（例如Facebook）的所有新闻链接。您应该如何知道这些网站上的信息是来自真实事实？解我们已经在Python中建设了一个可以识别新闻链接是否真实的系统。我们已经使用sklearn为数据集建立一个TfidfVectorizer。

Tfidf的目的是将文本转换为特征向量。这使您可以将它们用作预计器的输入。

先决条件打开下令行并下载并安装Numpy。Numpy是数字python的缩写。它为大量的多维数组和矩阵以及一些有用的数学函数提供支持。

运行以下下令：pip install numpy接下来，安装Pandas。熊猫可以资助您对数据执行种种操作，例如导入，准备，合并，重塑，联接，处置惩罚，分析和调整数据。它围绕DataFrame工具举行组织。运行以下下令：pip install pandas最后，是时候安装我们项目中最重要的库sklearn了。

它主要用于机械学习。它包罗内置的算法，这些算法包罗用于模型选择，模式，聚类，回归和聚类的功效。

运行以下下令：pip install sklearn您还需要安装Jupyter Lab。JupyterLab是用于Jupyter数据，代码和条记本的基于Web的工具。它很灵活。您可以自界说它以在机械学习，科学盘算和数据科学中的多个事情流上事情。

运行以下下令：pip install jupyter lab安装后，您可以在下令提示符下键入以下下令。C：> jupyter lab浏览器打开一个新窗口。转到"新建"à"控制台"。

检查下方的文本框-您将在此处输入代码。输入Shift + Enter运行下令。

我们将使用什么数据集？我们使用的大型数据集包罗7796行和4列。这些列表现：标识符新闻标题新闻文字标签。

即新闻是真是假您可以今后链接下载数据集。社交媒体上的事实检查新闻导入刚在JupyterLab控制台中安装的所有库。

运行以下代码：import numpy as nyimport pandas as psimport itertoolsfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.linear_model import PassiveAggressiveClassifierfrom sklearn.metrics import accuracy_score, confusion_matrix我们需要将Excel数据转换为二维数据结构（矩阵）。为此，我们将使用pandas中的DataFrame。

它是一个二维数据结构，可以包罗异构列。通过使用形状和头下属性，我们可以确定花样并检查数据集的行。运行以下代码：＃从数据集中读取df = ps.read_csv（'C：\ SocialFactCheckPython \ news.csv'）df.shapedf.head（6）使用DataFrame获取正确和错误的事实。

运行以下代码：＃检查标签factcheck = df.labelfactcheck.head（7）现在是常见的任务-将数据集分为两组：训练和测试。＃支解数据集a_train，a_test，b_train，b_test = train_test_split（df ['text']，factcheck， test_size = 0.15， random_state = 8）初始化一个TfidfVectorizer。

设置英语停用词并指定最大文档频率为0.65。这表现将删除包罗较高文档频率的术语。我们总是过滤掉停用词以举行自然语言处置惩罚。

TfidfVectorizer用于将一组原始文档转换为TF-IDF功效矩阵。随机状态用于指定随机生成的种子。

它确保火车支解测试始终是确定性的。使用矢量化器来拟合和变换训练集和测试集。

.fit_transform学习词汇和反向文档频率。作为响应，它建立术语文档矩阵。.transform返回术语文档矩阵。运行以下代码：tfidf_vectorizer = TfidfVectorizer（stop_words =" english"，max_df = 0.65）tfidf_train = tfidf_vectorizer.fit_transform（a_train）tfidf_test = tfidf_vectorizer.transform（a_test）现在，您需要初始化PassiveAggressive分类器，该分类器将安装在tfidf_train和b_train上。

TfidfVectorizer有助于通过sklearn.metrics的准确性score（）对测试集举行预测，并举行事实检查准确性。在多标签分类中，准确性score（）函数用于处置惩罚子集的准确性。为样本预测的标签必须与其他子集中的相应标签完全匹配。运行以下代码：pclass = PassiveAggressiveClassifier（max_iter = 60）pclass.fit（tfidf_train，b_train）b_pred = pclass.predict（tfidf_test）factcheckscore = accuracy_score（b_test，b_pred）print(f’Fact-check Accuracy Is {round(factcheckscore*100,2)}%’)这讲明从假新闻中挪用真实新闻时，我们的模型准确率为94.43％。

让我们看看它是对的。运行以下代码：这意味着我们有456个真实阳性，442个真实阴性，27个假阳性和49个假阳性。最后的想法Python可用于检测社交媒体上的虚假新闻。

我们从包罗政治新闻的数据集中提取数据，使用TfidfVectorizer将其转换为向量，运行PassiveAggressiveClassifier，然后拟合模型。最终，我们发生了94.43％的准确性。

(本文翻译自Gayle Kurtzer-Meyers的文章《Using Python to Detect Fake News》，参考：https://medium.com/datadriveninvestor/using-python-to-detect-fake-news-7895101aebb8)。

本文关键词：半岛官方下载入口,半岛官方下载地址,半岛官网App下载

本文来源：半岛官方下载入口-www.zzxlzxw.cn

半岛·app(中国)官网 - ios/Android版下载入口

使用Python检测虚假新闻：半岛官方下载地址