在5行Python代码中抓取和总结新闻文章

2020-05-02 17:50:06

想要从一群只做机器学习和可视化的数据科学家中脱颖而出吗?然后,您可以更早地开始一步,收集您自己的数据集,而不是使用来自Kaggle的过时的CSV文件。

在这篇文章中,我将向你展示如何以统一的方式从多个来源收集大量新闻数据。因此,您不需要花费数月时间为每个新闻网站编写脚本,而是使用Newspper3k自动提取结构化信息。

现在,让我们请报纸3k为我们摘录这篇文章,摘录信息并进行总结。

如果您执行了前面的所有步骤,并且没有收到错误,则您应该有权访问以下信息:

>;>;>;文章作者[';Vanessa Romo&39;,';Claire McInerny&39;]>;>;文章.Publish_date datetime.datetime(2019,7,10,0,0)>;>;>;文章。关键词[';free&39;,';Program&39;,&#。,#39;,#39;大学贷款#39;,#39;德克萨斯州&39;,#39;承诺;,#39;,#39;家庭';,#39;低收入家庭';,#39;学生#39;,#39;捐赠基金';,#39;学费';]。

>;>;Print德克萨斯大学奥斯汀分校承诺2020年为低收入学生提供免费学费切换说明乔恩·赫斯科维茨/路透社四年制高校招生困难……。

得克萨斯大学奥斯汀分校(University of Texas-Austin)承诺,到2020年,将为低收入家庭的学生提供免费学费。标题:乔恩·赫斯科维茨(Jon Herskovitz)/路透社(ReursFour Year)学院和大学很难招收经济水平较低的有才华的学生,这些学生在不背负巨额债务的情况下,无法负担上此类机构的费用。为了弥补这一点--至少在一定程度上--德克萨斯大学奥斯汀分校宣布将向本州本科生提供全额学费奖学金……。

要从所有功能中获益,包括杂志馈送的自动化和访问热门话题,请参阅官方文档。

使用Newsper3k,您可以收集您独特的数据集来训练您的模型。更重要的是,在模型准备好之后,您将拥有真实的数据馈送,因此您也将能够看到真实的性能。

首先定义问题,然后才搜索数据,而不是反之亦然。试着成为一个真正的问题解决者,想一想你的模型如何解决真正的业务问题,因为这是你将获得报酬的原因。

如果你喜欢这篇文章,我会强调你读一读启发我的那篇文章。