每日黑客新闻数据转储

2020-12-29 14:33:05

黑客新闻语料库具有一些非常好的属性。它足够小,可以在笔记本电脑上进行分析,但同时又又大又有趣,可以进行一些不重要的学习或其他实验。进行任何分析,最好拥有HN语料库的副本。在网上浏览时,我确实发现了一些努力来制作这样一个副本,但是每个副本都缺少一些东西。 Google BigQuery HN数据集距离最近,但好像已经有一段时间没有更新了。

幸运的是,HN具有不错的FireBase API,可以实时更新。所以我写了一个(非常)小的爬虫,使所有以id 1开头的项一直到id 25,562,625(在撰写本文时)。

对初始数据集进行爬网后,增量更新非常便宜。有一个小脚本每天运行一次,以下载自上次同步以来的所有内容,然后将快照上载到此存储库,以防其他人也发现它有用。

所有故事都作为git-lfs对象存储在压缩的SQLite数据库中。因此,使此工作正常运行需要做些事情-具有LFS支持的git,用于解压缩DB的zstd和用于读取它的SQLite。因此,让我们安装所有3

数据库的架构非常简单。它只有一个表-hn_stories,其中包含故事的整数ID及其以JSON形式存储的属性。

────┬────────────────────────── ──────────────────────────────────────────────── ──────────────────────────────────────────────── ────────────────────┐┐id │item_json│├────┼───────────────────────────── ──────────────────────────────────────────────── ──────────────────────────────────────────────── ──────────────────────────────────────────────── ┤│20│{":" pg"," time":1160424038," title":" VC的薪水支持的公司"," url":" http://avc.blogs.com/a_vc/2006/10/search_by_salar.html"}││4│{&# 34; by":onebeerdave",time":1160419662," title":" NYC开发人员困境",&#34 ; url":" http://avc.blogs.com/a_vc/2006/10/the_nyc_develop.html"}││2│{" by":&#34 ; phyllis",time":1160418628," title":" A学生指南初创公司"," url&#34 ;:" http://www.paulgraham.com/mit.html"}││3│ {":" phyllis"," time":1160419233," title":" Woz访谈: Apple"," URL" http://www.foundersatwork.com/stevewozniak.html"}││7│{" by":&& #34; phyllis",time":1160420455," title":" Sevin Rosen Unfunds-为什么?"," url&#34 ;:" http://featured.gigaom.com/2006/10/09/sevin-rosen-unfunds-why/"}││21│{" by":& #34; sama",time":1160443271,"标题":"有史以来最佳IRR? YouTube 1.65B ..."," url":" http://www.techcrunch.com/2006/10/09/google-has-acquired-youtube/&# 34;}││9│{" by":" askjigga"," time":1160421542," title":" Weekender:周末的社交网络"," url":http://www.weekendr.com/"}││1│{" by&# 34;:" pg":time":1160418111," title":" Y Combinator"," url" :" http://ycombinator.com"}││5│{" by":" perler"," time":1160419864, " title":" Google,YouTube收购公告可能会在今晚到来",URL网址:http://www.techcrunch.com/2006/ 10/09 / google-youtube-sign-more-separate-deals /"}││81│{" by":" justin"," time&# 34;:1171869130," title":" allfreecalls.com被AT& T",URL" http:// www。 techcrunch.com/2007/02/16/allfreecalls-shut-down/"}│└────┴──────────────── ────────────────────────────────────────────────── ───────── ────────────────────────────────────────────────── ────────────────────────────────────────────────── ──────────┘