Home » Technicals

Web 爬虫二三事

September 15, 2017 · 1 min · laekov

最近 get 了一个技能叫爬虫. (可能早就 get 了只是没有实践过?)

然而我是用 js 写的. 毕竟自带异步而且瓶颈是延迟.

任务大概是说抓 wiki 的 list of people 上的人的 info.

然后发现可能它是一个不规则的索引结构.

每个二级索引都长得不太一样.

没事我们直接当作它就是二级索引结构.

然后发现有的企业也有 infobox. 这就很无语了?

没事我们判断一下它是不是有 occupation, born 这样的关键字吧.

然后大概就比较能看了? (才怪)

另外在看资料的时候才发现一种把 html plain 化的方式. 直接把所有的标签去了.

之前沉迷剥标签的我突然觉得自己真是蠢哭了.

嗯就是这么愉快.

Comments