最近 get 了一个技能叫爬虫. (可能早就 get 了只是没有实践过?)
然而我是用 js 写的. 毕竟自带异步而且瓶颈是延迟.
任务大概是说抓 wiki 的 list of people 上的人的 info.
然后发现可能它是一个不规则的索引结构.
每个二级索引都长得不太一样.
没事我们直接当作它就是二级索引结构.
然后发现有的企业也有 infobox
. 这就很无语了?
没事我们判断一下它是不是有 occupation
, born
这样的关键字吧.
然后大概就比较能看了? (才怪)
另外在看资料的时候才发现一种把 html plain 化的方式. 直接把所有的标签去了.
之前沉迷剥标签的我突然觉得自己真是蠢哭了.
嗯就是这么愉快.