前端时间想写一个豆瓣小组的发言搜索,想法差不多了。但一直没动手,现在也不想做了,有时候突然来了兴趣,过几天就又感觉没意思了。 记录一下实现的想法: 三个表,一个用户表:豆瓣id 一个帖子表:id在url上,内容,用户id 一个回复表:id在代码里,内容,用户id   抓取的时候,注册一个用户,关注小组里边的所以小组,然后根据帖子的回复时间,进行不重复抓取。然后还有一个按小组来抓取所有当前时间以前的帖子。 这里还没想好刚创建的小组怎么获取,小组没有按时间判续的列表,没有好办法区分。   想想也不怎么现实,回复应该不知道多少亿条。。。。但是差不多可以完全抓取豆瓣小组的数据。

上一篇:
下一篇:

相关文章:

Categories: 博客记录

0 Responses so far.

Leave a Reply