Added
- 对获取到的数据进行有选择性的保存。新增的 POST_FILTER_TYPE 爬取配置选项将使得用户能够根据不同需求过滤保存的数据。此功能仅对当前爬取批次有效。(#8)
值 | 说明 |
---|---|
all | 所有的 post + post 下的所有 subpost |
author_posts_with_subposts | thread_author 的 post + post 下的所有 subpost |
author_posts_with_author_subposts | thread_author 的 post + post 下的所有 subpost |
author_and_replied_posts_with_subposts | thread_author 的 post 和 thread_author 回复过的 post + post 下所有的 subpost |
author_and_replied_posts_with_author_subposts | thread_author 的 post 和 thread_author 回复过的 post + post 下 thread_author 的 subpost |
-
把每次的爬取配置写入 scrape_info.json 记录下来。
-
更新帖子前会检查当前爬取配置是否与上一次爬取配置一样。不一样就等待用户确认是否继续,增加数据操作的安全性
Fixed
- 修复了更新帖子时,爬取配置与上一次爬取配置不一致导致的冲突问题