-
Notifications
You must be signed in to change notification settings - Fork 71
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
主题贴获取问题 #239
Comments
看到了 但是有点没看懂(?)也就是说5k个主题帖这个是正常的 是百度后端加的限制么 |
umm 不太确定是不是一样的情况 我这边这个吧是能在电脑网页端看到360页 大概1.8w个主题帖 调接口的时候也有确认过 page 从0循环到500 从180多之后objs就全都是0了 也没返回page为1的内容 而且是该说如果是一个情况的话 这限制给的也太小了(?) |
是
不
都是人为限制
丶那个
超过 可能自23年5月 #124 以来
|
尾页按钮的 url 能看到pn=18000 |
最近官方那边加了个限制,第一页最多获取13个主题帖,如果还是用 |
现在的限制好像是在页数上做的 我试了rn=13 30 100 最后都在pn=173之后就没法再获取了 能获取的就分别是2k 5k和17k左右的帖子 |
我这里暂时没有问题了 感谢上面两位的解答 |
所以你们最近在光速适配 #238 5684c08 dog194/TiebaManager@8dbe25a 而我暂且蒙古 |
那继续加
以前是 |
另外确实是没有discussion区,所以我就直接在这问了 。 while has_more:
posts = await client.get_posts(thread.tid, only_thread_author=True, pn=page)
has_more = posts.has_more
for post in posts.objs:
text_count += len(post.text)
page += 1 这部分代码会报这个"<2024-11-18 00:54:56.008> [WARN] [get_posts] list assignment index out of range. args=(9086187007,) kwargs={'only_thread_author': True, 'pn': 1}",一开始我以为是因为这个帖lz就没发回复楼,后来发现不对,不能连着一百多个主题贴lz都不发回复楼的吧,所以不太明白这是因为什么? |
我这用同样的参数复现不出来,你用的是master分支吗 |
是吧?我用的就是直接 pip install 的,pip list 看了一下版本也和最新的 release 一样来着 不过这个接口是不是有限制,我现在再试的时候只有一开始的十来个帖子可以这么统计,之后的帖子就还是报这个错,再重新运行的时候所有的帖子都报这个错。 |
难道是频率太高了,一般这个报错是后端没返回发帖用户信息导致的 |
明白了 那我随机sleep一下再看看 |
我在每次 |
那它司马,如果是在LLM带革命背景之下反爬虫(而百度本身就是国内爪巴和allinai前头子)也应该是限制爬大型吧而非小型吧
不相关的建议另外开issue |
我是最近才开始用贴吧的,以前确实对它没什么了解。我想要获取一个吧里所有的主题贴进行筛选,写的代码是这样的(还没到筛的那一步):
我看运行结果上拿到的是不到5000个主题贴,但是电脑版网页上写的这个吧一共有1.8w个主题贴,我不太确定这两个说的是不是一个东西?
The text was updated successfully, but these errors were encountered: