- 修复redis lsize过期bug;修复内容分页attached_url处理的bug
- 修复设置了 max_try 但是还是尝试一次的bug
Unclaimed project
Are you a maintainer of phpspider? Claim this project to take control of your public changelog and roadmap.
替换所有init_mysql为_init 解决缓存数据量太大清空redis的性能问题 解决url匹配不够完美问题 增加redis集合,可以随机读取url进行采集,进行多域并发,缩短redis前缀,减少redis占用空间,增加记录采集慢的URL,增加泛域名采集,增加每个进程采集域名数量配
1、断点续采如果不继续会清空redis所有数据,所以一个项目要用一个redis db,清空的时候flushdb,解决缓存数据量太大清空redis的性能问题
2、解决url匹配不够完美问题,目前遇见url如下: <a href="?xxx" <a href="//xxx" <a href="//www.host.com/xxx" <a href="//www.host.com//xxx" <a href="/xxx" <a href="/?xxx" <a href="xxx" <a href="./xxx" <a href="../xxx" <a href="/../xxx"
3、增加redis集合,可以随机读取url进行采集,进行多域并发
4、缩短redis前缀,减少red...
1、selector默认返回null,而不是false,因为isset(false)为true,解决了字段设置 required => true依然获取字段的bug 2、添加了on_before_download_page回调,比如有时候需要根据某个特定URL,来决定是否使用代理或使用那个代理 3、修复db类处理事务的bug 4、采集一个URL时先删除上一个URL的代理和伪造IP,以免被自动带上代理 5、添加请求页面语言 6、requests类默认把采集到的内容转utf-8,因为xpath需要utf-8支持 7、修复a标签相对路径错误的bug
修复redis缓存无法清除bug