21 Commits

Author SHA1 Message Date
M09Ic
835d4663dd 调整爬虫的逻辑, 优化输出颜色 2023-01-03 18:22:13 +08:00
M09Ic
900dca32cb 新增--max-length参数, 允许手动调整最大读取的body 2023-01-03 17:30:14 +08:00
M09Ic
9e9b0de039 初步实现简易爬虫 2023-01-03 17:09:32 +08:00
M09Ic
a55397eaea 优化resume在因为错误退出时的逻辑 2022-12-16 11:56:27 +08:00
M09Ic
073cf2a095 给全局的输出添加配色, 可以使用--no-color或-q关闭 2022-12-15 00:19:06 +08:00
M09Ic
71393bfeb4 修复一个严重的闭包的线程安全问题 2022-12-11 03:52:06 +08:00
M09Ic
6d03910049 修复hash计算时的传入值为body导致多处判断出错的bug 2022-12-11 01:21:05 +08:00
M09Ic
155d0d981b 调整默认check-period为200, 减少check发包.
优化check报错的输出
优化title输出, 转义换行符
2022-12-11 00:50:03 +08:00
M09Ic
af687701a7 初步实现了递归 2022-12-11 00:24:28 +08:00
M09Ic
023e316518 实装耗时功能, 现在可以看到每个任务与每个请求的耗时 2022-12-02 18:29:26 +08:00
M09Ic
a780f002bf 修复闭包的线程安全bug 2022-12-02 18:05:33 +08:00
M09Ic
38e654913d 实装extractor
多处小优化
2022-12-02 15:21:17 +08:00
M09Ic
fed6fbb3ae 支持跟随重定向 2022-11-29 21:55:27 +08:00
M09Ic
0233c3017b 自动判断协议升级 2022-11-29 20:50:00 +08:00
M09Ic
cd0ede7e1c 新增--filter与--match参数, 可以自定义过滤与匹配函数 2022-11-21 20:44:02 +08:00
M09Ic
1895496e0b 修复某些情况下statuscode无法正确读取的bug 2022-11-17 16:33:56 +08:00
M09Ic
b0ee744971 优化force的逻辑, force将忽略所有错误强制扫完字典 2022-11-11 14:50:59 +08:00
M09Ic
3534a7b668 优化check逻辑, 减少check发包.
添加相关接口, 为后续的通过dsl自定义过滤规则做准备
2022-11-11 10:20:32 +08:00
M09Ic
2c135f2b06 优化compare逻辑, bodylength之差小于16, 即有可能判断为0或1 2022-11-11 01:12:35 +08:00
M09Ic
9b99c2a0b2 新增--distance参数, 控制simhash阈值 2022-11-10 21:26:07 +08:00
M09Ic
6f1ca49408 实装了fuzzy-compare
优化输出与输出逻辑
极大的优化了compare性能
2022-11-10 21:03:07 +08:00