昨天突然想搞个企业信用查询工具,主要是接了个小活儿帮朋友查供应商底细,结果手动查了十多家公司就累得够呛。
第一步:翻遍全网找路子
大清早就开始折腾,先试了政务平台:
每次输验证码手都要抖三抖。查三家公司的空档够我泡两回茶,批量查询更是想都别想。
- 注册登录卡在短信验证半小时
- 弹出"系统繁忙"比闹钟还准时
- 好不容易查到结果还不能直接导出
转头试了天眼查企查查这些商业平台: 好家伙刚查三家就弹出收费墙
298元/月的价格看得我肉疼,这要是查五十家供应商得花多少冤枉钱。
第二步:开搞数据抓取
直接打开浏览器开发者工具翻接口:
- 公示系统的数据藏在层层加密里
- 企查查的反爬虫机制五分钟就封IP
抱着保温杯折腾到下午三点,突然发现地方工商局的小程序居然有开放接口,虽然响应慢但至少不要钱。
赶紧掏出Python写脚本:
结果刚开跑就被封IP,只能加上*随机延时:
- 3-10秒随机等待
- 每查20家换代理IP
- 深夜跑成功率才到80%
第三步:掉坑里爬出来
好不容易跑通流程又撞上新问题: 22%的公司查不到电话号码 15%的注册资本和实际对不上
原来很多公司年检都不更新信息。凌晨两点蹲在电脑前手动补数据,活像给自己挖坑跳。
最坑的是:
- 行政处罚信息分散在五六个网站
- 司法记录要单独爬裁判文书网
- 知识产权数据得翻知识产权局
光数据清洗就用废了我三包烟。
整出个四不像
现在这工具:
- 查基础信息要35秒/家
- 风险扫描功能基本靠手翻
- 导出Excel偶尔会丢字段
但昨晚查朋友给的50家供应商只花两小时,比手动查省三天功夫。就是眼睛熬得通红,今早照镜子还以为被人打了。
要说感悟最深的就是: 免费数据永远在和你捉迷藏
早知道这么费劲当初就该劝朋友直接去买会员。不过下周注册新公司倒是不用求人了——自己的破工具查自己,也算是闭环了。
还没有评论,来说两句吧...