五台二手伺服器发出低沉的嗡鸣,24小时不间断。
爬虫在网络世界里默默爬行,数据像细流一样汇入硬碟。
第一天,采集了50万条数据。
第二天,采集了120万条。
数据在增长,但低于内部预期。问题如期而至。
第三天下午,周毅几人拿着一份简报,表情凝重地找到陈阳。
「陈总,验证码识别模块拖后腿了。」
他指着监控面板上大片的红色失败记录,
「我们用的那个开源OCR库,标称准确率80%,实际跑起来干扰太大,很多任务反覆失败,整体效率比预计慢了至少30%。」
李伟补充:「复杂点的验证码,重试五六次都过不去,IP都可能被封。」
「而且,不少网站在升级验证码,难度还在增加。我估计……再过一两周,成功率可能掉到70%以下。」
办公室里一片沉默,只有伺服器风扇的噪音。
80%准确率……陈阳心里毫无波澜。
这本就在他预料之中。
他从一开始就知道,这个开源OCR只是个临时凑数的玩意儿。
周毅还在那里小心翼翼地建议:「陈总,要不……我试试优化一下算法?我之前看过一些论文,说是可以用SVM分类器……「
「不用。「陈阳打断他,语气很平静,
「那条路是死的。传统图像处理的天花板太低,投入产出比极差。浪费时间。」
「那……」
周毅不知所措:「我们怎么办?」
陈阳没有立刻回答,转过身,看着窗外。
手指无意识地敲击桌面。
确认着下一步计划的时间节点。
卷积神经网络的核心代码他早已写好。
GPU并行计算的思路也已成竹在胸。
陈阳转回身,看着三个等待指令的员工,
「我这边新的识别引擎已经基本完成,需要几天时间进行最终的部署丶优化和接口封装。」