第28章 验证码识别(2 / 2)

五台二手伺服器发出低沉的嗡鸣,24小时不间断。

爬虫在网络世界里默默爬行,数据像细流一样汇入硬碟。

第一天,采集了50万条数据。

第二天,采集了120万条。

数据在增长,但低于内部预期。问题如期而至。

第三天下午,周毅几人拿着一份简报,表情凝重地找到陈阳。

「陈总,验证码识别模块拖后腿了。」

他指着监控面板上大片的红色失败记录,

「我们用的那个开源OCR库,标称准确率80%,实际跑起来干扰太大,很多任务反覆失败,整体效率比预计慢了至少30%。」

李伟补充:「复杂点的验证码,重试五六次都过不去,IP都可能被封。」

「而且,不少网站在升级验证码,难度还在增加。我估计……再过一两周,成功率可能掉到70%以下。」

办公室里一片沉默,只有伺服器风扇的噪音。

80%准确率……陈阳心里毫无波澜。

这本就在他预料之中。

他从一开始就知道,这个开源OCR只是个临时凑数的玩意儿。

周毅还在那里小心翼翼地建议:「陈总,要不……我试试优化一下算法?我之前看过一些论文,说是可以用SVM分类器……「

「不用。「陈阳打断他,语气很平静,

「那条路是死的。传统图像处理的天花板太低,投入产出比极差。浪费时间。」

「那……」

周毅不知所措:「我们怎么办?」

陈阳没有立刻回答,转过身,看着窗外。

手指无意识地敲击桌面。

确认着下一步计划的时间节点。

卷积神经网络的核心代码他早已写好。

GPU并行计算的思路也已成竹在胸。

陈阳转回身,看着三个等待指令的员工,

「我这边新的识别引擎已经基本完成,需要几天时间进行最终的部署丶优化和接口封装。」