第(3/3)页 “一万左右。” “太少了。”陈浩说,“一万个网页的搜索引擎,就像只有一百本书的图书馆,再好的检索系统也没用。 用户搜什么,你都可能没有。 所以第一要务,把收录量做上去。 十万,一百万,越多越好。” 贾瀞雯思考着:“可是收录量大了,速度不是更慢吗?” “那是下一个阶段要解决的问题。”陈浩解释,“你先让用户能搜到东西,哪怕准确率只有百分之三十,但如果网页基数大,用户总能找到一些有用的。 有了这个基础,我们再优化算法,提高准确率。” 他顿了顿:“瀞雯,做产品不能追求完美。 尤其是创业阶段,先做出能用的东西,让用户先用上,再慢慢改进。 如果总想一步到位,可能永远走不出实验室。” 这句话点醒了贾瀞雯。 她想起陈浩之前说的——第一版可以粗糙,但要快。 “我懂了。”她说,“先解决有没有,再解决好不好的问题。” “对。”陈浩笑了,“明天就这样跟团队说。 集中力量扩大爬虫规模,优化抓取效率,把收录量做上去。 至于速度和准确率,暂时放一放。” 电话打了半个多小时。 挂断时,贾瀞雯觉得心里踏实了很多。 她打开灯,拿出笔记本,开始写新的工作计划。 第二天开会,她把陈浩的策略传达给团队。 “陈总说,我们现阶段的目标是收录量。”贾瀞雯在白板上写下“十万网页”四个字,“三周时间,把收录量从一万做到十万。” 李明眼睛一亮:“这个思路对!现在我们总是纠结算法优化,但数据量太小,优化了也看不出效果。 先把数据堆上去,再谈怎么用好这些数据。” 张涛也点头:“爬虫部分其实可以改进。 我们现在是单线程抓取,太慢。 可以改多线程,同时抓多个页面。 还可以优化去重算法,减少重复抓取。” “索引结构也要调整。”王磊说,“数据量大了,现在的结构肯定撑不住。 得设计新的存储方案。” 团队重新有了方向。 当天下午,他们就开始分工:李明负责优化爬虫,张涛改进索引结构,王磊和其他两人处理数据存储和服务器扩展。 【跪求礼物,免费的为爱发电也行!】 第(3/3)页