先看下下图,搜索引擎的工作过程:数据搜集—>预处理【索引】—>排名。
数据搜集
即数据的搜集阶段,将网页从浩如瀚海的互联网世界搜集到自己的数据库中进行存储。
1、抓取维护策略
面对大量需要处理的数据,很多问题需要事先考虑好。比如是“即时抓取”数据还是“事先抓取”?在对数据进行维护时