“蜘蛛”程序实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。 由于专门用于检索信息的“机器人”程序就像蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。 网络蜘蛛在抓取网页的时候,一般有两种策略:广度优先策略和深度优先策略。 广度优先策略是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其 抓取速度。 深度优先策略是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。 对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。 |