什么是搜索引擎爬虫？

发表时间：2019-04-13

什么是搜索引擎爬虫？

搜索引擎爬虫又被称为网页蜘蛛，网络机器人，英文名：Spider，是一种按照一定规则，自动抓取万维网信息的程序或者脚本。

爬虫抓取流程：

首先从互联网页面中选择部分页面，以这些页面链接地址作为种子URL，并将这些种子URL放入待抓取URL队列中，爬虫从待抓取URL队列中依次读取，同时URL通过DNS解析，把链接地址转换为网站服务器对应的IP地址。将其和网页相对路径名称交给网页下载器，网页下载器负责页面内容的下载。下载到本地的页面，一方面将其存储到页面库中，等待建立索引等待后续处理;另一方面将下载网页的URL放入已抓取URL队列中，这个队列记载了爬虫系统已经下载过的网页URL，以避免网页的重复抓取。对于刚下载的网页，从中抽取出所包含的所有链接信息，并在已抓取URL队列中检查，如果发现链接还没有被抓取过，则将这个URL放入待抓取URL队列末尾，在之后的抓取调度中会下载这个URL对应的网页。如此这般，形成循环，直到待抓取URL队列为审，代表着爬虫系统已将能够抓取的网页尽数抓完，此时完成了一轮完整的抓取过程。

常见爬虫：

Google爬虫
算法优秀，反应迅速，对内容质量把握优秀，中等强度爬虫程序，对服务器负担不大，推广效果好。
对应user-agent：爬虫名称
Googlebot：google网页爬虫
Googlebot-news：google新闻爬虫
Googlebot-image：google图片爬虫
Googlebot-video：google视频爬虫
Googlebot-mobile：google移动爬虫
Mediapartners-google或Mediapartners(googlebot)：google广告爬虫
Adsbot-google：google着陆页质量检测爬虫
百度爬虫
算法良好，反应速度迟钝，对内容质量把握一般，高强度爬虫程序，由于算法优化不良问题，对服务器负担较大，本身小问题也挺多，隐私保护恶劣，在百度面前无隐私可言，推广效果好。
对应user-agent：爬虫名称
Baiduspider：百度网页爬虫兼移动爬虫
Baiduspider-image：百度图片爬虫
Baiduspider-video：百度视频爬虫
Baiduspider-news：百度新闻爬虫
Baiduspider-favo：百度搜藏爬虫
Baiduspider-cpro：百度联盟爬虫
Baiduspider-ads：百度商务爬虫
好搜爬虫
对应user-agent：爬虫名称
360spider或haosouspider：好搜网页爬虫兼移动爬虫
360spider-image：好搜图片爬虫
360spider-video：好搜视频爬虫
搜狗爬虫
算法恶劣，反应速度极其迟钝，不能良好的把握内容质量，高强度爬虫程序，由于算法奇差，会对页面进行大量反复而又无实际意义的扫描，对服务器负担很大，抓取压力大，综合性价比非常低。
对应user-agent：爬虫名称
Sogou spider：搜狗综合爬虫
新浪爱问爬虫
对应user-agent：爬虫名称
Iaskspider：新浪爱问爬虫
有道爬虫
对应user-agent：爬虫名称
YodaoBot：网易有道爬虫
Alexa爬虫
对应user-agent：爬虫名称
ia_archiver：Alexa爬虫
雅虎爬虫
对应user-agent：爬虫名称
Yahoo! Slurp：雅虎爬虫
必应爬虫
对应user-agent：爬虫名称
Bingbot：必应爬虫

网站建设如何吸引蜘蛛来抓取网站内容？
1、网站和页面的权重大小依然被作为衡量网站价值的重要标准，高质量老资格的网站被百度评为高权重，这种网站的页面被蜘蛛抓取的机率比较高，所以会有很多内页被收录。
2、页面更新频率会直接影响蜘蛛的光临频率，蜘蛛把每次光临获得的页面数据保存到服务器上，如果下次光临页面发现内容跟储存数据相同，那么会被蜘蛛认为页面不会经常更新，然后会给网站一个优先级，来决定以后光临的时间和频率。如果网站内容经常更新，每次蜘蛛抓取的内容都不一样，那么蜘蛛会更加频繁的访问这类页面，页面出现的新连接也自然会被爬取收录。
3、引导链接的建立，无论网站的外部链接或内部链接，想要被蜘蛛抓取，必须有引导链接进入页面，所以内部链接的合理性搭建非常重要，否则蜘蛛无法发现页面的存在。高质量的外部链接导入也是非常重要的，会增加蜘蛛跟踪爬行深度的增加。
4、建立首页的引导链接，蜘蛛访问最频繁的是首页，有内容更新时，一定要在首页体现出来并建立链接，便于蜘蛛最快抓取到，增加抓取机会。

5、原创内容，蜘蛛最厉害的是会对网站新发布内容同服务器收录数据做比对，如果是抄袭或部分修改的非原创伪原创内容，百度是不会收录的，如果经常发布的是非原创内容，那么也会降低蜘蛛的光临频率，严重的直接不收录，甚至0收录。

网站对Spider不友好因素：

1、robots.txt文件， 2、nofollow标签， 3、flash， 4、图片， 5、JavaScript， 6、网站游览权限，

7、强制使用cookies， 8、HTTP返回码， 9、服务器， 10、域名解析，11、网站程序完善， 12、动态URL，

13、框架结构， 14、session id

网站建设

系统开发

微信平台

App开发

虚拟主机

域名注册

企业邮箱

硬件设备

什么是搜索引擎爬虫？

主营

案例

关于

新闻

联系