袋鼠网络

什么是百度蜘蛛以及如何在2021年对其进行管理

袋鼠网络 2020-12-26
管理网站搜索引擎时要考虑的重要因素是网站搜寻器。搜索机器人或“蜘蛛人”会定期访问您的网页,并根据其发现的内容来决定如何在搜索结果中对您的内容进行排名。
即使每个搜索引擎都会自动将爬虫发送到您的网页,您仍然可以控制它们与您的网站的交互方式。因此,正确管理蜘蛛设置对于对您的SEO产生积极影响非常重要。
在中国或中文网站上运行时,您将使用百度蜘蛛机器人。尽管与Google Spider类似,但了解Baiduspider bot的差异以及如何阻止它非常重要。以及如何利用它来提高网站性能。
 
什么是百度蜘蛛?
百度蜘蛛是中国最重要的搜索引擎百度所使用的爬行蜘蛛的正式名称。
 
百度蜘蛛如何工作
与其他任何搜索引擎搜寻器一样,Baiduspider是一种自动化软件,可以定期检查您网站的内容以收集信息,然后将这些信息用于在搜索引擎数据库中为您的页面建立索引。
Baiduspider每次访问您的页面时,都会查找特定信息,例如页面的结构,内容质量,内容更新,关键字等。抓取过程分为两个步骤:1)蜘蛛抓取页面并将其放入存储中; 2)它将在页面上创建链接列表,以供日后检查。
利用收集的数据,百度将对您的内容进行排名。如果Baiduspider认为有价值,则将网页放在搜索结果的顶部,如果内容不符合百度的指南,则该网页将被降级。
您可能既不需要也不需要Baiduspider访问您的所有页面。因此,您需要了解如何阻止Baiduspider以及如何使其像您的内容一样。
许多网站管理员怀疑Baiduspider是否仅对中文网站进行爬网,或者是否还对中国境外的网站进行爬网。
要回答这个问题,请记住Baiduspider bot的工作原理与您网站的其他访问者完全一样。因此,如果中国用户可以访问您的网站,那么百度机器人也会这样做。当然,当百度抓取具有较高页面渲染时间或延迟的海外网站时,总体排名肯定会很低,并且您在中国不会出现。因此,如果您的目标是中国市场,则必须在中国托管网站。
Baiduspider用户代理
为了收集信息,百度蜘蛛机器人使用了不同的代理。您会在此处找到按范围划分的列表:
百度产品名称 百度的用户代理
百度网络/手机搜索 百度蜘蛛
百度图片搜索 百度蜘蛛图片
百度视频搜索 百度蜘蛛视频
百度新闻搜索 百度蜘蛛新闻
百度书签搜索 百度蜘蛛收藏
百度商业搜索 百度蜘蛛广告
百度联盟搜索 百度蜘蛛
 
我应该允许百度蜘蛛抓取我的网站吗?
如果您瞄准中国市场,则必须绝对让Baiduspider爬网您的网站。此外,您需要了解百度设定的基本准则,以确保正确索引您的页面。我们将在下一节“如何在百度上排名更高”中考虑该主题。
但是,如果您对中国市场不感兴趣,则必须阻止Baiduspider bot抓取您的网站,以节省您希望实际用户使用的带宽。稍后,在本文中,我们将说明如何阻止百度蜘蛛。
 
如何利用百度蜘蛛在百度上排名更高
搜索引擎和用户总是会因为网站运行缓慢而受到惩罚。
由于速度是至关重要的因素,因此强烈建议在您的网站上实施内容交付网络(CDN)。由于国家/地区的规模,CDN将在加速您在中国的网站方面发挥重要作用。使用CDN,您的用户将可以从最接近其位置的最快服务器访问您的内容。当百度蜘蛛访问您的网站时,这将得到积极反映。
其他主要差异与您网站的首页有关。百度主要关注主页,而对于Google来说,内部页面更为相关。此外,在百度上,新鲜的内容比冗长而深入的文章更重要。
另一个重要的一点是,百度蜘蛛将很难理解JS和Flash内容,而使用HTML替代项将减轻中国机器人的工作。
这些只是一些技巧,可以帮助您在百度上排名更高。但是,如果您想提高在中国的网站性能,建议您阅读有关“如何在中国进行SEO”的详尽指南。
 
 
百度机器人可以真正理解我网站的内容吗?
既然您知道了百度蜘蛛的工作方式,您可能想知道它是否可以获取,理解和呈现网站的所有元素,这是至关重要的一步,因为您需要确保百度将网站的所有元素都考虑为SEO。定位。
好消息是,百度拥有自己的搜索控制台版本,称为百度网站站长工具或百度子站。如果您拥有网站管理员帐户,则可以运行分析以检测爬网问题,并查看该机器人对爬网HTML内容的了解。
如果您没有网站管理员帐户,则可以在Merkle的Fetch and Render free工具上运行测试,只需确保选择了User代理上的百度蜘蛛。
 
如何阻止百度蜘蛛
阻止百度蜘蛛的唯一原因是,如果您对瞄准中国市场不感兴趣。您将避免浪费访问者可以使用的宝贵带宽,而不会不必要地降低网站速度。
也可能发生您不希望某些页面被搜索引擎获取和索引的情况,例如作者页面,标签等。在这种情况下,您需要从这些特定页面阻止Baiduspider bot。
为防止Baiduspider爬行您的网站,您需要创建robots.txt文件。您可以使用此文件在整个网站或特定页面上阻止Baiduspider。
 
这些是您可以使用的robots.txt的一些示例:
为防止百度在整个网站上爬行:
用户代理:百度蜘蛛
 不允许: /
为防止百度抓取视频,请执行以下操作:
用户代理:Baiduspider-video
 不允许: /
为防止百度抓取图像,请执行以下操作:
用户代理:Baiduspider-image
 不允许: /
一些用户不喜欢尽管添加了robots.txt文件,但百度可能会跳过该文件并继续抓取该网站。其他用户报告说,百度在爬网方面可能非常激进,并且百度僵尸程序过于频繁和密集地访问其网站时遇到了问题。
如果是这种情况,并且您没有针对中国受众,则必须阻止Baiduspider,并防止其爬行对您的网站速度性能产生负面影响。
除了添加robots.txt之外,解决此问题的另一种方法是尝试在您的服务器域上禁止百度Spider IP。由于搜索引擎使用多个Baiduspider IP,因此此操作可能需要一些时间。
这是许多百度Spider IP中的一些列表:
220.181.32.11 220.181.32.16 220.181.32.22 220.181.32.49 220.181.32.51 220.181.32.64 220.181.32.68 220.181.32.98 220.181.50.207 220.181.50.220 61.135.168.131 61.135.168.14 61.135.168.173 61.135.168.39
如果您的Web服务器上装有PHP,则另一个选择是将其设置为使百度对每个页面请求的等待时间最长为999秒。
除此之外,如果要阻止百度显示页面快照,则可以使用以下元标记:
,并且如果您不希望特定页面成为索引到经典的noindex元标记:  
结论
在确定要索引的页面以及不希望索引的页面时,了解百度如何爬网您的网站很重要。此外,了解Baiduspider检查您网站的哪些元素以及机器人如何理解它们将帮助您优化资源,以在百度搜索结果中获得更好的定位。
如果您需要优化中国市场网站的帮助,请与南通网络营销专家联系。QPSoftware在中国网络环境中活跃已有十多年了。我们已经帮助许多公司在中国取得成功。立即与我们联系,我们可以帮助您优化百度的网站,在中国创建社交媒体广告系列以及使用中国市场所需的所有营销工具。
 
电话咨询 置顶