龙马网络
时间 : 2018-10-24 10:25 浏览量 : 39被X-Robots标签阻挡
什么是X-Robots标签?
x-robots标签是位于 HTTP响应头 ,令网站能告诉搜索引擎或其他爬虫它们应否爬取该URL上的内容。在这点上,它与meta robots标签或robots.txt档非常相似。它的区别在于这条资料是位于HTTP 响应头而非页面原始码或robots.txt档内。
基本x-robots标签:
X-Robots-Tag: noindex
与meta robots标签一样,x-robots标签可以带多个逗号分隔的值。
以下是最主要的值:
all: 默认值,对爬虫没有任何限制。
noindex: 排除该URL的收录。
nofollow: 不要跟随该页面上的链接。
none: 不要对这页面进行任何动作(与"noindex, nofollow"一样)
因x-robots标签是比较新的技术,因此应用和支持没robots.txt或meta robots标签广泛。百度,谷歌,必应和雅虎都支持它,但其他搜索引擎就未能确认。
"被X-Robots标签阻挡"是什么意思?
任何带"noindex"值x-robots标签的页面将不会被搜索引擎收录。这意味着这列表中的所有URL都不会被自然搜索用户所查找到。
我应该怎样去利用这条资讯??
查看这些URL中有没有你希望被自然搜索到的页面。如果你找到有不应出现在这列表中的页面,你应该从页面中移除这条标签 (或"noindex"值)。
也许你也应该看看有没有你以为已用x-robots标签阻挡的页面却没出现在这个列表上的URL。标签有可能缺失或格式不正确。 (也有可能是Dragon Metrics并没有抓取这个页面。)