|
Tarafından account_disabled yayınlandı Jan 6, 2024 7:34:55 GMT
什么是机器人.txt 年 1 月 6 日 什么是机器人.txt 机器人.xt 是网站管理员创建的一个文本文件,用于指导网络机器人(通常是搜索引擎机器人)如何抓取其网站的页面。.txt 文件是机器人排除协议 (REP) 的一部分,这是一组网络标准,用于管理机器人如何抓取网络、访问和索引内容以及向用户提供内容。REP 还包括元机器人等指令,以及有关搜索引擎应如何处理链接的页面、子目录或网站的说明(例如“。 实际上,.txt 文件指示某些用户代理(网络抓取软件)是否可以抓取网站的部分内容。这些跟踪指令通过“禁止”或“允许”某些(或所有)用户代理的行为来指定。 在具有多个用户代理策略的 .txt 文件中,每个取消授权或授权规则仅适用于在以换行符分隔的特定集中指定的用户代理。 如果文件包含适用于多个用 电报号码数据 户代理的规则,则爬网程序将仅关注(并遵循策略)最具体的一组指令。 txt 中的站点地图 .txt 有助于控制搜索引擎机器人的抓取。此外,还有机器人。txt 可以包含对 XML 站点地图的引用,以告知爬虫有关网站的 URL 结构。还可以使用元机器人标签和 值将各个子页面从索引中排除。 ➞ 九个字是 所谓的“标准机器人排除协议”于 年发布。该协议规定,搜索引擎机器人(也称为用户代理)首先查找名为“.txt”的文件,并在开始索引之前读取其指令。因此,有必要在域的根目录中以小写的确切名称归档一个 .txt 文件,因为机器人读取文本是区分大小写的。 这同样适用于记录 .txt 的目录。 每个文件由两个块组成。首先,创建者指定指令应应用于哪些用户代理。接下来,有一个带有“”简介的块,在此之后您可以列出应从索引中排除的页面。可选地,第二块可以由“允许”语句组成,并由第三个“不允许”块补充以指定指令。 排除 .txt 机器人排除标准,也称为机器人排除协议或简称 robots.txt,是网站用于与网络爬虫和其他网络机器人进行通信的标准。该标准规定了如何通知网络机器人不应处理或扫描网站的哪些区域。搜索引擎经常使用机器人对网站进行排名。
|
|