首页互联网 › Google开源robots.txt解析器,推动REP标准化:必定赢官方网站

Google开源robots.txt解析器,推动REP标准化:必定赢官方网站

本文摘要:据消息,7月1日,谷歌在博客上发表了最重要的信息。

必定赢官方网站

据消息,7月1日,谷歌在博客上发表了最重要的信息。谷歌声明将存储robots.text解析器的c库作为开源,并部署robots exclusion协议(rep )。

爬行动物协议,又称爬行动物协议。1994年,荷兰软件工程师Martijin Koster明确提出了REP的概念,通过robots.txt文件隐藏部分信息,不被搜索引擎捕捉。

必定赢官方网站

例如,只捕捉应该捕捉的页。屏蔽一些网站的小文件屏蔽一些违宪链接的脆弱信息等。(公众号:)录:搜索引擎的做法(照片来自百度百科)我们可以这样解读。

网站只是房间,robots.txt文件是主人挂在门上的“请不要打扰我”的出示卡,可以输给保管在贵重物品里的房间,但不是门卫。25年过去了,在业界内对REP进行了充分的接受,但现在看起来不是非正式的互联网标准,而是道德规范。但是谷歌致力于改变这一现状。

必定赢官方网站

谷歌在博客上希望帮助网站的所有者和开发人员在互联网上获得美好的体验,而不是担心如何控制捕获工具。谷歌和协议的发起人、其他网络管理者和搜索引擎共同制定了关于如何为REP设置上限的议案,目前正在进行IETF (IEF ) (IETF 谷歌的议案体现了20年来谷歌bot和一些主要的互联网爬虫类,以及约5亿人的REP依赖网站应用于robots.txt的实际经验,在现代网络层面扩展,给予robots.txt分析不限于HTTP,也可以作为FTP和CoAP使用。开发者必须至少分析robots.txt的前500 KB的内容。

必定赢官方网站

定义文件的最大值,以减少服务器上不必要的压力,以免关闭连接太长时间。新的最长内存时间是24小时或可用的内存命令值,表示站点所有者的灵活性随时改版robots.txt,爬行类程序使站点短路。如果当前可以访问的robots.txt文件看起来因服务器故障而无法访问,则这些无法访问的页面将很长时间内不会被搜索。

开源robots.txt解析器不仅有很多力量向IETF支付提案,谷歌还提出了其他希望,开源出于自己的robots.txt文件库的目的建立了标准化语法,建立了文件。谷歌在博客上说: REP是互联网中最基本、最重要的组成部分之一,但它只是约定俗成的标准,难免令人失望。这是因为给网络管理者和爬虫类工具开发者带来了后遗症……推动REP成为行业标准是最重要的,符合任何人的利益。但是,对于分析robots.txt文件的开发者来说,这种标准化需要更大的希望,因此我们使用了包含robots.txt解析器的c库作为开源。

这个c库已经不存在20多年了,相信包括从90年代开始写的代码剪辑。在过去的20年里,这个库得到了很大的发展,在编写robots.txt文档方面涵盖了很多非常简单的案例,对想构建自己的解析器的开发者来说非常有用。此外,谷歌还在开源包中添加了测试工具,允许作者测试robots.txt的效果。外界的态度在谷歌开源robots.txt之后,这个话题引起了普遍的关注,也登上了Hacker News。

Holger Mueller是Constellation研究公司(专门从事数字化变革和卓越的技术研究和咨询)的分析师,他告诉SiliconANGLE,标准化是互联网长时间工作不可或缺的Holger Mueller还补充说,就像开源的提案和标准化的尝试一样,我们必须安静下来,看看它能教什么。这是一个有点引人注目的领域。在国内,网民们也在与“谷人希”(谷歌,人类的期待)竞争,应对这件事的赞扬。原创文章,发布许可禁令刊登。

以下,听取刊登的心得。

本文关键词:必定赢游戏平台,必定赢官方网站

本文来源:必定赢游戏平台-www.iconaviv.com

转载本站文章请注明出处:必定赢游戏平台-必定赢官方网站 http://www.iconaviv.com/?p=1856

上一篇:

下一篇:

相关文章