На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

IT-новости от Geektimes

2 418 подписчиков

Internet Archive будет сканировать сайты вне зависимости от настроек robots.txt



Интернет-сайт — это обычный набор файлов и папок, который лежит на сервере. Среди этих файлов почти всегда есть один, который называется robots.txt, его размещают в корне. Он служит для инструктирования «пауков», его настраивают для того, чтобы поисковые роботы понимали, что можно сканировать, а что нет. В ряде случаев веб-мастера закрывают при помощи таких инструкций дублирующийся контент (теги, категории и т.п.) для улучшения SEO-показателей, кроме того, защищают от роботов и данные, которые не должны по какой-либо причине оказаться в сети.

Идея с robots.txt появилась более 20 лет назад и с тех пор, хотя различные настройки для различных поисковых ботов менялись, все работает так же, как и много лет назад. Инструкций, сохраненных в этом файле, слушаются почти все поисковики, а также бот Internet Archive, который бродит по интернету в поисках информации для архивации. Сейчас разработчики сервиса считают, что пришло время перестать обращать внимание на то, что размещено в …
Ссылка на первоисточник

Картина дня

наверх