Джон Мюллер рассказал в своём Твиттере о том, что нужно использовать тег noindex, если вы хотите запретить поисковым роботам индексацию вашей страницы, а не блокировать доступ к ней с помощью robots.txt.
Более того, он посоветовал делать это только с теми страницами, по которым вы точно не хотите ранжироваться.
Вот разговор, который завязался между ним и одним из вебмастеров в Твиттере:
@aysennoussi
Привет, @JohnMu, скажите, есть ли способ убрать из индекса более 10000 URL, которые являются страницами для регистрации с GET-параметрами и нужны только для редиректа после аутентификации?
Пример: `/signup/?redirect=/some/page/I/came/from`
Доступ к ним уже заблокирован с помощью robots.txt, но почему-то они всё ещё индексируются.
@JohnMu
А зачем вам вообще запрещать их индексацию? Если они ранжируются по запросам, которые важны для вашего продвижения, то продолжайте работать над качеством этих страниц. Если они никак не ранжируются, то просто игнорируйте их. (Также, чтобы запретить индексацию страниц, используйте noindex вместо robots.txt).
Какие выводы можно сделать из этого твита?
Запрещать индексацию нужно для тех страниц, которые не ранжируются по запросам, важным для вашего сайта.
Если эти запросы для вас важны, то вам нужно продолжать работать над качеством этих страниц, так как это поможет продвижению вашего сайта.
Если вы всё же решили сделать это, используйте тег noindex вместо robots.txt.