YQL robots.txt проблемы с ограниченным URL

#sinatra #yql #robots.txt

#sinatra #yql #robots.txt

Вопрос:

Я разрабатываю веб-приложение, которое включает следующий запрос YQL:

 SELECT * FROM html WHERE url="{URL}" and xpath="*"
  

На прошлой неделе я развернул новую версию и заметил, что страница зависает в запросе YQL. Когда я вернулся вчера, проблема, казалось, устранилась сама собой за выходные. Я только что развернул новую версию на сервере, и проблема вернулась снова. Серверный стек — Ngnix / Passenger / Sinatra

Вводя запрос в консоль YQL, я получаю сообщение об ошибке: «Запрашиваю robots.txt ограниченный URL:»

Я добавил следующее robots.txt:

 User-agent: Yahoo Pipes 2.0
Allow: /
  

Но, похоже, это ничего не дает.

Мысли? Мне довольно любопытно, почему YQL сообщает, что URL-адрес robots.txt ограничено, когда это не так.

Ответ №1:

У меня была такая же проблема. У меня есть подозрение, что это частично проблема со стороны Yahoo.

В моих приложениях Sinatra я добавил…

get 'robots.txt' do
"User-agent: * Allow: /"
end

Иногда это срабатывало бы… и затем доступ снова будет запрещен на некоторое время.

Если вы используете это, чтобы избежать междоменных проблем с javascript… В конце концов я сдался и использовал локальный PHP-скрипт для извлечения данных, а не использовать YQL.

Ответ №2:

Рассмотрите возможность добавления amp;diagnostics= true в запрос YQL. У меня это сработало.