#php #python #perl #parsing #lwp
#php #python #perl #синтаксический анализ #lwp
Вопрос:
в настоящее время я работаю над подходом к анализу сайта, который содержит данные о фондах в Европе.
http://www.foundationfinder.ch / который имеет набор данных из 790 основ. Все данные доступны для бесплатного использования — без каких-либо ограничений авторских прав на них.
Какова цель: я хочу проанализировать данные и сохранить их локально: ради лучшего извлечения и более удобного способа использования: возможно, можно сохранить их в Calc / или, что еще лучше, в MySQL-Database.
Вопрос: Какой самый простой способ синтаксического анализа HTML с помощью Perl, должен ли я использовать LWP или Mechanize: какой подход проще!?
Некоторые друзья посоветовали мне попробовать Python!? Прекрасный суп. Я думал о подходе с использованием Perl LWP или Python Beautiful Soup. Других подходов для проведения синтаксического анализа такого сайта я не вижу. Хорошо, есть способ — использовать PHP. Конечно, каким-то образом мы можем использовать PHP (и Curl)
Какой подход является лучшим. Perl с LWP или Mechanize? или Python один …?
Помимо вопроса о языке: кто-нибудь может мне помочь на первых шагах. — помогает попасть в нужное русло!? Я с нетерпением жду вашего ответа
относится к нулю
Комментарии:
1. На каком из этих языков вы владеете наиболее свободно? В абсолютном выражении может оказаться так, что, скажем, Perl лучше всего подходит для этой задачи, но если вы наиболее комфортно владеете PHP, то это в конечном счете более важно.
2. Если вы хорошо разбираетесь в PHP, я бы рекомендовал использовать DOM-классы PHP с XPath. Это довольно просто.
3. Привет, Шварци, привет, тайский — большое спасибо за быстрый ответ. Я немного знаком с PHP — так что, полагаю, мне нужно пойти PHP-путем. Идеи замечательные, но я не уверен, что смогу выполнить всю работу самостоятельно. Тайский — можете ли вы поддержать некоторыми фрагментами, чтобы дать краткое представление о том, как увеличить скорость с помощью PHP, делая это!? Мне нравится слышать от вас
Ответ №1:
Все данные доступны для бесплатного использования — без каких-либо ограничений авторских прав на них.
Я бы не был так уверен. Они изо всех сил пытаются запутать контактные данные, чтобы «данные не могли храниться в таблицах для создания списков рассылки». Сведения об основах — это не HTML, это изображения. Кроме того, они ограничивают результаты поиска максимум 100. Если вы понимаете немецкий, вам следует прочитать раздел «Daten Schutz» (защита данных) в Informationen.
Если все, что вы хотите, это связать названия фондов с критериями поиска, которые позволяет использовать сайт, тогда посмотрите другие ответы. Если вы действительно хотите сохранить подробную информацию, тогда вы нарушите намерения сайта и вам нужно будет проконсультироваться с юристом о том, имеют ли их заявления юридическую силу. Кроме того, вам понадобится распознавание текста, чтобы вернуть изображениям пригодный для использования формат данных.
Комментарии:
1. Спасибо за ответ: Насколько я понимаю сайт и его философию: Он поддерживает благотворительность в лучшем виде: таким образом, они хотят поделиться идеями / знаниями и хотят объединить людей, которые ищут информацию. Кстати: я не хочу копировать данные и предлагать их на втором сайте; нет! Заключение: я почти уверен, что я не против каких-либо идей Благотворительности или идеи сайта….
Ответ №2:
Мои два цента в том, что вы должны выбирать в соответствии с языком, который вы знаете лучше всего. Если бы это было так, я бы использовал Python, в котором есть несколько библиотек и инструментов, и это заняло бы что-то вроде пары часов работы.
Однако, если вы хорошо разбираетесь в Perl или PHP, вы должны выбрать один из этих языков. В большинстве языков сценариев есть библиотеки, которые могут выполнить эту задачу.
Комментарии:
1. спасибо за ответ — ну, php, кажется, здесь самая знакомая вещь. Полагаю, что все это каким-то образом происходит у меня над головой. Я постараюсь сделать то, что смогу…. Еще раз спасибо Рамдазу за столь быстрый ответ
Ответ №3:
В чем вы хороши? PHP или Python? Конечно, когда дело доходит до такого рода вещей, будет нечто большее, чем просто обсуждение сравнений, но давайте не будем до этого доходить. Перейдите и выберите тот, который вы знаете лучше. Можно было бы сказать Perl или даже Python, или PHP, но у каждого есть свои преимущества. В конце концов, вы будете тем, кто будет его кодировать, поэтому выбирайте тот, который вы знаете лучше.
Комментарии:
1. спасибо за идеи и предложения… я пытаюсь делать / идти по пути php … любой, кто хочет протянуть руку помощи…