xaker

Portia: графический интерфейс для скрапинга сайтов

  • суббота, 5 апреля 2014 г. в 03:10:36
http://www.xakep.ru/post/62310/

Scrapy — популярный фреймворк для сбора данных с веб-сайтов (скрапинг). Написанный на Python, он позволяет сконфигурировать паука, выполняющего GET-запросы, парсить HTML-документы, искать нужные данные и экспортировать их в другой формат. Поддерживаются куки и сессии, аутентификация на сайтах, подмена user-agent, консоль для отладки, ведение логов, мониторинг через веб-интерфейс, управление через telnet-консоль и прочее.

Таким образом, с помощью Scrapy можно быстро извлечь нужную информацию с сайта или веб-страницы. Например, все адреса электронной почты, каталог товаров из интернет-магазина, прогноз погоды и прочее.

Scrapy выдает поток данных для обработки и использования в другом веб-приложении. В общем, исключительно полезный и мощный инструмент. Теперь работать с ним станет еще приятнее, не нужно даже изучать Python. Благодаря графическому интерфейсу Portia любой неподготовленный пользователь способен выделить нужную область на веб-странице — и запустить скрапер.

Видеофайл в формате mp4, 9,4 МБ

Разработчики планируют вскоре прикрутить графический интерфейс к веб-сервису Scrapinghub, при этом обеспечат полную совместимость с функцией автоскрапинга и прочими инструментами на платформе Scrapinghub.