Portia: графический интерфейс для скрапинга сайтов
- суббота, 5 апреля 2014 г. в 03:10:36
Scrapy — популярный фреймворк для сбора данных с веб-сайтов (скрапинг). Написанный на Python, он позволяет сконфигурировать паука, выполняющего GET-запросы, парсить HTML-документы, искать нужные данные и экспортировать их в другой формат. Поддерживаются куки и сессии, аутентификация на сайтах, подмена user-agent, консоль для отладки, ведение логов, мониторинг через веб-интерфейс, управление через telnet-консоль и прочее.
Таким образом, с помощью Scrapy можно быстро извлечь нужную информацию с сайта или веб-страницы. Например, все адреса электронной почты, каталог товаров из интернет-магазина, прогноз погоды и прочее.
Scrapy выдает поток данных для обработки и использования в другом веб-приложении. В общем, исключительно полезный и мощный инструмент. Теперь работать с ним станет еще приятнее, не нужно даже изучать Python. Благодаря графическому интерфейсу Portia любой неподготовленный пользователь способен выделить нужную область на веб-странице — и запустить скрапер.
Видеофайл в формате mp4, 9,4 МБ
Разработчики планируют вскоре прикрутить графический интерфейс к веб-сервису Scrapinghub, при этом обеспечат полную совместимость с функцией автоскрапинга и прочими инструментами на платформе Scrapinghub.