javascript

Скрепинг данных с Chat GPT

  • вторник, 27 июня 2023 г. в 00:00:13
https://habr.com/ru/articles/743876/

Всем привет! 

Хочу поделиться своим опытом программирования с помощью чат GTP. У меня была коммерческая задача - нужно было собрать контактную информация с сайта yelp.com по выборке рестораны и бары. Это была часть процесса лидогенерации. Парсер должен был состоять из двух частей: Первый — собрать URL-адреса всех компаний, которые появляются в результатах поиска. 

Затем он просматривает каждую страницу и собирает данные, как название компании, веб-сайт, описание, адрес, контактную информацию и вертикаль.

Скажу сразу, я не разработчик, писать парсеры и скреперы не умею. Прошла базовый курс JavaScript, но честно говоря, мой 12-летний сын, знает об этом больше, чем я :) 

Просить помощи программистов было сложно, нужно было быстро, а вы сами знаете, какие у них очереди в разработке. Поэтому в большинстве случаев я прибегаю к старому доброму ручному “copy - paste”. 

Но сейчас я решила попробовать что-то новое. Я посмотрела кучу видеороликов на YouTube о парсинге веб-страниц и по рекомендации решила попробовать двух поставщиков готовых платформенных решений:

Начну со второго, так как с ним у меня не получилось закончить проект.

Вооружившись чатом GPT, даже немного его обучив (я предоставила документацию серсисов) и объяснив каждый шаг парсера, я взялась за работу. 

С первого взгляда (не профессионального) мне показалось все просто. Типа прописываешь команды, запускается браузер и скрепер делает свою работу. Но я застрала на шаге перехода от сбора ссылкок при определенном запросе (типа все рестораны в Лондоне) к шагу захода на кажду ссылку и сбор определенных параметров страницы. В общем, я отложила Selenium и решила попробовать второй вариант. 

Bright Data IDE с первого мне показался очень сложным, так как там нужно было реально писать код на Java Script. Но это и оказалось преимуществом. Можно было использовать готовые куски кода и Chat GPT помог его написать. В этом отношение Bright Data дает определенную гибкость и вариативность. Но при этом все находится внутри самой платформы и результаты парсинга можно получить в прямом смысле по электронной почты (если у вас нет настроенных серверов, как не было у меня).

Ок, переходим к результатам. Возможно, вы ожидаете, что я крикну: «Вуаля!» Но не так просто... Я сделала рабочий парсер и собрала нужные мне страницы. НО! По факту задание было очень легкое. Если бы сложнее, я бы не совладала с ИИ.

Наверное основная проблема была в том, что мне приходись постоянно удерживать его в рамках документации и команд используемыми Bright Data. Он постоянно уходил в сторону и начинал использовать какие-то левые команды, по факту нужна тонкая настройка и заточенность под конкретную платформу.

Итак, ваши мысли? Как вы думаете, этот подход может сработать при более качественном исполнение или ИИ не сможет заменить реальных программистов?