news.shamcode.ru | Песочница Хабра: как получить инвайт и не замучать модератора

Песочница Хабра — основной источник новых авторов. Судите сами: за 2024 год опубликованы на Хабре или в публичной песочнице 2 217 статей, отклонено 10 149 публикаций, две первые статьи среди лучших за год — из песочницы, среди 20 лучших статей за всё время три — из песочницы. Конечно, эти рекорды стоят труда отклонения десятков тысяч материалов. Но работать с песочницей не так просто.

Песочница — это самая живая часть Хабра с точки зрения чувствительности к трендам: если в моде покемоны, хомяки и пчёлы, этого будет бесконечно много. Если идут блокировки сервисов, модератор читает о самых необычных способах их обхода. В песочнице стабильно много скама, крипты, жалоб и странностей всех типов. В последнее время ситуация усугубилась: песочница стала превращаться в ИИчницу. Сегодня расскажу вам, почему это плохо, как получить заветный инвайт, какие бывают пользователи и что точно не пройдёт модерацию.

Вообще о правилах и особенностях песочницы есть отличная статья — обязательно прочитайте её, потому что эта будет своеобразным апдейтом.

Начнём с ИИчницы

Статьи, написанные с помощью генеративных моделей ИИ не появлялись в песочнице на удивление долго: первые материалы, вызывающие подозрение, появились летом 2024 года. Их было видно невооружённым глазом: специфический стиль, «машинозвучание», как у машинных переводов (проверяли так: читаешь вслух и звучишь, как робот с обзвона), списки, обилие терминов, ну и ещё пара секретных критериев (они до сих пор работают). Но нейронки прокачивались, за ними прокачивались и тексты. Их всё равно можно распознать глазами, особенно, когда у тебя колоссальная начитанность — все те самые десятки тысяч статей просматриваются и отклоняются вручную, но нам на помощь пришёл GigaCheck от Сбера — пока это самый классный и совершенный инструмент определения нейросетевого текста (работает даже на отдельные предложения в тексте). За полгода работы не наблюдала ни одного ложного результата. Мы прогоняем не каждый текст, а только те, которые вызывают подозрение — это помогает не слепо доверять технологии, но также сохранять насмотренность. Впрочем, до объёмов, требующих автоматизации, осталось минус три дня :-)

Пока конфликты с авторами из-за использования генеративных моделей ИИ для создания текстов возникают крайне редко — не сравнить с той же рекламой или «не тематикой Хабра». Однако два из них уже были гораздо более ощутимыми и велись вокруг полностью сгенерированных текстов.

Вот какие аргументы приводят пользователи:

я просто улучшил текст;
я плохо выражаюсь;
я сэкономил время;
ну я же всю свою экспертизу передал промптом;
а поиском тоже пользоваться нельзя?

На первый взгляд, претензии по существу — более того, я как модератор, читаю их с некоторой тревожностью, потому что скоро ИИ станут плотной частью мира текстов и с этим придётся работать, находить баланс, формулировать новые стандарты качества (или хотя бы приемлемости) текста. Будущее, которого, пожалуй, не хотелось.

Но пока не будем о будущем, а посмотрим на реальные фрагменты сгенерированных (и отклонённых текстов).

Фрагмент 1

1. Автоматизация рутинных процессов

Одним из самых очевидных применений ИИ является автоматизация. Компании используют ИИ для обработки больших объемов данных, управления документами и даже общения с клиентами через чат-боты. Например, банки внедряют ИИ для анализа кредитных заявок, что позволяет сократить время обработки с нескольких дней до нескольких минут. // Три предложения по сути содержат одну и ту же информацию, но разными словами. Обычно так пишут копирайтеры, не погружённые в тему.

Кейс:

Компания JP Morgan Chase внедрила систему COiN, которая анализирует юридические документы и извлекает ключевые данные. Раньше на это уходили тысячи человеко-часов, теперь процесс занимает считанные секунды. // Опять тезис про считанное время, который уже был в предыдущем абзаце.

2. Персонализация и улучшение клиентского опыта

ИИ помогает компаниям лучше понимать своих клиентов. С помощью машинного обучения анализируются данные о покупках, поведении на сайте и предпочтениях. Это позволяет предлагать персонализированные рекомендации и улучшать клиентский опыт. // Тут нейронка даже не старается — на 4 строчки три повтора тезиса, два из которых одними и теми же словами. Не криминально, конечно, но жалко потраченного на чтение времени.

Фрагмент 2

Voices of the Void — это настоящее погружение в мир загадок и ужасов! // буклетная интонация Игра предлагает увлекательный сюжет, который держит в напряжении с первой минуты, а графика и звуковое оформление создают атмосферу, заставляющую почувствовать себя частью мрачного мира. Музыка вызывает мурашки, а механика выбора позволяет влиять на сюжет, делая каждое ваше решение важным. Если вы готовы к приключениям и не боитесь темноты, Voices of the Void точно станет вашим новым любимчиком! Так что, налейте себе чаю, усаживайтесь поудобнее и вперед – откройте завесу тайны! // Текст выглядит как машинный перевод очень плохого описания. Особенно умиляет сочетание напряжённой, страшной игры с музыкой до мурашек и предложения налить чаю. Вряд ли бы так написал живой человек и тем более человек, увлечённый игрой.

Фрагмент 3

В сердце музеев величественных дирижаблей скрывается история, полная таинственных открытий и рискованных экспериментов. В начале XX века, когда дирижабли впервые взмахнули в небеса, балластные системы стали одним из ключевых элементов, определяющих плавность их полёта. Используя мешки с песком и даже морскую соль, инженеры стремились к идеальному балансированию, чтобы достичь небывалой манёвренности. // По стилю и смыслу — комментарии излишни. Конечно, в технической статье хочется видеть меньше эпитетов.

Как менялся подход к балласту

С течением времени, с развитием технологий, на смену старым методам пришли новые, более изысканные // не то слово, которое описывает технологию – например, автоматизированные системы управления с водяным и газовым балластом. // Есть технология конденсирования воды из отработанного топлива, но это часть водяного балласта, а вот газовый балласт (газобалласт) — привычный термин для некоторых насосов. Человек бы разъяснил нюансы и не использовал термины настолько грубо. Эти инновации позволяли дирижаблям адаптироваться к изменяющимся условиям воздушного потока, делая их полёты не только безопаснее, но и эффективнее. // Человек был раскрыл понятие «эффективного» полёта. Нейросеть снова оставила нас с общими формулировками.

Самый прикольный пример работы нейросети: вот так она пожелала всем лучей добра. (Заодно снова видим повтор — пост подготовлен при помощи и инструмент внёс значительный вклад).

В рабочем чате @apoltavcev не растерялся и предложил иллюстрацию прожига лучами добра:

Конечно, странно призывать всех не пользоваться генеративными моделями ИИ для создания статей на Хабре, но есть несколько советов, к которым стоит прислушаться, чтобы не перестать быть автором даже используя ИИ.

Фактчекинг и технические подробности. Проверяйте термины, определения, факты, единицы измерения, которые вам предлагает ваш ИИ-соавтор. Очень много фактических ошибок кочуют из статьи в статью. Самое опасное: нейросетевой перевод нейросетевой статьи: происходит синергия ошибок ~~и Вселенная может схлопнуться~~.
Избавиться от метафор. Иногда нейросети прикручивают совершенно внезапные метафоры и обороты. Непонятно, на что это списывать: на исходный контент или на галлюцинации — но факт остаётся фактом, и этого точно не должно быть в вашей публикации.
Избавиться от сложных конструкций. С одной стороны, ИИ пишет проще, чем человек. С другой, нагромождение коротких предложений мешает продраться к смыслу. Если вам понравился тезис и вы готовы забрать его в свой текст, перепишите мысль на человеческом языке.
Проверить структуру текста и исключить смысловые повторы. Это тот признак, по которому генеративные модели видно сразу. Они повторяют одно и то же по несколько раз, в разных абзацах и частях текста, иногда даже похожими словами. Выход один: резать, не дожидаясь недовольства читателей.
И да, проверить ошибки — тоже не лишнее.

В последнее время появился тревожный аспект сгенерированного контента: в большом количестве приходят статьи с аккуратно оформленным кодом, выкладками и рассуждениями на темы разработки. На первый взгляд выглядят отлично и заслуживают инвайта, но стоит вчитаться и всмотреться и ты понимаешь, что нет, не прилично. Таких мы отклоняем без жалости. Но вот что неприятно: как правило, это статьи, нацеленные на начинающих разработчиков, фактически туториалы. И нет никаких гарантий, что эти статьи не попадут в паблики социальных сетей и в каналы (где генеративного контента вагон и маленькая тележка).

Экспертиза всего

В песочницу (и на почту neo@habr.team) постоянно и стабильно приходят авторы, которые несут свои великие теории, порой расписанные на сто и более листов. На первом месте — опровержения теории относительности, не сильно от них отстают теории «новой физики», третье место прочно занимает эфир и ему подобные материи, в хвосте плетутся изобретатели космических лифтов и математики с авторскими доказательствами теоремы Ферма и гипотезы Коллатца. Страшно, конечно, не выпустить из песочницы нового Эйнштейна или Эйлера, но обычно такие статьи раскрывают сами себя. Конкурировать они могут разве что с философией и попытками доказать Бога. Причём зачастую материалы написаны таким языком, что продраться сквозь формулировки к смыслу практически невозможно.

Почему не стоит отправлять гениальные теории в песочницу Хабра? Хабр придерживается официальной научной парадигмы и доказательности в науке, поэтому нам не хочется публиковать ~~откровенный бред~~ материалы, не одобренные научным сообществом. Кстати, о научном сообществе: иногда авторы приносят рецензии на свои теории (в основном, от к.ф.н и д.ф.н. или «почётных профессоров и академиков чего-угодно-но-не-РАН»). Эти рецензии выглядят одобрительными, но на самом деле это просто очень расплывчатые формулировки из разряда «да и нет не говори, чёрно с белым не бери». Эти рецензии не способны в чём-то убедить модераторов.

В общем, такие статьи модерацию не пройдут и рецензироваться не будут.

Псевдонаучные, антинаучные и лженаучные опусы — не единственные проявления массовых вспышек экспертизы. В песочнице огромное количество статей про криптовалюты, нейросети всех мастей, инвестиции и биржевое дело. Крайне редко попадаются статьи, которые можно выпустить.

Эксперты щедры на знания и призывают всех богатеть на очередных коинах. С ними плотно конкурируют за внимание директологи и мастера маркетплейсов.

Вот где бабки лутать надо, а не в айтишечке

Ну тут по справедливости и самокритично!

И вот тут бы написать просьбу не нести статьи про крипту и инвестиции, но вряд ли этот призыв будет прочитан. Приятно одно: если на «экспертов» от мира физики и математики уходит много времени (на чтение, дискуссию, переписку), то крипторебята не обидчивые и редко приходят разбираться. Впрочем, кажется, что они «сеют» статьи наудачу и напрочь забывают логины и пароли от площадок.

Тройку экспертных экспертов занимают те, кто приходит качать личный бренд (часто через пиарщика или агентство). Это отдельная категория статей: пафосные статьи с банальной, выверенной до скрипа, информацией, двумя парадными портретами эксперта и описанием его регалий. Такие статьи выпускать просто страшно: заминусуют, разнесут по строчкам и будут правы. Гораздо лучше, если вы напишете действительно экспертную статью и подпишете её блоком персоны с фото, именем, регалиями. Вот это заслуживает уважения. Вот отличный свежий пример того, как нужно делать. Но повторюсь, главное — не то, гда вы разместили имя и фото, главное, что вы написали. Это и есть настоящая экспертиза.

«Не тематика Хабра»

Самый нелюбимый, самый оспариваемый и один из самых распространённых поводов отклонения статей. Вообще тематика Хабра огромна: от Swift и микросервисов до здоровья и научной фантастики. Это всё аспекты жизни IT-сферы и людей, которые в ней работают. Мы никогда не против контента от профессионалов в разных сферах, от учёных и практиков. Однако есть несколько категорий публикаций, которые не смогут пройти модерацию.

Переводы на темы, не связанные с IT. Как бы ни был прекрасен исходный текст про выращивание бананов, дрессировку собак и пляжи Лазурного берега, прочитает их только модератор. Кстати, переводы часто машинные и звучат значительно хуже сгенерированного контента.
Жалобы, если они не содержат тщательно проверенного, глубокого описания и технических деталей. Если вы провели настоящее IT-расследование, с началом, основой и финалом, попытаться можно. Рассказывать про странные собеседования и переписки с мошенниками, которые просят три цифры с оборота карты, точно не стоит. Как и использовать Хабр в качестве громкоговорителя для обсуждения и решения личных проблем.
Авторские тексты (включая прозу), не связанные с IT и с хабами Хабра. История компьютера ПК Сура 8000 модерацию пройдёт (даже с шероховатостями), история открытия вирусов уже должна быть написана очень хорошо (блестяще), а вот история фараонов или кисломолочных продуктов — уже ни при каких условиях (а вот статья от технолога кисломолочных продуктов при должном качестве зайдёт).
Военные тексты и обзоры военной техники, даже технические. Правда, хороших пока и не публиковалось.
Очень часто приходят статьи про прокрастинацию, расстройства психики, тревожность, депрессию и прочее. Иногда бывают крайне интересные и откровенные, но выпускаем мы только редкие единицы. Мотивация здесь простая: когда пишет пациент, он транслирует свои симптомы и методы лечения, которые скорее всего не подойдут другим, но взбудоражат внимательных читателей. Это слишком ответственный контент.
Статьи про БАДы и фармацевтические препараты — за редким исключением, когда даётся невовлечённый, экспертный взгляд на тему.
Ну и понятно, что вопросы, задачи, просьбы, крики души, вакансии, новости, анонсы точно не пройдут модерацию. Даже если они очень по тематике Хабра. Кажется, за последние лет пять мы выпустили около пяти новостей.

На самом деле, таких тем много и нужно руководствоваться минимальной логикой и изучением тематики Хабра. Ссылки на статьи с Хабра по «точно такой теме» с минусовыми рейтингами — не аргумент, потому что они могут быть а) очень старыми, б) случайно упущенными из внимания, в) просто плохим примером. Если модератор отклоняет вашу статью, это не значит, что он к вам такую неприязнь испытывает, что кушать не может. В 100% случаев он стремится защитить аудиторию от неожиданного контента, а автора — от потока минусов и негатива читателей.

Модератор и автор — вопросы взаимодействия

С высокой вероятностью, стремящейся к единице, модератор, с которым вы столкнётесь в песочнице, это я, то есть @Exosphere Соответственно, если статья неплохая, мы можем вместе её «подрихтовать и хабрафицировать». Кстати, недавно корпоративный клиент попросил дать определение хабрафикации, поделюсь с вами: хабрафицировать (профессионализм) — привести текст в соответствие с правилами Хабра и специфическими требованиями аудитории, накопленными в нашем опыте. Например, избавиться от заигрывания с читателями, излишних мемов, добавить техническую фактуру, сформулировать лид и заголовок, которые привлекут читателей с большей вероятностью.

Как обратиться со своей статьёй к модератору и сделать это наиболее эффективно?

Лучше всего написать в личку @Exosphere сообщение, в котором изложено, что вы хотите написать и очень желательно добавить черновик в виде ссылки на Google Docs с правами на редактирование или комментирование. Не факт, что вы получите ответ в первые часы, но в целом на сутки можно рассчитывать. Личные сообщения рассматриваются максимально оперативно.
Написать письмо на neo@habr.team и добавить черновики во вложении — там статьи рассматриваются медленнее и письмо совершенно ненамеренно может затеряться в потоке.
А вот что делать точно не стоит (если только у вас не серьёзная причина) — это писать модераторам или в поддержку с вопросом, когда статья выйдет из песочницы (особенно, если с момента публикации прошло 15 минут). Мы стараемся выпускать статьи быстро, формируем отложенную очередь на 1–2 суток вперёд. И да, уважаемые господа студенты, «нас без статьи до зачёта не допустят» — это не серьёзная причина.

Что может сделать модератор со статьёй в песочнице?

После того, как статья попадает в песочницу, модератор её прочитывает, затем проверяет на ИИ-шность с помощью сервиса Giga Check, при особых подозрениях проверяет на плагиат и принимает решение: выдать инвайт и опубликовать статью на Хабре, передать статью в публичную песочницу или отклонить. Это обязательная процедура, которую проходят почти все статьи (за исключением односложных вопросов, рекламы и, пожалуй, крипты).

Модератор может (но не обязан) исправить ошибки в вашей статье или попросить об этом корректора. При этом текст статьи практически никогда не меняется (наверное, за всё время я раз пять написала хорошее вступление к классной статье без нормального докатного текста).
Модератор может подобрать к статье картинку. Чаще всего мы это делаем, когда статья по-настоящему хорошая и хочется, чтобы она была заметнее в ленте.
Модератор может зачистить рекламные ссылки и всё равно выпустить статью.
Модератор может заменить мат (хотя за всё время с матом было 2–3 хорошие, достойные инвайта, статьи).
Модератор может отсрочить выход статьи. Например, ироничная статья или что-то про «войти в айти» скорее всего выйдет в пятницу. Это делается прежде всего ради повышения интереса к авторам.
Модератор обязательно поправит вёрстку и форматирование в приемлемых объёмах. Если форматирование из рук вон плохое или сложно разобраться, например, с границами кода, модератор вернёт статью автору с соответствующим замечанием.
Важно! Модератор может обсудить с вами тему или идею статьи, посоветовать, как лучше подать текст, дать редакторские правки, предложить другие версии заголовка (если вы новый автор!), подсказать, что можно улучшить. У нас огромный опыт работе с текстами, поэтому обычно прислушаться к рекомендациям — вам на пользу.
Ещё важнее! Если модератор отговаривает вас от публикации статьи (или скрыл уже опубликованную статью — то есть ту, что на Хабре, не в песочнице), это только во благо автора и читателей: либо нарушены правила, либо статья может повлечь самые негативные реакции и комментарии, что только навредит автору.

Что модератор не делает никогда?

Модератор не напишет и не допишет за вас статью — у нас на это просто нет времени. Да и это уже будет не ваша статья.
Модератор не сможет придумать вам темы только потому что вы решили стать автором Хабра (хотя и такое бывает). Автор — это тот, кто приходит с идеей, темой и хотя бы планом, а лучше — сразу с черновиком.
Модератор не поможет вам достать инвайт, кого-то слить и т. д. Хотя иногда мы можем выдать инвайт за что-то не особо значимое (но это только на первый взгляд) — примеры приводить не буду, а то случится фрод :-)

Кстати, примечательный факт: сильные, хорошие авторы обычно приносят в личку или на почту цельные, собранные и свёрстанные статьи. Они сомневаются в себе, в том, что написали и как оформили, хотя там даже пробел исправить негде, настолько всё идеально. А вот с претензиями и жалобами чаще всего приходят те, кто написал что-то совершенно непригодное. Впрочем, ничего примечательного в этом нет: добро пожаловать на пик глупости внутри эффекта Даннинга-Крюгера.

Если у вас появились сомнения в решении модератора, всегда можно обратиться к руководителю отдела поддержки пользователей, великому и ужасному, справедливому и рассудительному Бумбуруму @Boomburum

Кстати, часто нас благодарят за помощь:

А иногда ругают и даже угрожают:

В завершение предлагаю вам немного погрузиться в бездну песочницы, которую видит модератор, и оценить отрывки из избранного (увы, не всё можно публиковать).

Иногда так хочется научиться отращивать новую органику. А то то лапы ломит то хвост отваливается…

Вот это истина: часто бредовые идеи откидывает модератор

Здесь хотя бы честно. Многие маскируются

Не будет ни коров, ни ретро — одна сплошная кибердеревня

Ну и в конце — конечно про хорошее. Мы благодарны нашим пользователям за контент, за улыбки и благодарности, мы грустим и переживаем, если что-то не складывается. А ещё иногда очень-очень хочется опубликовать статью, но она по каким-то причинам рискует не взлететь. Например пост с песней про айтишников от @fishrish выпустить не можем, но инвайт выдадим и слова здесь приведём:

Разучиваем слова

1 куплет

Я работаю в Ай Ти
Помню дедушку XP
Начинаю день рабочий
Строго с мемов в соц сети

Мама говорит я преуспел
Я ведущий инженер
Подключаю принтер, мышку
Банкомат, кондиционер

Моя должность тимлид
Я устраиваю мит
Всех ведущих инженеров
Собираю в нид фо спид

Ну а я бекэнд разраб
Двигаюсь я как краб
Вниз и влево, вниз и влево
Мой питон в руках как раб

Припев
Ай ти пью black tea
Ем куки
Ай не гони

Ай ти пью coffee
I am profi
Мне всё пофиг

2 куплет

Здрасте, я те-тестировщик
Я по-по жизни не тусовщик
Зад мой к стулу приколочеЯ на багах заморочен

Аналитик тут
Парочку минут
Сделаю апгрейд
Но сперва reboot

My name is big boss
Погоняло - пылесос
На при сиде деньги клянчу
И веду наш паровоз

Round seed - прототип
Round one - кэш в карман
Round two - кэш в крипту
IPO - всё маё

Припев

Ай ти пью black tea
Ем куки
Ай не гони

Ай ти пью coffee
I am profi
Мне всё пофиг

3 куплет

Удалёнщик на Бали
Вдалеке от big земли
Ну подумаешь просрочка
На меня ты не дави

У меня тут солнце пляж
Дамы делают массаж
Подождите вы с проектом
Дайте мне войти в кураж

Припев

Ай ти пью black tea
Ем куки
Ай не гони

Ай ти пью coffee
I am profi
Мне всё пофиг

Один из наших крутых разработчиков загнал текст в SUNO и, кажется, получился маленький шедевр ;-)