Мы построили собственный AI-детектор — и вот что узнали
Когда тексты от ИИ заполонили выдачу, нам приходилось проверять контент клиентов вручную. Платные сервисы (Copyleaks, Originality.ai) помогали, но не объясняли «почему». Разобравшись в их логике, мы поняли: в основе — анализ текста тем же ИИ. И собрали собственный бесплатный AI-детектор, который не просто даёт вердикт, а показывает, где и чем ИИ «наследил».
Эта статья — выжимка того, чему мы научились на тысячах проверенных текстов. По нашим наблюдениям за проектами клиентов:
Официальная позиция Google — в гайдлайне по AI-контенту: важно качество, а не способ производства. Но сырой машинный текст распознаётся — и алгоритмами, и читателями. Ниже — как именно.
Языковые маркеры GPT: фразы, которые выдают машину
GPT строит текст из статистически частых оборотов. Звучит по-человечески, но на дистанции абзаца появляются узнаваемые клише. Самые частые «вводные»:
Вторая группа — «канцелярит-обвязка», которой ИИ начинает предложения: с учётом, в рамках, в условиях, исходя из, в контексте, при рассмотрении, в соответствии с. Третья — обобщения-пустышки, которыми GPT заполняет абзац, когда фактов нет:
Если в тексте подряд встречаются такие конструкции и при этом нет конкретных фактов, цифр и примеров — перед вами почти наверняка сырой ИИ. Как добавлять факты правильно — мы разбирали в гайде «ТЗ для копирайтера».
GPT против человека: сводная таблица
| Признак | GPT | Человек |
|---|---|---|
| Структура | Идеально логичная: тезис → обоснование → вывод | Может быть сбитой, импровизированной |
| Тон | Вежливый, академический, без оценок | Эмоциональный, личностный, с юмором |
| Переходы | Явные связки: «тем не менее», «таким образом» | Часто интуитивные, без маркеров |
| Ошибки | Отсутствуют | Встречаются — иногда намеренные |
| Абзацы | Одинаковой длины, симметричные | Неровные: от одной строки до полотна |
| Аргументы | Всегда «по учебнику», без отступлений | Бывают нелогичными, но убедительными |
Машинная логика: правило трёх и идеальная симметрия
Даже если запретить GPT «словечки», логику не обмануть. Человек лажает: ставит странные конструкции, забывает запятые (мой редактор подтвердит). GPT — нет. Отсюда три устойчивых паттерна:
- Правило трёх. «Полезным, структурированным и основанным на фактах» — GPT обожает делить идеи на три элемента: три прилагательных, три пункта, три блока под каждым заголовком (вступление → пояснение → вывод).
- Структурная симметрия. Абзацы одной длины; каждый начинается с вводной и заканчивается связкой к следующему. Мы спросили у самого GPT, почему так, — он ответил: «строю текст как хорошо структурированную статью, по учебнику».
- Чрезмерная вежливость. Вместо «это не работает» — «некоторые пользователи могут считать данный подход недостаточно эффективным в определённых условиях». Категоричность, юмор и сомнение — человеческое; нейтральная дипломатия в каждом предложении — машинное.
Подозреваете, что ИИ-контент уже тянет сайт вниз?
Проверим бесплатным аудитом: найдём проблемные страницы и точки восстановления трафика.
Спецсимволы-улики: что не видно глазу, но видно в коде
Самая надёжная часть нашей системы. Человек физически не вводит эти символы с клавиатуры — а GPT вставляет их постоянно. Откройте текст в HTML-режиме и ищите:
— (—)Длинное тире. У человека — 1–2 на текст. GPT ставит до 19 на страницу.
“ ” (“ ”)«Типографские» кавычки. В живых текстах на сайтах почти не встречаются — человек ставит простые "лапки".
→ (→)Стрелки-символы. Человек рисует стрелку «колхозно»: дефис + знак больше (->).
(0xa0)Неразрывный пробел. Авторы ставят обычные пробелы и не парятся.
’ (’)«Правильный» апостроф вместо человеческого '. Машинная типографика.
… (…)Символ многоточия. Человек ставит три точки подряд...
 Тонкий пробел. Большинство авторов о его существовании даже не знает.
© ® (© ®)Человек напишет (с) или (R) — этих символов нет на клавиатуре.
Улики в вёрстке
- Идеально закрытые теги. Каждый
<p>,<li>,<div>закрыт по стандарту — без единого огреха, который всегда есть у людей. - Механические списки.
<ul><li><p>Текст</p></li></ul>вместо простого<li>Текст</li>. <hr />с закрывающим слэшем и горизонтальные линии-разделители между секциями — фирменный почерк GPT, «каминг-аут перед Google».- Атрибуты data-start / data-end в заголовках и списках — техническая разметка, которую человек не ставит никогда.
Инструменты проверки: с чего начать
Ручной анализ по маркерам — самый точный, но долгий. Для потока работает связка «детектор + выборочная ручная проверка»:
Unmiss AI Detectorбесплатно
Наш инструмент: вставляете текст → получаете не только вердикт, но и разбор, где и чем ИИ «наследил». Создан на опыте этой статьи. Попробовать →
Copyleaks
Один из самых точных коммерческих детекторов, поддерживает русский и украинский. Хорош для потоковой проверки подрядчиков.
Originality.ai
Стандарт западного рынка: детекция ИИ + плагиат в одном отчёте. Платный, заточен под английский.
GPTZero
Популярный академический детектор: оценивает «перплексию» и «всплески» текста. Есть бесплатный лимит.
Кстати, создать собственный инструмент сегодня проще, чем кажется, — мы рассказываем об этом в услуге разработки AI-инструментов. А о том, как использовать ИИ в SEO с умом, — в гайде по ChatGPT для SEO и подборке 50 мега-промптов.
Чеклист ручной проверки: 7 шагов
- Поиск фраз-маркеров. Ctrl+F по тексту: «в современном мире», «стоит отметить», «таким образом». 3+ совпадения — жёлтый флаг.
- Проверка фактов. Есть ли конкретные цифры, имена, примеры? Обобщения без фактов — главный признак «воды» от ИИ.
- Ритм абзацев. Отступите от экрана: если все абзацы визуально одинаковы — это симметрия машины.
- Правило трёх. Посчитайте тройки: три прилагательных, три пункта, три блока на секцию.
- Код-аудит. Откройте HTML: — больше трёх раз, типографские кавычки, data-атрибуты, <hr />.
- Прогон через детектор. Unmiss / Copyleaks / GPTZero — для подтверждения, не вместо головы.
- Тест на пользу. Главный вопрос Google: узнает ли читатель что-то, чего нет в первых трёх результатах выдачи? Если нет — неважно, кто писал.
Тот же подход работает и в обратную сторону — когда нужно «очеловечить» ИИ-черновик: убрать маркеры, добавить факты и личный опыт, сломать симметрию. Как писать коммерческие тексты, которые продают, — в статье о коммерческом контенте.
Зачем это всё: ИИ-текст и видимость в Google и AI-поиске
Парадокс 2026 года: ИИ-поисковики (AI Overviews, ChatGPT, Perplexity) сами не любят цитировать сырой ИИ-контент. Они опираются на источники с экспертизой, фактами и авторитетом — подробно мы разбирали это в статьях про GEO-оптимизацию под GPT и источники внешних ссылок.
- Сырой ИИ-текст → шаблоны, ноль фактов → не цитируется, рискует попасть под «scaled content abuse» из спам-политик Google.
- ИИ-черновик + редактор + факты + опыт → полноценный контент, который ранжируется и цитируется. Способ производства Google не волнует.
Поэтому проверка текста на ИИ — это на самом деле проверка контент-процесса. Детектор ловит не «ИИ», а отсутствие человеческой работы над текстом.
Коротко: система из трёх уровней
- Язык: фразы-маркеры, канцелярит-обвязка, обобщения без фактов.
- Синтаксис: правило трёх, симметричные абзацы, чрезмерная вежливость, идеальная грамматика.
- Код: спецсимволы (—, “ ”, →, ) и машинная вёрстка (data-атрибуты, <hr />).
- Инструменты ускоряют, но не заменяют: вердикт детектора всегда проверяйте по уликам выше.
- Цель — не «поймать ИИ», а не публиковать бесполезный контент: именно за него наказывает Google и игнорирует AI-поиск.
Источники данных
- Google — официальная позиция по AI-контенту: Search and AI content; спам-политики (scaled content abuse): spam policies.
- Unmiss — наш бесплатный AI-детектор с разбором улик: ai-content-detector.
- Copyleaks — AI content detector; Originality.ai — originality.ai; GPTZero — gptzero.me.
Проценты в начале статьи (85% шаблонных фраз, 90% идеальной грамматики, ~25% сайтов с просадкой после ИИ-спама) — внутренние наблюдения SEOquick на проверенных текстах и проектах клиентов; это ориентиры из практики, а не академическое исследование. Списки маркеров и спецсимволов — из нашей работы над детектором Unmiss.