Включает ли подсчёт символов пробелы и переносы строк?

Основная карточка «Символы» считает всё, включая пробелы, знаки препинания и переносы строк. Отдельная карточка «Символы без пробелов» убирает все пробельные знаки, чтобы вы видели только буквы и видимые символы.

Как подсчёт символов обрабатывает эмодзи и буквы с диакритикой?

Подсчёт учитывает графемы с помощью Intl.Segmenter, где он доступен, поэтому эмодзи, флаг или буква с комбинируемым диакритическим знаком считается за один символ, даже если занимает несколько байтов UTF-8.

Для чего нужна приблизительная оценка токенов?

Она даёт быструю оценку того, сколько токенов LLM использует ваш текст, по эвристике примерно символы / 4 и помечена как приблиз. Это полезно, чтобы оставаться в рамках контекстного бюджета модели, но не заменяет точный токенизатор модели.

Как вычисляется время чтения?

Время чтения делит количество слов примерно на 200 слов в минуту и округляет вверх, поэтому любой непустой текст показывает хотя бы одну минуту. Это грубый ориентир того, сколько занимает чтение отрывка вслух или про себя.

Чем размер в байтах отличается от количества символов?

Размер в байтах — это длина текста в UTF-8, которую ограничивают многие API и базы данных. Символы ASCII занимают один байт, буквы с диакритикой обычно два, большинство символов CJK — три, а эмодзи — четыре, поэтому байтов часто больше, чем символов.

Загружается ли мой текст, когда я его подсчитываю?

Нет. Счётчик слов работает полностью в вашем браузере, поэтому вставленный текст обрабатывается локально на вашем устройстве и никогда не отправляется на сервер.

Счётчик слов и символов

Вставьте текст и получите живой счётчик слов с символами, предложениями, строками, размером в байтах и приблизительной оценкой токенов. Всё работает в вашем браузере.

Ваш текст анализируется локально в вашем браузере для подсчёта и никогда не загружается, поэтому заметки, черновики и промпты остаются на вашем устройстве.

Нужно преобразовать этот текст? Попробуйте конвертер регистра.

Об инструменте Счётчик слов

Этот счётчик слов выдаёт живую статистику в тот момент, когда вы начинаете печатать или вставляете текст. Как счётчик слов и символов он сообщает количество символов с пробелами и без, слов, предложений, абзацев, строк, размер в байтах UTF-8, приблизительную оценку токенов LLM и предполагаемое время чтения примерно при 200 словах в минуту. Подсчёт символов учитывает графемы, поэтому эмодзи или флаг считается за один символ, даже если занимает несколько байтов. Это удобно, чтобы подтянуть meta-описание, уложиться в твит или сообщение коммита, проверить промпт перед отправкой модели или просто держать текст в нужном объёме. Есть также необязательный список самых частых слов. Всё вычисляется локально в вашем браузере, поэтому вставленный текст остаётся на вашем устройстве и никогда не загружается.

Возможности

Живой подсчёт символов с пробелами и без пробелов по мере набора
Мгновенно обновляемое количество слов, предложений, абзацев и строк
Размер в байтах UTF-8, чтобы проверить ограничения на полезную нагрузку и хранилище
Приблизительная оценка токенов LLM по эвристике ~символы / 4, помеченная как приблиз.
Оценка времени чтения примерно при 200 словах в минуту
Подсчёт с учётом графем, поэтому эмодзи и составные глифы считаются за один символ
Необязательный список самых частых слов с удалением тривиальных стоп-слов
Кнопка «Копировать статистику» копирует чистую текстовую сводку каждой метрики

Как использовать Счётчик слов

Вставьте или введите ваш текст в поле «Текст».
Прочитайте живые карточки статистики для символов, слов, предложений, строк, байтов, токенов и времени чтения.
Просмотрите необязательный список частых слов, чтобы увидеть, какие термины повторяются чаще всего.
Нажмите «Копировать статистику», чтобы получить текстовую сводку каждой метрики.

Пример

Ввод

The quick brown fox jumps over the lazy dog. 🦊

Результат

Characters (with spaces): 46
Characters (no spaces): 37
Words: 9
Sentences: 1
Lines: 1
Size (UTF-8): 48 bytes
Tokens (approx): ~12
Reading time: 1 min

Эмодзи лисы считается за один символ, но добавляет четыре байта UTF-8.

Частые ошибки и устранение неполадок

Количество символов выглядит больше, чем число набранных букв. — По умолчанию подсчёт включает пробелы, знаки препинания и переносы строк; смотрите вторую карточку, «Символы без пробелов», где только буквы и видимые знаки.
Эмодзи или буква с диакритикой меняет размер в байтах сильнее, чем количество символов. — Символы считаются с учётом графем, а байты — в UTF-8, поэтому один эмодзи — это один символ, но четыре байта; это ожидаемое поведение.
Число токенов не совпадает в точности с токенизатором вашей модели. — Число токенов — это приближение (примерно символы / 4) и помечено как приблиз.; используйте настоящий токенизатор вашей модели, когда важен точный счёт.
Количество слов равно нулю, хотя поле не пустое. — Ввод, состоящий только из пробелов, табуляций или пустых строк, не содержит слов; введите видимый текст, и счётчики сразу обновятся.

Часто задаваемые вопросы

Включает ли подсчёт символов пробелы и переносы строк?: Основная карточка «Символы» считает всё, включая пробелы, знаки препинания и переносы строк. Отдельная карточка «Символы без пробелов» убирает все пробельные знаки, чтобы вы видели только буквы и видимые символы.
Как подсчёт символов обрабатывает эмодзи и буквы с диакритикой?: Подсчёт учитывает графемы с помощью Intl.Segmenter, где он доступен, поэтому эмодзи, флаг или буква с комбинируемым диакритическим знаком считается за один символ, даже если занимает несколько байтов UTF-8.
Для чего нужна приблизительная оценка токенов?: Она даёт быструю оценку того, сколько токенов LLM использует ваш текст, по эвристике примерно символы / 4 и помечена как приблиз. Это полезно, чтобы оставаться в рамках контекстного бюджета модели, но не заменяет точный токенизатор модели.
Как вычисляется время чтения?: Время чтения делит количество слов примерно на 200 слов в минуту и округляет вверх, поэтому любой непустой текст показывает хотя бы одну минуту. Это грубый ориентир того, сколько занимает чтение отрывка вслух или про себя.
Чем размер в байтах отличается от количества символов?: Размер в байтах — это длина текста в UTF-8, которую ограничивают многие API и базы данных. Символы ASCII занимают один байт, буквы с диакритикой обычно два, большинство символов CJK — три, а эмодзи — четыре, поэтому байтов часто больше, чем символов.
Загружается ли мой текст, когда я его подсчитываю?: Нет. Счётчик слов работает полностью в вашем браузере, поэтому вставленный текст обрабатывается локально на вашем устройстве и никогда не отправляется на сервер.

Связанные инструменты

Конвертер регистра — Преобразуйте текст между camelCase, snake_case, kebab-case, PascalCase и другими.
Генератор слагов — Превращение заголовков в чистые, безопасные для URL слаги.
Генератор Lorem Ipsum — Генерируйте абзацы, предложения или слова текста-заполнителя lorem ipsum.
Сравнить текст — Сравнивайте два текста построчно и видите добавления и удаления.
Генератор тестовых данных — Генерируйте фиктивные данные JSON: имена, e-mail, UUID, даты и другое.
Кодирование / Декодирование Base64 — Безопасное кодирование и декодирование Base64 в UTF-8.
Предпросмотр Markdown — Преобразуйте Markdown в HTML с предпросмотром в реальном времени.