Счётчик слов и символов
Вставьте текст и получите живой счётчик слов с символами, предложениями, строками, размером в байтах и приблизительной оценкой токенов. Всё работает в вашем браузере.
Ваш текст анализируется локально в вашем браузере для подсчёта и никогда не загружается, поэтому заметки, черновики и промпты остаются на вашем устройстве.
Нужно преобразовать этот текст? Попробуйте конвертер регистра.
Об инструменте Счётчик слов
Этот счётчик слов выдаёт живую статистику в тот момент, когда вы начинаете печатать или вставляете текст. Как счётчик слов и символов он сообщает количество символов с пробелами и без, слов, предложений, абзацев, строк, размер в байтах UTF-8, приблизительную оценку токенов LLM и предполагаемое время чтения примерно при 200 словах в минуту. Подсчёт символов учитывает графемы, поэтому эмодзи или флаг считается за один символ, даже если занимает несколько байтов. Это удобно, чтобы подтянуть meta-описание, уложиться в твит или сообщение коммита, проверить промпт перед отправкой модели или просто держать текст в нужном объёме. Есть также необязательный список самых частых слов. Всё вычисляется локально в вашем браузере, поэтому вставленный текст остаётся на вашем устройстве и никогда не загружается.
Возможности
- Живой подсчёт символов с пробелами и без пробелов по мере набора
- Мгновенно обновляемое количество слов, предложений, абзацев и строк
- Размер в байтах UTF-8, чтобы проверить ограничения на полезную нагрузку и хранилище
- Приблизительная оценка токенов LLM по эвристике ~символы / 4, помеченная как приблиз.
- Оценка времени чтения примерно при 200 словах в минуту
- Подсчёт с учётом графем, поэтому эмодзи и составные глифы считаются за один символ
- Необязательный список самых частых слов с удалением тривиальных стоп-слов
- Кнопка «Копировать статистику» копирует чистую текстовую сводку каждой метрики
Как использовать Счётчик слов
- Вставьте или введите ваш текст в поле «Текст».
- Прочитайте живые карточки статистики для символов, слов, предложений, строк, байтов, токенов и времени чтения.
- Просмотрите необязательный список частых слов, чтобы увидеть, какие термины повторяются чаще всего.
- Нажмите «Копировать статистику», чтобы получить текстовую сводку каждой метрики.
Пример
Ввод
The quick brown fox jumps over the lazy dog. 🦊
Результат
Characters (with spaces): 46
Characters (no spaces): 37
Words: 9
Sentences: 1
Lines: 1
Size (UTF-8): 48 bytes
Tokens (approx): ~12
Reading time: 1 min
Эмодзи лисы считается за один символ, но добавляет четыре байта UTF-8.
Частые ошибки и устранение неполадок
- Количество символов выглядит больше, чем число набранных букв. — По умолчанию подсчёт включает пробелы, знаки препинания и переносы строк; смотрите вторую карточку, «Символы без пробелов», где только буквы и видимые знаки.
- Эмодзи или буква с диакритикой меняет размер в байтах сильнее, чем количество символов. — Символы считаются с учётом графем, а байты — в UTF-8, поэтому один эмодзи — это один символ, но четыре байта; это ожидаемое поведение.
- Число токенов не совпадает в точности с токенизатором вашей модели. — Число токенов — это приближение (примерно символы / 4) и помечено как приблиз.; используйте настоящий токенизатор вашей модели, когда важен точный счёт.
- Количество слов равно нулю, хотя поле не пустое. — Ввод, состоящий только из пробелов, табуляций или пустых строк, не содержит слов; введите видимый текст, и счётчики сразу обновятся.
Часто задаваемые вопросы
- Включает ли подсчёт символов пробелы и переносы строк?
- Основная карточка «Символы» считает всё, включая пробелы, знаки препинания и переносы строк. Отдельная карточка «Символы без пробелов» убирает все пробельные знаки, чтобы вы видели только буквы и видимые символы.
- Как подсчёт символов обрабатывает эмодзи и буквы с диакритикой?
- Подсчёт учитывает графемы с помощью Intl.Segmenter, где он доступен, поэтому эмодзи, флаг или буква с комбинируемым диакритическим знаком считается за один символ, даже если занимает несколько байтов UTF-8.
- Для чего нужна приблизительная оценка токенов?
- Она даёт быструю оценку того, сколько токенов LLM использует ваш текст, по эвристике примерно символы / 4 и помечена как приблиз. Это полезно, чтобы оставаться в рамках контекстного бюджета модели, но не заменяет точный токенизатор модели.
- Как вычисляется время чтения?
- Время чтения делит количество слов примерно на 200 слов в минуту и округляет вверх, поэтому любой непустой текст показывает хотя бы одну минуту. Это грубый ориентир того, сколько занимает чтение отрывка вслух или про себя.
- Чем размер в байтах отличается от количества символов?
- Размер в байтах — это длина текста в UTF-8, которую ограничивают многие API и базы данных. Символы ASCII занимают один байт, буквы с диакритикой обычно два, большинство символов CJK — три, а эмодзи — четыре, поэтому байтов часто больше, чем символов.
- Загружается ли мой текст, когда я его подсчитываю?
- Нет. Счётчик слов работает полностью в вашем браузере, поэтому вставленный текст обрабатывается локально на вашем устройстве и никогда не отправляется на сервер.
Связанные инструменты
Все инструменты ArrayKit