Индекс читаемости сложный что значит. Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов. Просто, но не слишком просто

Копирайтинг играет значительную роль в продвижении сайтов. Проблема заключается в том, что тексты все чаще пишутся исключительно для поисковых систем, а не для людей. Учитывая новую роль поведенческих факторов, SEO-специалисты стали искать способы «заставить» людей проводить больше времени на страницах сайта. И в ход идут все методы: улучшается юзабилити , уменьшается время загрузки страницы, но многие забывают о самом главном — о контенте. О том, насколько легко читать тексты на сайтах. Для того, чтобы что-либо улучшить, нужно проанализировать текущее состояние. Если мы говорим о текстах — существует понятие: индекс читабельности («удобочитаемость» или «ридабилити»).

Удобочитаемость («читабельность») — свойство текстового материала, характеризующее лёгкость восприятия его человеком.

Наиболее популярная метрика для оценки читабельности — индекс Флеша . Рудольф Флеш предложил семь рекомендаций, соблюдение которых позволит сделать текст читабельным, понятным и интересным. Эти правила часто называют афоризмами Флеша:

1. Используйте допустимые сокращения.

2. По возможности составляйте предложения без использования слова «что».

3 . Используйте местоимения «я», «мы», «они» и «вы».

4. Ссылаясь на какое-то понятие, выраженное существительным, повторите само слово или используйте соответствующее местоимение; не стоит искать красочную замену.

5. Используйте краткие, ясные предложения.

6. В параграфе должен освещаться только один вопрос.

7. Пишите на языке, понятном читателю. Индекс ридабилити англоязычных SEO-текстов можно вычислить по формуле:

Где: ASL — средняя длина предложения в словах; ASW — средняя длина слова в слогах.

В связи с тем, что в русском языке средняя длина предложения меньше, а слова в среднем длиннее, была принята следующая формула:

Для корректной работы формулы необходимо анализировать не менее ста слов. Интересно, что по этому индексу можно узнать, на какую аудиторию ориентирован тот или иной текст:

до 80 — примитивный уровень, усваивается даже детьми; 60-65 — лёгкое чтиво, уровень газет и журналов; 50-55 — уровень деловой литературы, профессиональных и отраслевых изданий, качественной художественной литературы; 30 и ниже — уровень научных трактатов.

Еще одна метрика, которую можно использовать — Индекс Фога . Она, кстати, активно используется в американской журналистике.

Fi = (Nws + Nwt) х 0,4

Где: Nws — среднее число слов в предложении текста; Nwt — среднее число слов с длиной 3 и более слогов (приходящихся на одно предложение текста). Есть также и много других метрик, но, увы, они неприменимы для русского языка. Проверить англоязычный текст на читабельность можно с помощью многочисленных онлайн инструментов, например, этим или этим . Есть подобный сервис и для проверки на читабельность русскоязычных текстов (в стиле web 1.0). Более подробно об этом и других малоизвестных метриках в SEO я расскажу в докладе на конференции «8P».

В современной журналистике для определения уровня читаемости используют показатель Fog Index (Фог-индекс):

Fi = (X + Y) х 0,4,

где Х – среднее количество слов в предложении текста,

Y – среднее количество слов с длиной три и более слогов в предложении текста (будем обозначать их «слова 3+»).

При подсчете количества слов необходимо учитывать следующее:

1. цифры не считаем, так как они не снижают восприятие;

2. сложные слова через дефис считаем как одно слово.

Значение Fi оценивается следующим образом:

· от 0 до 4 – высокая читаемость,

· от 4 до 7 – средняя читаемость,

· выше 7 – низкая читаемость.

Для примера проанализируем читаемость трех небольших (для упрощения задачи) рекламных текстов.

Все, как в элитарном клубе. Джентльмены говорят о хобби. Здесь в атмосфере роскоши и комфорта Вы сможете забыть о делах. Посвятите свое время часам. Уникальным часам, достойным истинного ценителя. Ведь Cassaforte – клуб избранных.

6 предложений,

Х = 33: 6 = 5,5 ;

Y = 14: 6= 2,33

Fi = (5,5 + 2,33) х 0,4= 3,13.

Вывод: читаемость высокая.

Проанализируем читаемость данного текста по уровням. Анализ представлен в таблице 3.2.

Таблица 3.2

Уровень читаемости Характеристика Оценка характеристик Оценка читаемости Общая оценка уровня
Лексический 7 (21,2 %) средняя средняя
много низкая
высокая
мало высокая
Морфологический 1. количество глаголов 4 на 33 слова (12%) высокая средняя
4 на 33 слов (12%) средняя
3. количество аффиксов среднее среднее
Синтаксический 1. длина предложения 5,5 высокая высокая
2. уровень сложности из 6 предложений – 6 простых (100%) высокая
3. осложняющие элементы 2: 6 предложений (33%) высокая

Общий вывод по уровням: читаемость средняя.

Как мы видим, показатель читаемости Fog Index высокий, а по уровням – средний. Такое расхождение связано с тем, что при расчете Fog Index учитываются только две характеристики – длина слов и длина предложений. Анализ по уровням учитывает гораздо большее число факторов. Поэтому эти две части анализа читаемости дополняют друг друга.

Яркий дизайн влюбляет в себя с первого взгляда. Мощь и динамика завораживают. Выразительная внешность и спортивный характер - вот в чем сила Mazda. Один взгляд - и сердце забьется чаще. Ведь это мистическая сила.



5 предложений,

Х = 32: 5 = 6,4 ;

Y = 9: 5= 1,8;

Fi = (6,4 + 1,8) х 0,4= 3,28.

Вывод: читаемость высокая.

Проанализируем читаемость данного текста по уровням. Анализ представлен в таблице 3.3

Таблица 3.3

Уровень читаемости Характеристика Оценка характеристик Оценка читаемости Общая оценка
Лексический 1. количество длинных слов (4+) 4 (12,5 %) средняя средняя
2. количество абстрактных слов среднее количество средняя
3. количество иноязычных слов высокая
4. количество редко употребляемых слов мало высокая
Морфологический 1. количество глаголов 3 на 32 слова (9,3%) средняя средняя
2. количество предлогов и частиц 3 на 32 слова (9,3) высокая
3. количество аффиксов среднее средняя
Синтаксический 1. длина предложения 6,4 высокая высокая
2. уровень сложности из 5 предложений – 5 простых высокая
3. осложняющие элементы 2:5 предложений (40%) средняя

Случайно наткнулся на статью об Индексе Флеша-Кинкейда. Как говорит нам Википедия: «индекс удобочитаемости - мера определения сложности восприятия текста читателем».

Их всего два: Флеша и Флеша — Кинкейда. Первый — показывает легкости чтения, а второй — уровень образованности читающего, нужный для прочтения текста.

Оба показателя рассчитаны исключительно на английский язык и американский уровень образования. В чем разница? В длине слов, предложений и слогов. Но были попытки улучшить этот индекс для русского языка, сравнивая английские тексты с их переводом.

Индекс Флеша

Рассчитывается он по такой формуле:

total words — количество слов
total sentences — количество предложений
total syllables — количество слогов
Все остальные цифры остаются на своих местах.

Либо вот так:

206.835 − (1.015 × ASL) − (84.6 × ASW), где
ASL — средняя длина предложения в словах,
ASW - средняя длина слова в слогах.

У нас получился показатель удобочитаемости. Измеряется он 0 до 100.

0 — очень сложный текст,
100 — очень легкий текст.

Индекс Флеша — Кинкейда

Существует также, будем его называть так, ИФК. Он позволяет посчитать какой уровень образованности нужен для прочтения текста. Опять же, все это рассчитано на английский язык и уровень образования в США.

Формулы похожи, но постоянные переменные другие.

Вот, например, на AIN, где я и наткнулся на статью об это показателе, есть примеры:

  • Проект реформы здравоохранения – 13
  • Академическая статья о чтении – 11,5
  • Джоан Роулинг – 5,5
  • Стивен Кинг – 6,1


Федеральный закон РФ «Об охране здоровья граждан от воздействия окружающего табачного дыма и последствий потребления табака»

Автоматический индекс удобочитаемости (Automatic Readability Index/ARI)

Этот индекс определяет удобочитаемость так: количество знаков делится на количество слов с пробелами, потом количество слов - на число предложений. По ARI тексты бывают 14 уровней удобочитаемости: первый доступен ребенку от 6 до 9 лет, последний - 14-летнему школьнику-американцу. Считается, что к моменту окончания школы выпускник должен свободно понимать тексты 12-го уровня сложности.

СТИХОТВОРЕНИЕ ПУШКИНА «ЗИМНЕЕ УТРО» ПОНЯТНО ДЛЯ ЧИТАТЕЛЕЙ 9–11 ЛЕТ


А.С.Пушкин «Зимнее утро»

Индекс Колмана - Лиау (Coleman - Liau Index)

Индекс Колмана - Лиау, так же как и ARI, учитывает среднее количество знаков и предложений на 100 слов текста. Его часто используют для оценки больших объемов текста: чтобы получить результат, не нужно делить текст на слоги, достаточно с помощью сканера выявить отдельные знаки и границы предложения. При этом полного распознавания символов не требуется.

Текст Задорнова рассчитан на подростков 12–14 лет


М.Задорнов «Умом Россию не поднять»


Простое измерение
сложности текста (Simple Measure of Gobbledygook)

Чтобы определить индекс удобочитаемости, считают число предложений в тексте и количество «сложных слов» (больше трех букв) в каждом. Главный недостаток формулы - получить относительно точный результат можно, если текст длиннее тридцати предложений.

Германа Мелвилла могут прочитать и понять дети
9–11 лет


Г.Мелвилл «Моби Дик, или Белый кит»

Формула Дейла - Челла (Dale - Chall Readability Formula)

Изначально программа ориентировалась на список из 763 слов, которые обязан понимать каждый среднестатистический американский студент к последнему году обучения. Слова, которых в этом списке нет, считаются сложными для понимания. Со временем формула совершенствовалась, и к 1995 году список слов расширился до 3 000 слов.

Текст, который вы только что прочли, доступен для понимания аудитории 15–16 лет


Текст, который вы сейчас читаете

Подробности Создано: 12.04.2014 20:02 Обновлено: 10.03.2019 18:32 Опубликовано: 12.04.2014 20:02

В последнее время многие студенты столкнулись с проблемой о которой хотелось бы сегодня поговорить. Проблема эта связанна с проверкой работ на уникальность в самом распространенном в России сервисе проверки студенческих работ – сайте antiplagiat.ru.

В настоящее время сайт antiplagiat.ru внес ряд дополнений после которых некоторые документы отображаются в системе проверки как «Подозрительный документ». Вроде и процент уникальности может быть высокий, но файл светится красным и возле названия работы отображается восклицательный знак который и сигнализирует по мнению авторов данного новшества преподавателю что с документом что-то не так.

Если нажать на значек "Подозрительный документ" то откроется информация о документе в которой можно увидеть причину того почему сайт распознает документ подозрительным, по факту их четыре:

Причин связанных с этим на самом деле может быть очень много, но разве преподаватель будет заморачиваться и разбираться какая именно у Вас причина появления данного значка.

Вот что нам ответили создатели данного ресурса:

«Появление данного знака говорит о том, что нужно более внимательно отнестись к данному документу. Возможно, были попытки обхода системы. Возможно в тексте присутствует слишком много иностранных слов, либо слов, где превышена средняя длина слова. Такое возможно в работах, где используется много терминов (работы по химии, юриспруденции, например). В отчете ВУЗа есть текстовые статистики, на основе которых и появляется этот знак (индекс читаемости, максимальная длина слова и пр.). Появление данного знака и выделение документа всего лишь дает сигнал преподавателю более внимательно отнестись к данному тексту. Однако не факт, что работа действительно сделана так, чтобы обойти систему. Отбор работ проводится на основании определённых показателей-индикаторов в текстовых статистиках, которые можно увидеть, открыв отчет в ВУЗе. Однако все эти индикаторы не дают точного «приказа» забраковать этот текст. Они просто дают повод преподавателю более внимательно и серьезно отнестись к проверке данной работы. Если преподаватель этого не знает, он может написать нам письмо и мы ему об этом расскажем. Преподаватель не должен ориентироваться только на проценты и появление данного знака, он также должен открывать отчет и просматривать его».

Вот что пишут недовольные данным новшеством люди:

Давайте теперь попытаемся разобраться с чем это может быть связанно и как с этим бороться, как убрать этот «Подозрительный знак» и сделать наш файл обычным.

Чаще всего это бывает из-за того что в тексте встречаются длинные, сложные или иностранные слова, например, "социометриия", "либерализированный", GlobalFinance и прочие, которые не распознает автоматическая проверка орфографии.

Все слова которые ворд подчеркивает красным, типа с ошибкой. Как показывает практика так же это и все слова которые длиннее 10 букв, в общем все очень длинные слова нам и нужно будет менять на синонимы или разделять на 2-3 слова для того чтобы в конце наш текст стал понятным программе проверки и он перестал выделяться «Подозрительным документом».

Итак подведем итог, что нам делать чтобы файл стал нормальным и прошел проверку.