16.04.2018

Частота букв в русском языке. Арабские буквы: их порядок и повторяемость


Знаете ли вы, на какую букву начинается больше всего русских слов? На букву «П»!
Посмотрите четырехтомный словарь В. И. Даля - там весь третий том целиком посвящен одной этой букве!

Самое же поразительное, что не только в русском языке, но и во всех европейских языках преобладает она.

Прогуляемся по нашей квартире. Прежде всего припомним, что в старину жилое помещение, дворец, большая квартира назывались ПАЛАТАМИ, это слово сохранилось в названии больничных помещений: больничные палаты. Есть еще судебные палаты, Грановитая палата в Москве.

В палаты мы входим через ПЕРЕДНЮЮ, или ПРИХОЖУЮ, ПЕРЕСТУПАЕМ через ПОРОГ, или ПРИСТУПКУ. В передней висит верхнее ПЛАТЬЕ: платок головной, пальто, плащ, пелерина, палантин (женская накидка на меху или бархате), папаха, плед. Стоит в углу ПАЛКА или ПОМЕЛО… На ПОЛУ ПОСТЕЛЕН ПОЛОВИЧОК. У зеркала ПОДЗЕРКАЛЬНИК. Во времена патриархальные к ПРИТОЛКЕ ПРИБИВАЛИ ПОДКОВУ «на счастье»…

Из прихожей мы попадаем в комнату, которая раньше называлась ПОКОЕМ. От этого осталось название в больницах - «приемный покой».

Посмотрите, сколько ПРЕДМЕТОВ в нашей комнате начинается на букву «П»: пол, потолок, плафон (это французское слово, обозначающее потолок; сейчас у нас так называют светильник на потолке), пылесос, портьеры, подоконник, притолка; на паркетном или пластиковом полу постелен полосатый или пестрый палас; по стенам - панели. На них просвечивают подтеки политуры; по низу - плинтусы с пазами.
В покое (комнате) стоит печка, а в печке поленья.

На простых или полированных полках покоятся переплетенные произведения писателей, поэтов, прозаиков: их поэмы, повести, приключения с прекрасными политипажами.

За полками пыль и паутина…

Палаты бывают парадными, или приемными. Там обычно стояли пианино и пуфы. Раньше вместо приемника или проигрывателя имели патефон, а вместо телевизора - проекционный (волшебный) фонарь.

На письменном столе - перья, промокашка, пресс-папье, папиросы, пепельница, портсигар, или папиросница, пепел…

Лежат письма, пачки бумаги, портфель, потрепанные папки.
Над письменным столом висят портреты писателей, полотна пейзажей. К плотному паспарту приклеен последний портрет Пушкина.

Заглянем в спальню. Когда-то называлась она ОПОЧИВАЛЬНЕЙ, или ПОЧИВАЛЬНИЙ (от «почивать» - отдыхать, спать).

В почивальне - кровать с пружинной или панцирной сеткой, постель (перина, пуховик, перовые или пуховые подушки, простыня, пододеяльник, пикейное покрывало)-, повешены платья, пиджак, панталоны, лежат помочи, или подтяжки, пояс, пажи, подвязки…

На прибитой полочке - помада, пудра, порошок и паста зубная, перламутровые пуговицы, портмоне, пульверизатор. Еще - папильотки, пузырьки, перстень…
Пройдем потихоньку на кухню - раньше ПОВАРНЮ. Помните у Крылова:
Какой-то Повар, грамотей,
С поварни побежал своей…

В ПОВАРНЕ - плита или плитка электрическая (тогда еще и провода, переключатель), примус, полки, поставец с посудой, плошки, пиалы, подстаканники, пробочник, противни, покрышки, помои.

Провизия: пастернак, петрушка, помидоры, перец, простокваша, портулак, похлебка, пироги, пирожки, паштет, пиво, портвейн, плетенка, подливка, повидло, поджарка, плов, пастила, плоды, персики - пища…

Построены ПЕКАРНИ, где пекут пеклеванные хлебцы, пирожные, пирожки, пряники, пышки, пампушки…

Напоследок проследуем в ПОДВАЛ, или ПОГРЕБ. Там постоянно прохладно и пасмурно. На стенах просачиваются пятна плесени…

Возьмем еще военную область.

В старину были пращи, пороки (стенобитные орудия), пики, палицы., палаши, пищали. Потом - пушки, пулеметы, парабеллумы, пистолеты, порох, пистоны, патроны, пули, планшеты, портупеи, погоны, подсумки, в пехотных полках - подпоручики, полковники, прапорщики, походы, приказы, подрывники.

Наконец из чего состоим мы сами, люди?

Начнем с головы: прическа, пробор, пряди. А если мало волос, то плешь, а плешь закрывают париком. Подбородок, переносица.

Затем - предплечье, плечи, перси (грудь), подмышки, пальцы, поясница, позвонки, печень, почки, пузырь, перепонка, пузо, пупок, предстательная железа, пищевод (значит и пищеварение и перистальтика), пазуха, пах, плюсна, подошва и наконец - пятки!
А ведь это наименования далеко не всех окружающих нас предметов!

Что зашифровано в «послании к славянам»? Сколько Государству Российскому стоила буква «ъ»? Кто на самом деле предложил использовать букву «ё»? Открываем тайны русского алфавита.

Послание к славянам

Привычный набор букв русской азбуки на самом деле ни что иное, как «послание к славянам». У каждой из букв кириллицы есть свое название, и если прочесть эти названия в порядке алфавита, получится: “Азъ буки веде. Глаголъ добро есте. Живите зело, земля, и, иже како люди, мыслите нашъ онъ покои. Рцы слово твердо – укъ фърътъ херъ. Цы, черве, шта ъра юсъ яти”. Один из вариантов перевода этого текста таков: “Я знаю буквы: письмо это достояние. Трудитесь усердно, земляне, как подобает разумным людям – постигайте мироздание! Несите слово убеждённо: знание – дар Божий! Дерзайте, вникайте, чтобы сущего свет постичь!”

Непечатная буква


Считается, что буква "ё" пришла в русский язык из французского исключительно усилиями Карамзина. Как будто бы в 1797 году он переделал в одном из стихотворений слово "слiозы" и указал в примечании: "Буква с двумя точками заменяет "iо". На самом деле, буква была предложена к использованию княгиней Воронцовой-Дашковой (весьма образованной дамой, президентом Академии Наук) в 1783 г. На одном из первых заседаний она поинтересовалась у академиков, с чего бы это в слове "ioлка" первый звук изображается двумя буквами. Ни один из великих умов, среди которых были знатные сочинители Гавриил Державин с Денисом Фонвизиным, не решился указать княгине, что звуков-таки два: "й" и "о". Поэтому Дашкова предложила использовать новую букву "для выражения слов и выговоров, с сего согласия начинающихся, как матiорый, iолка, iож, iол". Пик популярности буквы “ё” пришелся на Сталинские годы: в течение целого десятилетия ей оказывался особый почет в учебниках, газетах и переизданиях классиков. Сегодня "ё" чаще увидишь в виде памятника букве(в России их несколько), чем в виде самой буквы в книге или газете.

Гроза гимназистов

Буква "ять" была своеобразной меткой, отличавшей среди русских слов «исконные», славянские. Объектом горячих споров для "западников" и "славянофилов" в вопросе реформы русской орфографии. Настоящем мучением для гимназистов. Впрочем находчивые молодые умы в помощь себе даже сочинили стишок, составленный только из слов с "ять": Б?лый, бл?дный, б?дный б?съ Уб?жалъ голодный въ л?съ. Б?лкой по л?су онъ б?галъ, Р?дькой съ хр?номъ пооб?далъ И за горькiй тотъ об?дъ Далъ об?тъ над?лать б?дъ. Первым за отмену "ятя" в свое время выступил писатель и переводчик Дмитрий Языков: “Буква?... походит на древний камень, не у места лежащий, о который все спотыкаются и не относят его в сторону затем только, что он древний и некогда нужен был для здания”. Но уже в советское время Александр Солженицын, известный своим консерватизмом, ратовал за возврат в русскую грамматику «ятя» вместе с «ером».

Самая дорогая буква

Еръ - "немая" буква, которая не обозначала никакого звука и выполняла функции «твердого знака», который по традиции писался в конце слов после твердых согласных вплоть до орфографической реформы 1918 года Однако при этом "еръ" занимал более 8% времени и бумаги при печати и стоил России ежегодно более 400000 рублей. Настоящая буква-казнокрад, не иначе!

Мiру - мир!

Еще одной страшной мукой для гимназистов были буквы «и» и «i». Правда, когда филологи-реформаторы сели обсуждать, какую из двух букв удалять из русской азбуки, дело решилось голосованием! Настолько несущественными были доводы в защиту каждой из них. Дело в том, что в греческой азбуке «и» и «i» обозначали два различных звука. А в русском языке уже во времена Петра I их невозможно было отличить на слух! Буква «i» в корне встречалась только в слове «мiр» в значении «вселенная». Если подразумевался покой, отсутствие войны - то слово писалось как «мир». Соответственно писались и однокоренные слова: «мирные люди» и «мiровой порядокъ».

Как буква стала словом


В кириллице буква «ф» носила затейливое наименование «ферт». Появилось словосочетание «стоять фертом», подбоченясь, а затем и новое существительное «ферт», и даже уменьшительное «фертик».

Вообще в славянской азбуке было две буквы для обозначения звука «ф» – «ферт» и «фита», но это была настоящая путаница! Слово «Филипп» тогда писались через «ф», а «Фёдор», «арифметика» через «фиту». Поди разберись! (А чтобы разобраться вспомним: в греческом алфавите буква «ф» обозначает звук «пх», а «фита» или «тэта» - «тх»).

Существительное «ферт» со временем стало неодобрительным, полубранным. У А. Чехова: «Тут к нам ездит один ферт со скрипкой, пиликает», у Пушкина: «У стенки фертик молодой стоит картинкою журнальной».

Э!

Буква «э»была узаконена в русской азбуке только в XVIII веке, когда в русский язык стали проникать заимствованные слова со звуком [э] в начале слова, и их написание и прочтение стало вызывать неудобства: как правильно читать – Еврипид или Эврипид, Евклид или Эвклид? Встретили букву неприветливо, а Михаил Ломоносов даже писал, что «если для иностранных выговоров вымышлять новые буквы, то будет наша азбука с китайскую». Но уже в начале XX века «Энциклопедический словарь Ф.Павленкова» для среднего интеллигентного читателя рекомендует: писать пенснэ, кэнгуру, кэтгутъ, кэксъ. Вообще в русском языке осталось ощущение, что «э» - буква чужеземка. Вспомните хотя бы как произносит слово «крЭм» героиня Ирины Муравьевой в фильме «Москва слезам не верит», чтобы подчеркнуть статус косметики: импортный, дефицитный.

Частота применения букв в русском языке

А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных...Причем частота употребляемости гласных букв в языке выше, чем согласных.

Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?

Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования...

Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.


о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Русская буква, имеющая наибольшую частотность в использовании - это гласная «О », как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти » (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».

А в самом начале слов чаще всего встречается согласная буква «П ». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.

Частота использования букв основа криптоанализа.

Написал забавный php-скрипт. Погонял через него все тексты на« Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов - определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом« Спектатора».

Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:

о - 9.28%
а - 8.66%
е - 8.10%
и - 7.45%
н - 6.35%
т - 6.30%
р - 5.53%
с - 5.45%
л - 4.32%
в - 4.19%
к - 3.47%
п - 3.35%
м - 3.29%
у - 2.90%
д - 2.56%
я - 2.22%
ы - 2.11%
ь - 1.90%
з - 1.81%
б - 1.51%
г - 1.41%
й - 1.31%
ч - 1.27%
ю - 1.03%
х - 0.92%
ж - 0.78%
ш - 0.77%
ц - 0.52%
щ - 0.49%
ф - 0.40%
э - 0.17%
ъ - 0.04%

Тем, кто поедет на« Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая« привычная» буква« б» употребляется реже, чем« редкая» буква« ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните:« **а**и*е» и« ср*вн*т*». И в том и в другом случае - это слово« сравните».

И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу - о том и пою. А смысл?.. Как часто вы в нормальной жизни говорите слово« карандаш»? Если задача - научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.

Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке« случайных» четырехбуквенных слов выскочило« осел». В следующей полсотне - слова« мчим» и« нато». Но, увы, очень много неблагозвучных комбинаций, таких, как« блтт» или« нрро».

Поэтому - следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на« нормальные». Например:« коивдиот»,« воабма»,« апый»,« депоид»,« дебяко»,« орфа»,« поеснавы»,« озза»,« ченя»,« риторя»,« урдеед»,« утоичи»,« стых»,« сапоть»,« гравда»,« абабап»,« обарто»,« еелует»,« лярезы»,« мыни»,« бромомер» и даже« тодебыст».

Куда применить... есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа,« мемолисо» или« уторорерто». Или - генератор футуристических стихов« Бурлюк-php»:« опелдиий миатон, линоаз окмиая... деесопен одесон».

И есть еще один вариант. Надо попробовать...

Некоторые статистические данные об использовании русских слов:

  • Средняя длина слова 5.28 символа.
  • Средняя длина предложения 10.38 слов.
  • 1000 наиболее частотных лемм покрывает 64.0708% текста.
  • 2000 наиболее частотных лемм покрывают 71.9521% текста.
  • 3000 наиболее частотных лемм покрывают 76.5104% текста.
  • 5000 наиболее частотных лемм покрывают 82.0604% текста.

После заметки мне пришло вот такое письмо:


Здравствуйте, Дмитрий!

Проанализировав статью« Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
Вами написанный скрипт кажется мне предназначенным абсолютно не для« Поля чудес» в большей мере, а для другого.
Первое самое разумное применение результатов работы Вашего скрипта - определение порядка букв при программировании кнопок для мобильных устройств. Да, да - именно в мобильниках и нужно все это.

Я распределил это по волнам ()

Далее распределение по кнопкам:
1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
3. Все буквы из третьей волны туда же на оставшиеся две кнопки
4. 4,5 и 6 волны уходят во второй ряд
5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).

Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:

А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.

Заранее большое спасибо.

Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.

Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая - служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые« популярные» слова:« и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.

Возвращаясь к клавиатурам - очевидно, что в клавиатуре буквосочетания« не»,« что»,« он»,« на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые« удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.

Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?

Насчет же мобильных устройств... Наверное, it makes sense. По крайней мере, буквы« о»,« а»,« е» и« и» должны точно находиться на одной клавише. Знаки препинания в порядке частоты употребления: , . - ? ! " ; :) (