Частотный словарь онлайн с поиском русского языка. Частотный словарь Национального корпуса русского языка: концепция и технология создания

Часто́тный слова́рь (или частотный список) - набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Построение частотных списков

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора (см. Частотный словарь Грибоедова) и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),
всплесках частоты отдельных слов (частота слова в одном тексте может повлиять на его позицию в частотном списке),
сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20 000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частоту. Частота слова и (самого частотного слова русского языка) примерно в 10 раз выше частоты слова о , которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода .

Для описания всплесков частоты можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска , англ. whelk ): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частота в этих текстах будет сравнима с частотой служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частоты можно оценивать с помощью коэффициента вариации : отношения стандартного отклонения к средней частоте.

Сравнение корпусов

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. В связи с тем, что размеры корпусов могут быть различны, более надёжная оценка частоты слов основывается на приведении их к чмс (частота на миллион словоформ, англ. ipm, instances per million words ). Слово и имеет частоту около 30 000 чмс, слово старость - около 30.

Для определения набора ключевых слов, отличающих один корпус от другого можно использовать разные статистические меры: хи-квадрат , отношение правдоподобия (англ. Likelihood-ratio test ) и т. п.

См. также

Литература

Adam Kilgarriff. Putting Frequencies in the Dictionary // International Journal of Lexicography. - 1997. - № 10(2) . - P. 135-155.
Ляшевская О. Н., Шаров С. А.

ЧАСТОТНЫЙ СЛОВАРЬ

вид словаря (См. Словарь) (обычно одноязычного), в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного функционального стиля (См. Стиль), либо для одного автора. В зависимости от типа лексические единицы различаются Ч. с. словоформ, слов (лексем), основ слов (используются в информатике), слов в определённых значениях (семантический Ч. с.), словосочетаний. Различаются абсолютные и относительные характеристики употребительности лексической единицы (x ).Абсолютной характеристикой является частота (f ) данной лексической единицы (х ), равная числу употреблений х в обследованной совокупности текстов f (x ). В Ч. с. приводится либо f (x ), либо нормированная частота

где N - число исследованных слов текста. Относительной характеристикой употребительности лексической единицы является либо её ранг (число лексических единиц, которые в данном Ч. с. имеют абсолютную характеристику употребительности, более высокую или равную абсолютной характеристике данной лексической единицы), либо какой-либо признак, по которому ранг может быть вычислен с большей или меньшей точностью. В большинстве Ч. с. приводятся и абсолютные, и относительные характеристики. Ч. с. используются для создания эффективных методик обучения языку, для выделения ключевых слов (в информатике), для создания рациональных кодов (в теории связи).

Лит.: Ермоленко Г. В., Лингвистическая статистика. Краткий очерк и библиографический указатель, Алма-Ата, 1970; Штейнфельдт Э. А., Частотный словарь современного русского литературного языка, М., 1973; Частотный словарь русского языка, под ред. Л. Н. Засориной, М., 1977; Kučera Н., Francis W., Computational analysis of present-day American English, Providence, 1967; Kvantitativni lingvistika, Statni knihovna ČSSR, 1964-1972; Meier Н., Deutsche Sprachstatistik, Bd 1-2, Hildesheim, 1964; Dictionnaire des fréquences vocabulaire littéraire des XIX et XX siecles, v. 1- 4, P.- Nancy, 1971 (Centre de recherche pour un trésor de la langue française); Bailey R., Doležel L., An annotated bibliography of statistical stylistics, Ann Arbor, 1968.

В котором отобраны наиболее употребительные в речи слова (обычно в пределах нескольких тысяч). В качестве пособия для преподавателей был издан “Частотный словарь современного русского литературного языка” Э. А. Штейнфельдт (1963 г.). В словаре, содержащем 2500 слов, дается список слов по частоте, списки слов по частям речи, с указанием частотности некоторых форм, и общий список слов по алфавиту. В 1968 г. вышел словарь “2380 наиболее употребительных слов русской разговорной речи”, подготовленный преподавателями русского языка Университета дружбы народов им. Патриса Лумумбы. Более полным по составу является изданный в США частотный словарь Г.Г. Йоссельсона (1953 г.), построенный на разнообразном по жанрам материале с общим количеством слов около одного миллиона и содержащий 5230 слов, приводимых в двух списках; в первом указанное количество слов разбито на шесть групп в порядке убывающей частотности употребления, во втором слова расположены в алфавитном порядке, с указанием номера группы, в которой слово представлено в первом списке. При оценке и использовании этого словаря следует иметь в виду, что почти половина обследованных текстов относится к дореволюционному периоду (из них 25% к периоду 1830-1900 гг.), поэтому вытекающие из этого материала лингвостатистические выводы во многих случаях не отражают современное словоупотребление. Особый подбор материала имеется в двух частотных словарях Фр. Малиржа. Один из них (1951 г.) создан на материале советских газет и журналов 1948 г., другой (1961 г.) построен на анализе текстов писем советских школьников к чехословацким; оба преследуют учебные цели. В 1970 г. вышел “Частотный словарь общенаучной лексики” под редакцией Е. М. Степановой, а в 1971 г. “Частотный словарь языка газеты” Г. П. Поляковой и Г. Я. Солганика. Этимологический словарь. Словарь, содержащий слова с объяснением их происхождения. Первым русским этимологическим словарем был “Корнеслов русского языка, сравненного со всеми главнейшими славянскими наречиями и с двадцатью четырьмя иностранными языками” ф. С. Шимкевича (1842 г.). В словаре разработано 1378 корней обиходных русских слов, во многих случаях имеются произвольные сопоставления и ошибочные утверждения. Следующим в хронологическом порядке был “Опыт словаря русского языка сравнительно с языками индоевропейскими” М. Иэюмова (1880 г.), стоявший также на невысоком теоретическом уровне. Выше по качеству, хотя несвободным от неверных объяснений, был “Сравнительный этимологический словарь русского языка” Н. В. Горяева (1892 г.). Наиболее известен из дореволюционных изданий “Этимологический словарь русского языка” А. Г. Преображенского (при жизни автора вышло в 1910- 1916 гг. 14 выпусков, объединенных в два тома; окончание было опубликовано в 1949 г. в “Трудах Института русского языка АН СССР”; словарь полностью переиздан фотомеханическим способом). Словарь содержит объяснение этимологии многих общеупотребительных русских слов и части заимствованных. Как те, так и другие группируются по первообразным словам или по корням. При редко встречающихся словах обычно приводятся ссылки на писателей. Хотя словарь далеко не полон и содержит немало устаревших для нашего времени или просто неверных объяснений, он и сейчас служит важным пособием по этимологии. В 1961 г. вышел “Краткий этимологический словарь русского языка” Н. М. Шанского, В. В. Иванова и Т. В. Шанской, под редакцией С. Г. Бархударова. Словарь, изданный как научно-популярное пособие для учителя средней школы, содержит этимологическое толкование общеупотребительных слов современного русского литературного языка, входящих вего активный запас. При объяснении русских слов обычно приводится последовательность словообразовательного процесса (второе издание вышло в 1971 г., третье, исправленное и дополненное,- в 1975 г.). Для школьной практики предназначались тауже пробный “Школьный этимологический словарь”, созданный коллективом языковедов Калининского государственного педагогического института под руководством Г. М. Милейковской и рассматривающий 180 корней (1957 г.), и словарь “Почему не иначе?” Л. В. Успенского, содержащий занимательные рассказы о жизни слов (1967 г.). В 1970 г. появился “Этимологический словарь русского языка” Г. П. Цыганенке, изданный в Киеве. Словарь имеет научно-популярный характер и в качестве справочного пособия предназначен для учителей-словесников и учащихся средней школы. С 1963 г. стал выходить отдельными выпусками “Этимологический словарь русского языка”, работа над которым ведется в этимологическом кабинете Московского государственного университета под руководством Н. М. Шанского. Словарь, предназначенный для специалистов-филологов, предполагается издать в восьми основных и двух дополнительных томах, в которых будет дана этимология диалектизмов и устаревших слов. Этимологические исследования в области русского языка проводятся и за рубежом. В 1950- 1958 гг. в Гейдельберге отдельными выпусками вышел трехтомный. “Русский этимологический словарь” М. Фасмера (в 1964-1973 гг. под названием “Этимологический словарь русского языка” с дополнениями переводчика О. Н. Трубачева он был издан на русском языке в четырех томах в Москве). Этот словарь является самым обширным из словарей данного типа и содержит, кроме нарицательных существительных, довольно большое количество имен лиц и географических названий. Однако словарь не свободен от неточностей, ошибок, неоправданных сопоставлений. В настоящее время начато издание многотомного “Этимологического словаря славянских языков. Праславянский лексический фонд”, которое осуществляется под редакцией О. Н. Трубачева. В первом выпуске (1974г.) содержится предисловие с изложением принципов реконструкции праславянской лексики, списки литературы и собственно словарь. К типу этимологических словарей примыкает “Краткий топонимический словарь” В. А. Никонова, содержащий сведения о происхождении и судьбе около 4 000 названий наиболее крупных географических объектов СССР и зарубежных стран (1966 г.), а также

“Словарь русских личных имен” Н. А. Петровского, включающий около 2600 личных имен и сообщающий сведения об их происхождении (1967 г.), и “Словарь названий жителей (РСФСР)” (под редакцией А. М. Бабкина), в котором собрано около 6000 названий жителей населенных пунктов Российской Федерации и названий жителей столиц союзных республик (1964 г.), “Словарь названий жителей СССР” (под редакцией А. М. Бабкина и Е. А. Левашова), в приложении к которому приводится также первый опыт собрания названий жителей городов зарубежных стран (1975 г.).

Вторая версия частотного списка

На этой странице Вы можете получить списки наиболее частотных слов русского языка. До настоящего времени Частотный словарь русского языка под ред. Л.Н.Засориной (1977) чаще всего использовался в качестве источника информации о частоте русских слов. Однако корпус, на основе которого была подсчитана частота слов в этом словаре, по современным стандартам очень мал (около миллиона слов). Кроме того, список существенно устарел: он соответствует частоте использования слов в период с 20-х до 60-х годов. В результате корпус включает большое число идеологических источников, например, произведения Ленина и Калинина, Материалы 22 и 23 съездов КПСС, советские газеты. Слова советский и товарищ входят в первую сотню русских слов, наряду со служебными словами (они встречаются чаще слов где, здесь, ваш ), слова партия, революция, коммунистический встречаются чаще чем назад, около, лучше и т.д. Наконец, список слов из словаря Засориной не существует в электронном виде.

Список слов, доступный с этой страницы, содержит примерно 35000 слов с частотой большей 1 ipm (вхождений на миллион слов, instances per million words). Имеется также более короткий список из 5000 наиболее частотных русских слов. Списки используют кодировку кириллицы utf8 и упакованы утилитой WinZip (пользователи Linux или Mac могут использовать StuffIt для распаковки).

Структура списков соответствует формату лемматизированных списков из British National Corpus (BNC) , созданных Адамом Килгарифом, а именно:
порядковый номер, частота (ipm), лемма, часть речи (классификация BNC).

Слова с частотой больше 1 ipm

- словоформы, отсортированные по частоте

Список 5000 наиболее частых слов

- леммы, отсортированные в алфавитном порядке
- леммы, отсортированные по частоте

Некоторые статистические данные об использовании русских слов

Средняя длина слова 5.28 символа.
Средняя длина предложения 10.38 слов.
1000 наиболее частотных лемм покрывает 64.0708% текста.
2000 наиболее частотных лемм покрывают 71.9521% текста.
3000 наиболее частотных лемм покрывают 76.5104% текста.
5000 наиболее частотных лемм покрывают 82.0604% текста.

Более полная информация о соответствии между частотой слова и покрытием корпуса находится .

Список построен на основе представительного корпуса современного русского языка. Он включает в себя подборку современной прозы, политических мемуаров, современных газет и научно-популярной литературы (около 40 миллионов слов, проза составляет примерно чуть больше половины объема). Все тексты корпуса были написаны на русском в промежутке между 1970 и 2002; большинство между 1980 и 1995, газетный корпус 1997-1999 (корпус основан на текстах из Библиотеки Мошкова и корпуса современной публицистики А.В.Баранова).

Хорошо известно, что большие тексты представляют проблему для составления частотных списков, поскольке относительно длинный текст может содержать большое количество вхождений некоторого редкого слова, что существенно увеличит его частоту в итоговом списке. Например, корпус, использованный для составления данного списка, содержит вариацию на тему Толкиеновского "Повелителя Колец" (автор Ник Перумов). Несмотря на то, что длина этого романа составляет 250 тыс.слов, менее одного процента всего корпуса, частота использования слова хоббит в этом романе ставит его в первую тысячу русских слов, если частоту считать по всем текстам без ограничений на их длину. По этой причине частотные списки были составлены при условии, что выборка из больших текстов ограничена 10 тыс. слов, и выборка из текстов одного автора составляет менее 100 тыс. слов. В результате подмножество полного корпуса, использованное при подсчете частоты, составляет около 16 миллионов слов.

Распределение слов в текстах далеко от равномерного. Некоторые слова (например, предлоги) встречаются во многих текстах с вполне предсказуемой частотой. Частота других (например, местоимений или ментальных глаголов) существенно зависит от автора или жанра текста, в то время как многие слова относятся к "заразным": если это слово (например, имя собственное, обозначение человека по званию или должности или технический термин) встретилось в тексте один раз, весьма вероятно, что оно повторится там еще много раз, таким образом, существенно повышая его частоту в документе. Сушествуют разные способы измерения такой вариации (Church, K. and Gale, W. (1995) Poisson Mixtures, Journal of Natural Language Engineering , 1:2). Простейший способ для оценки поведения слова: посчитать коэффициент вариации, который вычисляется как среднеквадратичное отклонение, поделенное на среднее значение. Среднеквадратичное отклонение дает абсолютное значение вариации набора данных (оно увеличивается для слов с большей средней частотой), в то время как коэффициент вариации позволяет сравнить распределение слов с неравной средней частотой. Значения отклонений для 5000 наиболее частотных слов можно посмотреть . Структура файла:
лемма, средняя частота (ipm), число текстов, в которых это слово встречается, среднеквадратичное отклонение частоты по все текстам, коэффициент вариации, дисперсия.

Корпус, средства для работы с ним, а также параллельный англо-русский корпус (выравнение на основе предложения) описаны, в частности, в следующей публикации автора:

Sharoff, Serge, (2002). Meaning as use: exploitation of aligned corpora for the contrastive study of lexical semantics. Proc. of Language Resources and Evaluation Conference (LREC02). May, 2002, Las Palmas, Spain.

Также отдельные частотные списки есть для следующих классов слов:

Создание корпуса, разработка соответствующих программных средств и частотных списков были поддержаны грантом, предоставленным автору Фондом имени Гумбольдта, Германия. Лемматизация для анализа словоформ в корпусе была проведена с помощью морфологического анализатора Диалинг. Поскольку многие словоформы неоднозначны (например, дорогой, были, стали, для, три, уже ), частота некоторых слов не вполне достоверна, например, для рассматривалось как глагол, только если за ним не следует существительное, прилагательное или местоимение, стали всегда рассматривалось как существительное, для супруги всегда выбиралось супруга при возможных супруг и супруги (мн.ч). Критериями для выбора словоформы служили:

частота соответствующей леммы (забрал, стану, подать в качестве существительного крайне маловероятно, поэтому в этих случаях выбирается глагол);
сравнительная частота конкретной формы (обе леммы для стали достаточно частотны, но существительное в отличие от глагола очень часто употребляется именно в этой форме; форму пора приходится считать в предикативном употреблении, в то время как существительное выступает во всех своих остальных формах).

Подобно словарю Засориной фамилии, имена и отчества были отфильтрованы из лемматизированных частотных списков, но географические названия оставлены, поскольку сложно оправдать почему в словаре Засориной оставлены московский или американский , но не Москва и Америка . Частотный список словоформ отфильтрован не был.