Blog

Story from us


Duis aute irure dolor reprehenderit

фильм м ж трейлер

2.3.1 Роль электронного словаря для редактирования текстов Компьютерный словарь для СР зачастую создают на основе частотного словаря нужного языка. Это вызвано тем, что слова в тексте по частоте распределяются по закону Ципфа. Этот закон формулируют так: если для какого-то достаточно большого текста составить список слов, употребляемых в нем, посчитать для каждого слова частоту его употребления, разместить слова в порядке убывания этих частот, перенумеровать эти слова от 1 (номер 1 "присваивают наиболее частом слову) до R, то произведение порядкового номера (ранга, r) любого слова списка на его частоту появления в тексте (1) будет почти постоянной величиной © f r = c На практике это означает, что, когда первая тысяча слов частотного словаря покрывает около 75% слов любого текста, то первые две тысячи слов только 80%, первые пять тысяч — только 85% и т. д. То есть, покрытие текста словам частотного словаря происходит очень неравномерно: небольшое количество слов из верхней части частотного словаря покрывает три четверти текста, а большинство слов с нижней его части — остальные, только четвертую часть. Чтобы обеспечить максимальное покрытие текста, которое существенно зависит от семантического наполнения словаря, часто поступают так: в компьютерном словаре выделяют словарь общеупотребительной лексики (общий словарь) и лексику отдельных областей знаний (отраслевые словари). В каждый отраслевой словарь, кроме сроков и номиналов, включают также персоналии (имена и фамилии людей), географические названия, сокращения и аббревиатуры. Далее для контроля текста какой-то конкретной отрасли используют общий словарь, а также подбирают нужный отраслевой словарь. Компьютерные словари, используемые для редактирования текстов, классифицируют по типу лексических единиц — словари словоформ, в которых слова подают во всех их словоизменительной формах, и словари основ, в которых к основанию каждого слова указывают все ее возможные окончания; при наличии блоков для анализа морфем (приставок, суффиксов, окончаний), с помощью которых от основ можно образовывать новые производные слова.