Blog

Story from us


Duis aute irure dolor reprehenderit


2.3.1 Роль электронного словаря для редактирования текстов Компьютерный словарь для СР зачастую создают на основе частотного словаря нужного языка. Это вызвано тем, что слова в тексте по частоте распределяются по закону Ципфа. Этот закон формулируют так: если для какого-то достаточно большого текста составить список слов, употребляемых в нем, посчитать для каждого слова частоту его употребления, разместить слова в порядке убывания этих частот, перенумеровать эти слова от 1 (номер 1 "присваивают наиболее частом слову) до R, то произведение порядкового номера (ранга, r) любого слова списка на его частоту появления в тексте (1) будет почти постоянной величиной © f r = c На практике это означает, что, когда первая тысяча слов частотного словаря покрывает около 75% слов любого текста, то первые две тысячи слов только 80%, первые пять тысяч — только 85% и т. д. То есть, покрытие текста словам частотного словаря происходит очень неравномерно: небольшое количество слов из верхней части частотного словаря покрывает три четверти текста, а большинство слов с нижней его части — остальные, только четвертую часть. Чтобы обеспечить максимальное покрытие текста, которое существенно зависит от семантического наполнения словаря, часто поступают так: в компьютерном словаре выделяют словарь общеупотребительной лексики (общий словарь) и лексику отдельных областей знаний (отраслевые словари). В каждый отраслевой словарь, кроме сроков и номиналов, включают также персоналии (имена и фамилии людей), географические названия, сокращения и аббревиатуры. Далее для контроля текста какой-то конкретной отрасли используют общий словарь, а также подбирают нужный отраслевой словарь. Компьютерные словари, используемые для редактирования текстов, классифицируют по типу лексических единиц — словари словоформ, в которых слова подают во всех их словоизменительной формах, и словари основ, в которых к основанию каждого слова указывают все ее возможные окончания; при наличии блоков для анализа морфем (приставок, суффиксов, окончаний), с помощью которых от основ можно образовывать новые производные слова.



Пишет сайт https://nebo1it.ru