Автор работы: Пользователь скрыл имя, 31 Марта 2015 в 13:42, реферат
Законы Зипфа описывают закономерности частотного распределения слов в тексте на любом естественном языке. Их опубликовал в 1949 году американский лингвист Джордж Зипф. Законы эмпирические – они не имеют строго математического доказательства и основаны на статистическом анализе распределения слов в больших массивах текстов на разных языках. Тем не менее, статистически их вероятность не вызывает никаких сомнений.
Законы Зипфа 3
Первый закон Зипфа "ранг - частота" 3
Второй закон Зипфа "количество - частота" 4
Частотные словари 7
Программа Tropes 10
Извлечение релевантной информации 10
Качественный анализ и категоризация 10
Хронологический анализ 10
Текстовые сокращения 10
Природный менеджер онтологии языка 10
ФГБОУ ВПО
«Иркутский государственный лингвистический университет»
РЕФЕРАТ
Группа: ЛБ1-11-01
2013г
Оглавление
Законы Зипфа описывают закономерности частотного распределения слов в тексте на любом естественном языке. Их опубликовал в 1949 году американский лингвист Джордж Зипф. Законы эмпирические – они не имеют строго математического доказательства и основаны на статистическом анализе распределения слов в больших массивах текстов на разных языках. Тем не менее, статистически их вероятность не вызывает никаких сомнений.
Все созданные человеком тексты построены по единым правилам, внутренняя структура текста останется неизменной. Зипф предположил, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Зипф вывел два универсальных закона.
Выберем любое слово и посчитаем, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. Измерим частоту каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними - 2 и т.д. Ткнем наугад в страницу и определим вероятность встретить слово, на которое пал выбор. Вероятность будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.
Вероятность = Частота вхождения слова / Число слов
Зипф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна!
С = (Частота вхождения слова х Ранг частоты) / Число слов
Если мы немного преобразуем формулу, а потом посмотрим в справочник по математике, то увидим, что это функция типа y=k/x и ее график -- равносторонняя гипербола. Следовательно, по первому закону Зипфа, если самое распространенное слово встречается в тексте, например, 100 раз, то следующее по частоте слово вряд ли встретится 99 раз. Частота вхождения второго по популярности слова, с высокой долей вероятности, окажется на уровне 50.
Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, например, для английских текстов константа Зипфа равна приблизительно 0,1. Интересно, как выглядят с точки зрения законов Зипфа русские тексты? Они не исключение. Для русского языка коэффициент Зипфа получился равным 0,06-0,07. Хотя эти исследования не претендуют на полноту, универсальность законов Зипфа позволяет предположить, что полученные данные вполне достоверны.
Рассматривая первый закон, мы отмахнулись от факта, что разные слова входят в текст с одинаковой частотой. Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) -- количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов. Как и в предыдущем случае, это утверждение верно в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной. Могут немного отличаться лишь коэффициенты, отвечающие за наклон кривой [рис. 1] (в логарифмическом масштабе, за исключением нескольких начальных точек, график - прямая линия).
Рисунок 1
Законы Зипфа универсальны. В принципе, они применимы не только к текстам. В аналогичную форму выливается, например, зависимость количества городов от числа проживающих в них жителей. Характеристики популярности узлов в сети Интернет тоже отвечают законам Зипфа.
Что дают нам законы Зипфа? Как с их помощью извлечь слова, отражающие смысл текста? Воспользуемся первым законом Зипфа и построим график зависимости ранга от частоты. Как уже упоминалось, его форма всегда одинакова [рис. 2].
Рисунок 2
Исследования показывают, что наиболее значимые слова лежат в средней части диаграммы. Это и понятно. Слова, которые попадаются слишком часто, в основном оказываются предлогами, местоимениями, в английском - артиклями и т.п. Редко встречающиеся слова тоже, в большинстве случаев, не имеют решающего смыслового значения.
От того, как будет выставлен диапазон значимых слов, зависит многое. Поставь широко - нужные термины потонут в море вспомогательных слов; установи узкий диапазон - потеряешь смысловые термины. Каждая поисковая система решает проблему по-своему, руководствуясь общим объемом текста, специальными словарями и т.п.
Проанализируем выделенную нами область значимых слов. Не все слова, которые попали в нее, отражают смысл текста. Смысл абзаца очень точно выражают слова: зипфа, манускриптов, войнича, законам. Запрос типа: + "закон* зипфа" + "манускрипт* войнича" непременно найдет нам этот документ. Однако в область попали и слова: на, не, для, например, это. Эти слова являются "шумом", помехой, которая затрудняет правильный выбор. "Шум" можно уменьшить путем предварительного исключения из исследуемого текста некоторых слов. Для этого создается словарь ненужных слов - стоп-слов (словарь называется стоп-лист). Например, для английского текста стоп-словами станут термины: the, a, an, in, to, of, and, that... и так далее. Для русского текста в стоп-лист могли бы быть включены все предлоги, частицы, личные местоимения и т. п. Наверняка попали бы и слова из нашего "шума": на, не, для, это.
Частотный словарь - вид словаря, в котором приводятся числовые характеристики употребительности слов (словоформ, словосочетаний) какого-либо языка, в т. ч. языка писателя, какого-либо произведения и т. п. Обычно в качестве характеристики употребительности используется частота встречаемости слова в тексте определенного объема.
Единственным источником для частотного словаря является текст, т.к. именно в речи, реализованной в предложениях, формируется и оформляется язык.
Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д.
Частотные словари используются:
- для преподавания языка,
- создания новых словарей,
- приложений компьютерной лингвистики,
- исследований в области лингвистической типологии, и т. д.
Главное отличие частотного словаря от любого другого, прежде всего, в том, что вместе со словом в нем приводится и частота употребления этого слова в тексте. Слова могут идти либо в алфавитном порядке, либо по убыванию частот. Частотный словарь может быть полным, когда в нем приводится список всех слов, встретившихся в тексте, и неполным, когда дается лишь список слов, встретившихся с определенной частотой.
Объем материала, в значительной мере влияет и на состав словаря. В зависимости от того, сколько тысяч или миллионов слов текста обследовалось — или просчитывалось на электронно-вычислительной машине — выделяют малые, средние и большие частотные словари (так, первые частотные словари английского языка были, безусловно, малыми, а словари, составленные по текстам в восемнадцать миллионов слов, относились к большим).
Однако на словарь влияет и стиль, и тематика, и жанр, и авторская принадлежность того или иного текста. Вот почему различают частотные словари устной и письменной речи, словари общие и отраслевые. Есть словари отдельных произведений, как классиков, так и современных авторов. Составлены «персональные» частотные словари — Пушкина, Шекспира, Шевченко и других.
В словаре фиксируется: исходная форма слова, словоформа (то есть слово в различных грамматических формах), основа слова или словосочетание. В таких языках, как китайский, разница между словарем основ и словоформ практически неощутима. В английском языке она уже заметна. Когда же мы обращаемся к такому языку, как русский, где множество падежей, глагольных форм и т. д., различие между исходной формой слова и словоформой огромно.
Частоты, приводимые рядом со словами, также различны. Это может быть абсолютная частота, указывающая, сколько раз в тексте встретилось то или иное слово. Частота эта может быть относительной, выраженной в процентах или вероятностях (ведь объемы словарей могут быть разными, в зависимости от них различны и абсолютные частоты). Во многих словарях приводятся и другие числовые характеристики, например количество источников, в которых встретилось то или иное слово.
Наконец, словари могут различаться по способу анализа материала. Обычно их составляют на основании выборок. Это могут быть отрывки из произведений различных авторов — писателей и драматургов, ученых и публицистов.
Однако есть и другой метод — сплошное расписывание текста. Именно так составляется словарь языка писателя. Подобного рода словари начали составляться давно. В них включаются все слова, которые употребил тот или иной автор в своих произведениях.
Словарь языка писателя нетрудно сделать и частотным — для этого надо только указать, как часто употреблялось то, или иное слово. Например, все тексты А.С. Пушкина содержат около 600 000 слов (из них 21 290 слов - различные).
Частотные словари могут составляться не только для слов, но и для отдельных букв или их сочетаний. Таким образом, было выявлено, что самыми часто употребляемыми буквами в русском языке являются 2 буквы: буква о и буква е.
Некоторое время назад стало известно, что с помощью частотных словарей языков можно прогнозировать скорость эволюции отдельных слов в языке. Чем чаще слово употребляется в речи, тем меньше скорость его "мутации", в то же время, редко используемые слова подвержены наибольшим изменениям. Из наиболее стабильных слов, которых обычно, насчитывается порядка 200, составлены словари, поражающие воображение очевидным подобием слов в разных языках, например: water, wasser, vatten, wato, вода.
В настоящее время существует много различных программ для создания частотных словарей, например:
WORDS Utils 1.2 MyVoc Studio v5.9
OS Linux
OS Windows Wordstat
Они позволяют быстро обработать огромное количество текстов и автоматически составить частотный словарь, на основе исследуемого материала.
Программа предназначена для семантической классификации, выделения ключевых слов, лингвистического и качественного анализа. Данное программное обеспечение является идеальным инструментом для исследований в области информационных технологий, исследования рынка, социологического анализа, научных и медицинских исследований и др.
Tropes может сразу же выявить контекст, выделить темы и определить главных действующих субъектов за счет применения трех уровней семантической классификации. Вы можете быстро определить, кто кому что говорит, кто что делает, где и когда, и с какой целью.
Tropes определяет стиль текста для того, чтобы поместить его в контекст и быстро сравнить его с другими текстами. Tropes использует семантические мета-категории для группировки глаголов, прилагательных, наречий, личных местоимений и союзов.
Tropes осуществляет хронологический анализ текста, из которого могут быть выделены главные эпизоды, визуализированы дискуссионные блоки и реализовано развитие идеи.
Tropes распознает небольшую группа "Основные предлоги", встречающиеся в тексте, который он резюмирует, без самоповторения.
«Сценарный инструмент» Tropes представляет собой интеллектуальный менеджер тезаурус на основе семантических сетей и технологий текстуального анализа, снабженный несколькими готовыми к использованию классификациями.