Технологии обработки текстовой информации

Автор работы: Пользователь скрыл имя, 27 Октября 2012 в 16:42, курсовая работа

Краткое описание

Понятие информация достаточно широко используется в обычной жизни современного человека, поэтому каждый имеет интуитивное представление, что это такое. Но когда наука начинает применять общеизвестные понятия, она уточняет их, приспосабливая к своим целям, ограничивает использование термина строгими рамками его применения в конкретной научной области.

Содержание

Введение……………………………………………………………………..…..3
1. Средства и технологии обработки текстовой информации………………………………………………………………...…….5
1.2 Текстовый процессор…………………………………………………………7
1.3 Редактирование………………………………………………………………..8
1.4 Сохранение документов……………………………………………………..10
1.5 Форматирование документа………………………………………………...12
1.6 Форматирование абзаца……………………………………………………..13
1.7 Нумерованные и маркированные списки…………………………………..14
1.8 Стили форматирования……………………………………………………...15
1.9 Оглавление документа………………………………………………………16
2. Кодирование текстовой информации.
2.1Двоичное кодирование текстовой информации на компьютере…….........18
Заключение........................................................................................................20
Список использованной литературы………………………………………..23

Прикрепленные файлы: 1 файл

информатика.doc

— 121.50 Кб (Скачать документ)

Существует большое  количество редакторов текста – от простых до сложных. Среди наиболее распространенных в мире редакторов выделяется Microsoft Word, Word Perfect, WordStar. Среди простых редакторов текста в России в определенный период времени был распространен ЛЕКСИКОН.

 

 

 

 

 

 

 

 

 

 

 

1.4 Сохранение документов.

 

     В процессе сохранения документов необходимо, прежде всего, в иерархической2 файловой системе компьютера выбрать диск и папку, в которой файл3 документа необходимо сохранить.

Текстовые редакторы  позволяют сохранять документы  во внешней памяти и читать их из внешней памяти в оперативную.

Кроме того необходимо выбрать  формат файла, который определяет способ хранения текста в файле.

Универсальные форматы:

      Формат ТХТ (только текст, расширение в имени файла txt) является наиболее универсальным текстовым форматом.

Файлы, сохранённые в  этом формате, могут быть прочитаны  приложениями, работающими в различных операционных системах. Достоинством этого формата является небольшой информационный объём файлов, а недостатком то, что не сохраняются результаты  форматирования текста.

     Формат RTF  (расширенный текстовый формат, расширение в имени файла rtf) является так же универсальным форматом текстовых файлов, в котором сохраняются результаты форматирования. Недостатком  этого формата является большой информационный объём файлов.

 

 

 

 

 

 

2 – если на диске хранятся сотни и тысячи файлов, то для удобства поиска файлы хранятся в многоуровневой иерархической файловой системе, представляющей собой систему вложенных файлов.

3 – программа или данные, имеющие имя и хранящиеся в долговременной памяти.

 

   Формат DOC  (документ Word , расширение в имени файла doc) является оригинальным форматом текстового редактора Microsoft Word. В этом формате полностью сохраняются результаты форматирования. Этот формат фактически является универсальным, так как понимается практически всеми текстовыми редакторами.

      Формат Web- страница (расширение в имени файла htm или html) используется для хранения Web- страниц в компьютерных сетях, т.к. файлы в этом формате имеют небольшой информационный объём, и при этом сохраняются результаты форматирования.

Современные редакторы  текстов «умеют» автоматически  разбивать текст на страницы и  нумеровать их. Они «следят» за размером полей и регулируют расстояние между  строками, предлагают на выбор варианты шрифтов.

   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.5 Форматирование  документа.

 

Для предоставления содержания документа в более понятной и  выразительной форме применяется  форматирование. Символы4 являются основными объектами, из которых состоит текстовый документ, поэтому, прежде всего, необходимо правильно установить основные параметры, определяющие их внешний вид: шрифт, размер, начертание, цвет.

  Шрифт – это полный набор букв алфавита с общим стилем начертания. Стиль изображения называется гарнитурой. Каждый шрифт имеет своё название, например Times New Roman, Arial и др.

Начертание  шрифта – это дополнительные средства выделения шрифта на печати, например, подчёркивание, курсив, полужирный шрифт.

По способу представления  в компьютере различаются растровые и векторные шрифты. Кроме обычного начертания символов могут применяться полужирное, курсивное и полужирное курсивное начертания.

Размер шрифта – единицей измерения размера шрифта является пункт (1пт=0, 367)мм. Размеры шрифтов можно изменять в больших пределах  (обычно от 1 до 1638 пунктов), причём в большинстве редакторов по умолчанию используется шрифт размером 10 пт.

Цвет символов. Если планируется многоцветная печать документа, то для различных групп символов можно задать различные цвета, выбранные из предлагаемой текстовым редактором палитры.

 

 

 

 

 

4 – минимальная  единица текстовой информации. Каждый символ имеет свой код, соответствие между символами и кодами устанавливается кодировочными таблицами.


 

1.6 Форматирование  абзаца.

      

Абзац выделяет в тексте его часть, представляющую законченный по смыслу фрагмент документа, окончание которого служит естественной паузой для перехода к новой мысли. В компьютерных текстовых документах абзац заканчивается символом конца абзаца. Ввод конца абзаца обеспечивается нажатием клавиши Enter.

Абзац может состоять из любого набора символов, рисунков, и  объектов других приложений. Форматирование абзацев позволяет подготовить  правильно и красиво оформленный  документ.

      Выравнивание абзацев. Выравнивание отражает расположение текста относительно границ полей страницы. Чаще всего используют четыре способа выравнивания абзацев: по левому краю, по центру, по левому краю и по ширине.

    Отступ первой строки (красная строка). Чаще всего абзац начинается отступом первой строки5. Отступ может быть различных типов: положительный, отрицательный и нулевой.

Положительный отступ - первая строка абзаца начинается правее всех остальных строк абзаца, применяется в обычном тексте.

Отрицательный выступ –  первая строка выходит влево относительно остальных строк, применяется в словарях и определениях.

Нулевой – применяется  для абзацев, выровненных по центру, и для обычного текста.

Отступы и интервалы.

Весь абзац целиком  может иметь отступы слева и справа, которые отмеряются от границ полей страницы. Расстояние между строками можно изменять, задавая различные значения междустрочных интервалов.

 

5 - произвольная последовательность символов между левой и правой границами документа.

1.7 Нумерованные  и маркированные списки.

 

Списки являются удобным вариантом форматирования абзацев по единому образцу и применяются для размещения в документе различных перечней.

Автоматическое создание маркированных и нумерованных списков  можно выполнить с помощью  команды Список... в меню Формат, выбрав в открывающемся диалоговом окне Список нужную вкладку (Маркированный, Нумерованный, Многоуровневый), а также необходимый вид маркера или тип нумерации списка. Это же можно сделать и непосредственно соответствующими кнопками (Нумерованный список, Маркированный список).

Нумерованные списки – элементы списка последовательно обозначаются с помощью чисел (арабских или римских) и букв латинского или русского алфавитов.

Маркированные списки –  элементы списка обозначаются с помощью маркеров (специальных знаков).

Многоуровневые списки – можно использовать для отображения иерархических перечней. В многоуровневых списках в пункты списка более высокого уровня вставляются списки более низкого уровня (вложенные списки)

 

 

 

 

 

 

 

 

 

1.8 Стили форматирования.

 

Для каждого абзаца можно  задать свои параметры форматирования абзаца, символов, списков. При таком подходе изменение параметров форматирования для каждого абзаца необходимо производить отдельно и вручную.

Однако при создании многостраничных документов удобнее  использовать стили форматирования. Каждому стилю форматирования присваивается название, и устанавливаются все необходимые параметры форматирования шрифта, абзаца или списка. Если задать параметры стиля форматирования, а затем применить его к выделенному фрагменту документа, то все абзацы выделенного фрагмента автоматически получат параметры форматирования, заданные данным стилем. Если необходимо изменить параметры форматирования абзацев, достаточно изменить параметры форматирования стиля.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1.9 Оглавление  документа.

    

В процессе создания документа  в нем создаются заголовки. Для  того чтобы заголовки отличались по внешнему виду друг от друга, а так  же от основного текста, для них  используются различные стили форматирования.

После создания объёмного  документа целесообразно вставить в документ оглавление, которое позволит лучше ориентироваться в содержании документа. Оглавление представляет собой список заголовков, содержащихся в документе, с указанием страниц.

      Оглавление документа, включающего главы, параграфы и пункты, является многоуровневым  списком, в котором заголовки размещаются на соответствующих уровнях списки. Если составлять оглавление вручную, то после каждого внесения изменений в документ необходимо переделывать и оглавление. В мощных текстовых редакторах оглавление генерируется автоматически.

     Оглавление документа фактически является примером гипертекста, так как щелчок по пункту оглавления принажатой клавише Ctrl приводит к переходу в соответствующее место документа.

  Таблицы.

Таблицы используются при создании текстовых документов, содержащих большое количество однотипных названий, числовых данных или изображений с текстовой подписью.

Строки, столбцы, ячейки.

Таблицы состоят из строк и столбцов, на пересечении которых образуются ячейки. В ячейках таблиц могут быть размещены данные различных типов.

Самый простой способ – нарисовать таблицу.

1-  Войти в меню Таблица и выбрать пункт Нарисовать таблицу. После этого курсор приобретает вид карандаша, которым таблица вычерчивается в тексте.

Создать таблицу в тексте Word можно и другим способом: зайти в меню Таблица и выбрать пункт Создать таблицу, указать точное число нужное число столбцов и строк, после чего нажать ОК.

2-  Рамки таблицы раздвигаются автоматически, по мере заполнения ячеек текстом. Но размер любого элемента таблицы можно всегда изменить вручную, зацепив мышкой и растянув его границы.

3- Воспользовавшись пунктом, Сортировка меню Таблица, можно расположить строки таблицы в нужном порядке.

4-  Вызов Контекстного меню таблицы, дает возможность удаления и добавления столбцов и строк. С помощью пункта Автоформат меню Таблица можно придать таблице более изысканный вид, воспользовавшись Библиотекой табличных форм Word.

Конечно же, назвать Word редактором, идеально приспособленным для работы с таблицами, нельзя. Для работы с таблицами с расширенными возможностями рекомендуется другой компонент Microsoft Office – табличный редактор Excel. Тем более, что Word  и Excel  могут работать  в

тесной связке. В таблицу Excel можно вставить текст Word, и наоборот, таблица, сделанная в Excel, легко вставляется в текст Word.

Вставка документа Excel в  текст осуществляется через кнопку Вставить таблицу Excel на Панели Операций Microsoft Word.

 

 

 

 

 

 

 

 

 

 

2. Кодирование текстовой информации

 

2.1   Двоичное кодирование текстовой  информации в компьютере.

      Информация, выраженная с помощью естественных и формальных языков в письменной форме, обычно называется текстовой информацией.

      Для представления текстовой информации (прописные и строчные буквы русского и латинского алфавитов, цифры, знаки и математические символы) достаточно 256 различных знаков.

      По формуле6:

                                          N = 2I  

 

можно вычислить, какое  количество информации необходимо, чтобы  закодировать каждый знак:

 

  N = 2I  256 = 2I        28 = 2I        I = 8 битов


    

Для обработки текстовой информации на компьютере необходимо представить  её в двоичной знаковой системе. Для кодирования каждого знака требуется количество информации, равное 8 битам, т.е. длина двоичного кода знака составляет восемь двоичных знаков. Каждому знаку необходимо поставить в соответствие уникальный двоичный код из интервала от 00000000 до 11111111 (в десятичном коде от 0 до 255)7 (табл.3.1)

      Человек  различает знаки по их начертанию, а компьютер – по их двоичным кодам. При вводе в компьютер текстовой информации происходит её двоичное кодирование, изображение знака преобразуется в его двоичный код. Пользователь  нажимает на клавиатуре клавишу со знаком, и в компьютер поступает определённая последовательность из восьми электрических импульсов (двоичный код знака).

6 –1, стр. 30-31 


    7 –1, стр. 75

Код знака хранится в  оперативной памяти компьютера, где  занимает одну ячейку. В процессе вывода знака на экран компьютера производится обратное перекодирование, т. е преобразование двоичного кода знака в изображение.

      В существующих кодовых таблицах первые 33 кода (десятичные коды с 0 по 32) соответствуют не знакам, а операциям (перевод строки, ввод пробела и т.д.).

      Десятичные коды с33 по 127 являются интернациональными и соответствуют знакам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Информация о работе Технологии обработки текстовой информации