Формат ms word что это
Перейти к содержимому

Формат ms word что это

  • автор:

Формат ms word что это

What’s on this Page

.DOC вариант №

Файлы с расширением .doc представляют собой документы, сгенерированные Microsoft Word или другими текстовыми редакторами в двоичном формате. Первоначально расширение использовалось для текстовой документации в нескольких различных операционных системах. Он может содержать несколько различных типов данных, таких как изображения, форматированный, а также обычный текст, графики, диаграммы, встроенные объекты, ссылки, страницы, форматирование страниц, настройки печати и многое другое. Этот формат был популярен для всех видов документации из-за множества вариантов, которые он предлагает пользователям для написания руководств, предложений, спецификаций, резюме, статей или любых подобных документов. Обновленная версия DOC — DOCX основана на Office OpenXML, спецификации которого находятся в открытом доступе.

Краткая история

WordPerfect, продукт Corel, использовал DOC как расширение собственного формата. В 1980-х годах WordPerfect по-прежнему использовался на большинстве компьютеров из-за его легкой доступности, совместимости с большинством компьютеров и операционных систем. Однако WordPerfect потерпел крах в ОС Windows, когда Microsoft представила Microsoft Word в качестве своего продукта для формата файлов документов и выбрала расширение DOC для своего проприетарного формата. Поскольку Microsoft Word становился все более и более популярным, формат файла DOC претерпел несколько изменений по сравнению с Microsoft Word 97 — 2003. Это был 2007 год, когда формат файла DOC по умолчанию был заменен форматом Office Open XML (известным как DOCX) и новыми версиями Microsoft Word теперь использует это новое расширение в качестве формата файла по умолчанию.

Спецификации формата файла DOC — дополнительная информация

Microsoft не выпускала спецификации формата файлов DOC долгое время до 2008 года. В феврале 2008 года спецификации формата были выпущены для формата файлов .doc в рамках Microsoft Open Specification Promise. Хотя спецификация не описывает все функции, используемые форматом DOC, она дает достаточно информации о знаниях, необходимых для работы с этим форматом файлов. Тем не менее, для использования доступной информации требуется обратный инжиниринг. Спецификации обновлялись несколько раз, и последняя редакция — 8.0, обновленная по состоянию на август 2018 г. .

Некоторые основные понятия

Прежде чем мы углубимся в подробности спецификаций формата файлов для DOC, необходимо понять некоторые фундаментальные концепции, чтобы работать с этим форматом файлов.

Информационная база файлов (Fib): Структура Fib содержит информацию о документе и определяет файловые указатели на различные части, составляющие документ. Фибоначчи — это структура переменной длины. За исключением базовой части, размер которой фиксирован, каждому разделу предшествует поле счета, которое определяет размер следующего раздела.

Позиция символа: CP или позиция символа представляет собой 32-разрядное целое число без знака, которое служит отсчитываемым от нуля индексом символа в тексте документа. Расположение и размер каждого символа в файле не могут быть получены напрямую и должны быть вычислены с использованием заранее заданного алгоритма. Персонажи включают:

  • Текст документа
  • Якоря объектов, таких как сноски или текстовые поля
  • Управляющие символы, такие как метки абзаца и метки ячеек таблицы

ПЛК: Структура ПЛК представляет собой массив CP, за которым следует массив элементов данных. Элементы данных для любого ПЛК должны иметь одинаковый размер — ноль или более байтов, и по этой причине количество CP должно быть на единицу больше, чем количество элементов данных. Структуры ПЛК бывают разных типов, каждый из которых указывает, разрешены ли дублирующие CP для этого типа или нет. Структура ПЛК состоит из:

  • aCP (переменная длина): Массив элементов CP. Каждый тип структуры PLC определяет значение элементов CP и допустимый диапазон.
  • aData (переменная длина): Каждый тип структуры PLC определяет структуру и значение элементов данных, любые ограничения на количество элементов данных и любые ограничения на содержащиеся в них данные. Он также определяет взаимосвязь между элементами данных и соответствующими CP.

Действительный выбор: Конструкции файлов .DOC в основном описываются рядом CP. Существует ряд правил, указанных Microsoft для соблюдения в таком случае.

STTB: STTB — это таблица строк, состоящая из заголовка, за которым следует массив элементов. Значение cData указывает количество элементов, содержащихся в массиве.

Хранение свойств: В текстовом файле могут быть различные элементы, такие как текст, абзацы, таблицы, изображения и разделы, каждый из которых может иметь свои собственные свойства. Их свойства сохраняются в файле Word как отличия от значений по умолчанию. Такие различия определяются PR1, состоящим из модификатора одного свойства (Sprm) и его операнда. Приложение может определить окончательный набор свойств путем применения списков Prls.

Защита паролем. Файлы Word также могут быть защищены паролем, для чего можно использовать один из следующих механизмов.

  • Обфускация XOR
  • Шифрование двоичных документов Office RC4
  • Шифрование двоичного документа Office RC4 CryptoAPI

Если FibBase.fEncrypted и FibBase.fObfuscation равны 1, файл запутывается с помощью запутывания XOR.

Если FibBase.fEncrypted равен 1, а FibBase.fObfuscation равен 0, файл шифруется либо с помощью шифрования Office Binary Document RC4, либо с помощью шифрования Office Binary Document RC4 CryptoAPI, при этом EncryptionHeader хранится в первых байтах FibBase.lKey потока таблицы. EncryptionHeader.EncryptionVersionInfo указывает, какой механизм шифрования использовался для шифрования файла.

Структура файла

Бинарный файл Word по своей оригинальности представляет собой составной OLE-файл, состоящий из нескольких хранилищ и потоков. Эти хранилища и потоки имеют свою структуру и размеры, задающие параметры записи и чтения. Это:

Поток WordDocument

Этот поток содержит текст документа и другую информацию, на которую ссылаются другие части файла. Поток не имеет предопределенной структуры, кроме FIB в начале, который является обязательным и должен иметь смещение 0. Этот поток не должен превышать 2147 МБ.

1TableStream или 0TableStream

Двоичный файл Word может содержать потоки таблиц, известные как поток 1Table или поток 0Table. Хотя бы один из них должен присутствовать в документе. Однако, если документ содержит потоки 1Table и 0Table, используется только поток, на который ссылается base.fWhichTblStm. Поток без ссылки ДОЛЖЕН игнорироваться. Размер Table Stream НЕ ДОЛЖЕН превышать 2147 МБ.

Поток данных

Поток данных не имеет предопределенной структуры. Он содержит данные, на которые ссылается FIB или другие части файла. Этот поток не обязательно должен присутствовать, если на него нет ссылок. Поток данных НЕ ДОЛЖЕН превышать 2147 МБ.

Хранилище пула объектов

Хранилище пула объектов содержит хранилища для встроенных объектов OLE. Это хранилище не обязательно должно присутствовать, если в документе нет встроенных объектов OLE.

Пользовательское хранилище данных XML

Хранилище пользовательских XML-данных — это дополнительное хранилище, имя которого ДОЛЖНО быть «MsoDataStore».

Поток сводной информации

Поток сводной информации — это необязательный поток, имя которого ДОЛЖНО быть «\005SummaryInformation», где \005 — это символ со значением 0x0005, а не строковый литерал «\005».

Поток сводной информации о документе

Поток сводной информации о документе — это необязательный поток, имя которого ДОЛЖНО быть «\005DocumentSummaryInformation», где \005 — символ со значением 0x0005, а не строковый литерал «\005».

Поток шифрования

Поток шифрования — это необязательный поток, имя которого ДОЛЖНО быть «шифрование». Этот поток НЕ ДОЛЖЕН присутствовать, если не выполняются оба следующих условия:

  • Документ зашифрован с помощью шифрования Office Binary Document RC4 CryptoAPI.
  • Значение fDocProps задается в EncryptionHeader.Flags.

Хранилище макросов

Хранилище макросов — это дополнительное хранилище, содержащее макросы для файла. Если он присутствует, это ДОЛЖНО быть корневым хранилищем проекта.

Хранилище XML-подписей

Хранилище XML-подписей — это необязательное хранилище, имя которого ДОЛЖНО быть «_xmlsignatures».

Поток подписей

Поток подписей является необязательным потоком, имя которого ДОЛЖНО быть «_signatures». Этот поток содержит цифровые подписи.

Хранилище пространства данных для управления правами на доступ к данным

Хранилище пространства данных управления правами на доступ к данным является дополнительным хранилищем, имя которого ДОЛЖНО быть «\006DataSpaces», где \006 — это символ со значением 0x0006, а не строковый литерал «\006». Если это хранилище присутствует, поток защищенного контента также ДОЛЖЕН присутствовать. Если это хранилище присутствует, все указанные потоки и хранилища, кроме этого хранилища и потока защищенного содержимого, ДОЛЖНЫ считываться из потока защищенного содержимого, как указано в [MS-OFFCRYPTO], и если какие-либо из этих потоков и хранилищ существуют за пределами защищенного содержимого. Stream, их ДОЛЖНО игнорировать.

Защищенный поток контента

Поток защищенного содержимого — это необязательный поток, имя которого ДОЛЖНО быть «\009DRMContent», где \009 — это символ со значением 0x0009, а не строковый литерал «\009». Если этот поток присутствует, ДОЛЖНО также присутствовать хранилище пространства данных управления правами на доступ к данным.

Использованная литература

  • Спецификации формирования файлов MS-DOC
  • Документация по вычислениям

See Also

  • NB — формат файла блокнота Mathematica
  • OTS — формат файла шаблона электронной таблицы OpenDocument
  • XLR — формат файла электронной таблицы Microsoft Works
  • Что такое формат файла XLS? Узнайте у экспертов по формату файлов!
  • Что такое формат файлов Lotus 123? Узнайте у экспертов по формату файлов!

Форматы файлов, в которых можно сохранять документы

В таблице ниже перечислены различные виды документов, которые можно сохранять в приложении Word.

Формат файла

Документ Word (DOCX).

Используемый по умолчанию XML-формат документов Word 2008 для Mac, Word для Mac 2011, Word 2016 для Windows, Word 2007 для Windows, Word 2010 для Windows, Word 2013 для Windows и Word 2016 для Windows.

Документ Word 97–2004 (DOC)

Формат документов, совместимый с версиями от Word 98 до Word 2004 для Mac и от Word 97 до Word 2003 для Windows.

Шаблон Word (DOTX).

Сохранение документа в виде XML-шаблона, на базе которого можно создавать новые документы. Сохранение содержимого документа и его параметров, в том числе стилей, разметки страниц, элементов автотекста, пользовательских сочетаний клавиш и меню.

Шаблон Word 97–2004 (DOT)

Сохранение документа в виде шаблона, на основе которого можно создавать новые документы. Сохранение содержимого документа и его параметров, в том числе стилей, разметки страниц, элементов автотекста, пользовательских сочетаний клавиш и меню. Совместим с версиями Word 97–2003 для Windows и Word 98–2004 для Mac.

Экспорт содержимого и форматирования документа в формате, распознаваемом и читаемом другими приложениями, включая совместимые программы Майкрософт.

Обычный текст (TXT)

Экспорт содержимого документа в текстовый файл и сохранение текста без форматирования. Этот формат следует выбирать лишь в том случае, если целевая программа не способна читать файлы других доступных форматов. В этом формате используется расширенный набор символов ASCII для Mac.

Сохранение документа в формате, предназначенном для просмотра в Интернете. HTML — это стандартный веб-формат, который отображается в браузерах Macintosh и Windows.

Экспорт документа в PDF-файл, который выглядит одинаково на компьютерах Macintosh и Windows.

Документ Word с поддержкой макросов (DOCM)

Формат документов на основе XML, в котором сохраняется код макросов VBA. Макросы VBA выполняются в Word 2016 для Mac и Word для Mac 2011, но не в Word 2008.

Шаблон Word с поддержкой макросов (DOTM)

Сохранение документа в виде XML-шаблона с кодом макросов VBA. Макросы VBA выполняются в Word 2016 для Mac и Word для Mac 2011, но не в Word 2008.

XML-документ Word (XML)

Экспорт содержимого документа в XML-файл. Преобразование всех инструкций форматирования и текста в формат XML. Совместим с Word 2007 для Windows.

XML-документ Word 2003 (XML)

Экспорт содержимого документа в XML-файл. Преобразование всех инструкций форматирования и текста в формат XML. Совместим с Word 2003 для Windows.

Веб-страница в одном файле (MHT)

Сохранение документа в формате, предназначенном для просмотра в Интернете, с созданием единого файла со всеми элементами страницы, такими как графические объекты. Используется интернет-стандарт MIME HTML.

Шаблон документа Word (DOC)

Сохранение документа с пометкой «Шаблон» для системы поиска. При открытии такого файла будет открываться новый документ без названия.

Настраиваемый словарь (DIC)

Сохранение содержимого документа в качестве файла словаря, предназначенного для хранения слов и терминов, которые не входят в основной словарь.

Словарь исключений (DIC)

Сохранение содержимого документа в качестве файла словаря, предназначенного для хранения предпочтительных вариантов правильно написанных слов. Выбирайте этот вариант, если нужно сохранить в словаре исключений слово наподобие «нуль», чтобы приложение Word не помечало его как неправильно написанное.

Совместимый с Word 4.0–6.0/95 (RTF)

Этот формат RTF совместим с версиями от Word 4.0 до Word 6.0 для Mac, а также с Word 6.0 и Word 95 для Windows.

Тема Office (THMX)

Сохранение шрифта, цветовой схемы и фона файла для использования в качестве новой темы.

Чтобы применить к документу тему из другого документа, на вкладке Главная в разделе Темы выберите команду Обзор тем. Чтобы сохранить измененную тему как новую, на вкладке Главная в разделе Темы выберите команду Сохранить тему.

Электронный документооборот: Word DOC или PDF?

Использование электронных документов в работе любой компании – прекрасная возможность не только снизить затраты на канцелярские товары и расходные материалы для принтеров, но и существенно ускорить обмен информацией с филиалами и партнерами путем пересылки файлов через Интернет. Однако процесс реализации электронного документооборота и безбумажного офиса связан со многими трудностями. Так, например, большую сложность представляет собой выбор подходящего формата, который ляжет в основу реализуемой системы. Дело в том, что сегодня существует множество различных текстовых форматов и их модификаций, и у каждого есть свои достоинства и недостатки.

Word Document и PDF – старые соперники

Наиболее часто для работы с документами используется формат Word Document (файлы с расширением .doc). Это стандартный формат файлов, создаваемых с помощью программы Microsoft Word. Его популярность полностью обусловлена популярностью данного текстового процессора. История формата Word Document началась вместе с программой Microsoft Word, в то время обычного редактора для создания текстов. С тех пор каждая новая версия Microsoft Word приносила с собой новую версию формата, которая не очень сильно, но все-таки отличалась от предыдущей. Причем компания Microsoft не заботилась об обратной совместимости. Это значит, что файл, созданный и отформатированный в последней версии редактора Word, во всех предыдущих может выглядеть иначе.

Еще одной особенностью формата Word Document является его закрытость. Разрабатывала его компания Microsoft специально для использования в своем текстовом процессоре, а поэтому он является ее собственностью. Спецификации формата Word Document не разглашаются. Доступ к ним имеют лишь официальные партнеры корпорации Microsoft, а также правительства некоторых государств. Исключением является спецификация формата документов Microsoft Word 97, которая в 1998 году была опубликована в составе Microsoft Office Development Office 97 Documentation. Из-за этой закрытости очень сложно следить за развитием формата Word Document. Известно лишь то, что долгое время никаких принципиальных изменений в нем не происходило. И только в Microsoft Office 2007 появился новый формат Word Document, основанный на технологии XML.

Другим распространенным форматом для хранения электронных документов является формат PDF (Portable Document Format). Он был разработан компанией Adobe Systems. Главной его целью было представление в электронном виде любой полиграфической продукции. Впервые он был представлен общественности в 1991 году, а уже в 1992 на выставке Comdex Fall получил звание “best of Comdex”. С тех пор формат PDF довольно сильно изменился. В 1994, 1996, 1999 и 2001 годах выходили его новые версии, в каждой из которых вводилась поддержка новых функций, таких как внешние линки, потоки статей, машинонезависимые цвета, цветовое пространство CMYK, растрирование и оверпринт, ICC-цвета, 2-байтные CID-шрифты и многое, многое другое.

Главное отличие формата PDF – машино- и платформонезависимость. Это значит, что любой документ данного формата может быть открыт на компьютере, работающем под управлением любой операционной системы (с помощью соответствующего программного обеспечения), и при этом будет выглядеть точно так же, как и на том ПК, на котором он создавался. Это – главное преимущество формата PDF. Благодаря нему документы такого типа гораздо более практичны как для создания электронного архива для внутреннего использования компании, так и для обмена информацией с партнерами и удаленными филиалами.

Электронный документооборот: Word Document или PDF?

Весь процесс работы с электронными документами можно разделить на три основных этапа – создание, пересылка (передача ответственным лицам, публикация и т.п.) и хранение. На первом из них формат Word Document имеет явное преимущество, т.к. редактирование PDF документов затруднительно. Текстовый процессор Microsoft Word – явный лидер в области программного обеспечения, использующегося для создания документов, который установлен практически на каждом офисном компьютере. Он прост в использовании, обладает широкими функциональными возможностями и давно уже превратился в стандарт “де-факто”. В то же время полноценных редакторов для создания PDF-файлов просто-напросто не существует. Даже профессиональные версии ПО Adobe Acrobat позволяют вносить лишь минимальные изменения в уже существующий документ (например, заполнить анкету, добавить комментарий и т.п.). То есть для того, чтобы создать PDF файл необходимо сначала создать его в любом другом формате, а потом уже конвертировать его в PDF с помощью какого-либо программного обеспечения. Естественно, для конечного пользователя это не очень удобно.

А вот на следующем этапе все преимущества, наоборот, оказываются на стороне формата PDF. Давайте рассмотрим их подробнее.

Во-первых, это, конечно же, платформонезависимость. Не важно, какие компьютеры стоят в офисах ваших партнеров и под управлением каких операционных систем они работают. Не важно, какое у них установлено программное обеспечение для чтения PDF-файлов. В любом случае они смогут увидеть и при необходимости распечатать документы именно в том виде, в каком нужно. В то время как при использовании формата Word Document очень желательно, чтобы обе стороны обмена использовали одну и ту же версию ПО. Говоря откровенно, проблема с версиями программ для чтения файлов актуальна и для формата PDF. Однако нужно учитывать, что это ПО бесплатно. А поэтому новую версию в случае необходимости всегда можно загрузить из Интернета.

Вторым преимуществом формата PDF является бесплатность программ для просмотра файлов, сохраненных в нем. Любой человек или любая компания может совершенно свободно скачать из Интернета программу Acrobat Reader и использовать ее для работы с электронными документами. Особенно это хорошо в том случае, когда необходим односторонний обмен информацией.

Третьим преимуществом формата PDF при передаче файлов партнерам или клиентам компании является безопасность. Дело в том, что документы, созданные в Microsoft Word, часто становятся переносчиками различных вирусов. Кроме того, иногда в электронных документах необходимо использовать встроенную защиту от несанкционированного доступа. И в этом плане формат PDF имеет некоторое преимущество, поскольку его спецификация была исследована многими независимыми разработчиками ПО и экспертами в области информационной безопасности, которые подтвердили отсутствие уязвимостей и специально оставленных “дыр”.

Есть у формата PDF еще одно, четвертое преимущество. Дело в том, что он стандартизован ISO (International Organization for Standardization) для архивного хранения электронных документов и для обмена компаниями информацией друг с другом. Кроме того, представители Adobe заявили, что собираются передать спецификацию последней версии своего формата общественной организации Association for Information and Image Management (AIIM), которая намерена продвинуть ее в качестве общего международного стандарта для реализации электронного документооборота. В том случае, если это осуществиться (а вероятность такого развития событий велика), использование технологии PDF для электронного документооборота, будет регламентировано по всему миру.

Все эти преимущества формата PDF актуальны и для третьего этапа документооборота, а именно, для хранения электронных документов. Таким образом, налицо весьма интересная ситуация. С одной стороны, создавать документы придется в формате Word Document, т.к. создать PDF-документ сразу невозможно. Но передавать и хранить документы удобнее в формате PDF. Можно, конечно, выбрать какую-то одну технологию и смириться с ее недостатками. Но лучше все-таки использовать комбинированный документооборот: создавать файлы в формате Word Document, а перед их отправкой или передачей в архив, конвертировать в PDF. Такой подход позволяет использовать все плюсы обеих технологий и избежать их минусов. А поэтому перед компаниями часто возникает задача по конвертированию файлов из формата DOC в формат PDF.

Конвертирование Word Document в PDF? Запросто!

Решая задачу конвертирования документов из формата Word Document в формат PDF на корпоративном уровне, в первую очередь необходимо думать об удобстве конечных пользователей. Этот процесс должен быть максимально автоматизированным, чтобы сотрудник мог осуществлять его буквально нажатием на одну кнопку. Наглядным примером такого решения является продукт Universal Document Converter. По сути, он представляет собой виртуальный принтер. Это значит, что после установки данного программного обеспечения в операционной системе появляется ещё одно “печатающее устройство”. Оно доступно из любых приложений, в том числе, и из Microsoft Word. Отправляя документ на этот виртуальный принтер, пользователь инициирует процесс конвертирования. Такой подход позволяет минимизировать временные затраты сотрудников компании, а, значит, и финансовые затраты самой компании, на преобразование файлов из формата Word Document в формат PDF.

Иногда в компаниях возникает необходимость массового конвертирования документов из формата Word Document в формат PDF. Для решения такой задачи можно последовательно открывать файлы один за другим и распечатывать их на виртуальном принтере. Однако это очень неудобно и отнимает много времени. Поэтому для существенного ускорения процесса массового конвертирования можно воспользоваться любой утилитой пакетной печати, например, программой PrintConductor. Принцип ее работы очень прост. Пользователю необходимо только задать список документов, которые нужно распечатать, и устройство, на котором это необходимо сделать. Естественно, если в качестве принтера будет указан виртуальный принтер Universal Document Converter, то в результате мы получим пакетное конвертирование файлов из формата Word Document в формат PDF.

Таким образом, благодаря недорогому (а утилита PrintConductor вообще бесплатна) и максимально простому в использовании программному обеспечению любая компания может использовать все преимущества форматов Word Document и PDF и отказаться от их недостатков.

«Мы решили конвертировать все входящие документв в единый вид — самым удобным для нас оказался формат JPEG. В решении этой задачи нам очень помогла программа «Универсальный конвертер документов».»

Формат ms word что это

Типы файлов определяются по расширению файла (последние буквы в имени файла после точки, обычно их три, но может быть больше или меньше). Операционная система компьютера определяет, какое приложение должно быть запущено для обработки данного файла, именно по его расширению. Расширение имени файла часто не видно пользователям, взамен этого выводится иконка, обозначающая тип файла.

На нашем сайте Вы можете встретить следующие типы файлов:

PDF (Portable Document Format) — кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript. В первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Для просмотра можно использовать официальную бесплатную программу Adobe Reader, а также программы сторонних разработчиков. На нашем сайте применяется для публикации практически всех документов, за исключением тех, которые по каким-то причинам нужно опубликовать в другом формате.

Форматы документов Microsoft Office 97-2003

DOC — (сокращение от DOCument, документ) — формат текстового документа Microsoft Word до версии 2003 (97-2003). Начиная с версии Microsoft Word 2007, используется другое обозначение для текстовых документов Word — DOCX.

XLS — формат электронной таблицы Microsoft Excel до версии 2003 (97-2003). Начиная с версии Microsoft Excel 2007, используется другое обозначение для электронных таблиц Excel — XLSX.

PPT — формат документа презентации (слайдов) Microsoft PowerPoint до версии 2003 (97-2003). Начиная с версии Microsoft PowerPoint 2007, используется другое обозначение для презентаций (слайдов) PowerPoint — PPTX.

Форматы документов Microsoft Office 2007

DOCX — формат текстового документа Microsoft Word 2007

XLSX — формат текстового документа Microsoft Excel 2007

PPTX — формат текстового документа Microsoft PowerPoint 2007

Форматы архивных файлов

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *