Разработка технической документации и технические писатели Технические писатели и разработка технической документации технические писатели в Телеграм 

 obmen_soobsheniyami.png Чат для технических писателей 
 Зарегистрируйтесь
Страницы: 1
RSS
Экспорт HTML в DITA
 
Передо мной сейчас поставили задачу перенести большой объем документации, написанной в формате HTML, в DITA.
Обычно я использую для написания документов редактор Oxygen Author, но в нем что-то не нашла функции экспорта\импорта.
Вручную перенести столько текста не позволяет время - на это уйдут годы...
Подскажите, может есть какой-то редактор (для которого я могу скачать, скажем, триал), который умеет выполнять экспорт?

Беда еще в том, что у меня нет разбиения на файлы - есть один огромный html - файл, с заголовками (правда, уровни проставлены тегами).

Первое что пришло на ум - сделать WORD, а из него - DITA.
Но может есть более простые способы?
 
Цитата
'' пишет:
Передо мной сейчас поставили задачу перенести большой объем документации, написанной в формате HTML, в DITA.
Насколько большой ?

Цитата
'' пишет:
Вручную перенести столько текста не позволяет время - на это уйдут годы...
День-два, ну может до недели растянется
Цитата
'' пишет:
Беда еще в том, что у меня нет разбиения на файлы - есть один огромный html - файл, с заголовками (правда, уровни проставлены тегами).
Это делается средствами XSLT

Цитата
'' пишет:
Первое что пришло на ум - сделать WORD, а из него - DITA.
Мне кажется ворд добавит еще "туеву хучу" бесполезных тегов и атрибутов, которые только затруднят конвертацию. Конвертация из word в dita более трудоемкая и непонятная.
Цитата
'' пишет:
Но может есть более простые способы?
Эм... они безусловно есть. Все зависит от файла, инструментов, навыков работы с XSLT, JAVA, ANT или бюджета на платные инструменты )
 
HTML-файл при помощи чего делался? как минимум из него надо брать посторонние теги и атрибуты, привести всю структуру и оформление текста в адекватный вид.

Например, выделение полужирным может быть задано тегом
Код
<b>пример</b>

, а может быть определено классом
Код
<atribut class="text-bold">пример<atribut>
.

Во втором случае проблема решится только с XSLT-преобразованиями. В первом можно вручную "найти - заменить".
Изменено: ADVANCED - 31.10.2013 10:21:51
 
При любом способе (вручную, вручную программой или какими-либо преобразованиями)  будут проблемы с таблицами и ссылками.
Изменено: ADVANCED - 31.10.2013 10:27:20
 
Попробуйте найти Adobe Frame Maker, для него есть расширение для работы с файлами Dita. Редактор может открыть DOC или HTML, отредактировать их и сохранить в формат dita.  В нем же можно разбить текст на несколько файлов.

Но тут я вам не советчик, можно задать вопрос коллегам в теме FM, где его найти. Rutracker.org ничего не выдал, кроме видеокурсов и учебников.
Изменено: ADVANCED - 31.10.2013 12:22:40
 
Цитата
'' пишет:
Передо мной сейчас поставили задачу перенести большой объем документации, написанной в формате HTML, в DITA.
Может такое быть, что начальство оговорилось, и вместо "docbook" сказало "dita"?
Цитата
ADVANCED пишет:
День-два, ну может до недели растянется
Я обычно на любые проекты по конвертации форматов говорю "два месяца".
Цитата
ADVANCED пишет:
При любом способе (вручную, вручную программой или какими-либо преобразованиями) будут проблемы с таблицами
+1. А вот со ссылоками проблем не припомню.
Цитата
'' пишет:
Но может есть более простые способы?
1) Надо понять, какую практическую задачу на самом деле надо решить.
2) Надо узнать, какие есть два альтернативных способа решения.
3) Чётко понять, почему нужна именно дита, а не что-то другое.
4а) С чистой совестью выкинуть дита.
или
4б-1) Всё-таки сделать диту
4б-2) А дальше что?
4б-3) Вернуть всё как было.

Отказ от ответственности: автор этого сообщения не верит в системы управления контентом и диту для технической документации.
 
Цитата
Oleg Parashchenko пишет:
Отказ от ответственности: автор этого сообщения не верит в системы управления контентом и диту для технической документации.
А чем в данном случае лучше docbook?   ;)  

Верить в это еще рано, поскольку про конечную документацию не было речи, была речь о конвертации в Dita "бывшей" документации.  

Автору темы и автору предыдущего сообщения нужно уточнить цель этой конвертации и какой результат ожидается в конце концов.
Действительно, ожидания могут не оправдаться, если вам надо будет делать один большой документ в PDF или RTF   :)
Изменено: ADVANCED - 27.11.2013 12:19:33
 
Цитата
ADVANCED пишет:
Цитата
Oleg Parashchenko пишет:
Отказ от ответственности: автор этого сообщения не верит в системы управления контентом и диту для технической документации.
А чем в данном случае лучше docbook?
При использовании docbook можно обойтись одним файлом, и не искать приключений вначале с потрошением документа на части, а потом с поливанием этих частей живой водой чтобы срослись.

Цитата
ADVANCED пишет:
Действительно, ожидания могут не оправдаться, если вам надо будет делать один большой документ в PDF или RTF
Вот-вот.
 
Цитата
ADVANCED пишет:
Цитата
'' пишет:
Передо мной сейчас поставили задачу перенести большой объем документации, написанной в формате HTML, в DITA.
Насколько большой ?
После копирования в WORD получилось порядка 1000 страниц без рисунков.
Цитата
ADVANCED пишет:
Эм... они безусловно есть. Все зависит от файла, инструментов, навыков работы с XSLT, JAVA, ANT или бюджета на платные инструменты )
Спасибо за подсказку! Я нашла такой инструмент! http://dita-ot.sourceforge.net/1.5.2/readme/DITA-h2d-ant.html#h2d-ant. Но пока не могу добиться, чтобы он заработал. Проблема еще в том, что мой html-файл писало наверно человек 10, и каждый внес что-то от себя. Там с тегами беда полнейшая... Видно, что его не раз подгоняли под какие-то собственные скрипты, меняли форматирование и тп.
Цитата
ADVANCED пишет:
привести всю структуру и оформление текста в адекватный вид.
Вот - это корень зла. Но я сама не умею писала XSLT, видно настала пора научиться!
Цитата
ADVANCED пишет:
При любом способе (вручную, вручную программой или какими-либо преобразованиями) будут проблемы с таблицами и ссылками.
Таблиц мало, а вот ссылок - море.
Цитата
ADVANCED пишет:
Попробуйте найти Adobe Frame Maker, для него есть расширение для работы с файлами Dita. Редактор может открыть DOC или HTML, отредактировать их и сохранить в формат dita. В нем же можно разбить текст на несколько файлов.
Отличная идея! Это попробую обязательно!
Изменено: Elena - 02.11.2013 18:28:34
 
Цитата
Oleg Parashchenko пишет:
Может такое быть, что начальство оговорилось, и вместо "docbook" сказало "dita"?
Нет, у нас DITA это основной формат. Но всегда есть старая документация, которую надо переносить - вот настал такой момент.
 
Цитата
ADVANCED пишет:
Автору темы и автору предыдущего сообщения нужно уточнить цель этой конвертации и какой результат ожидается в конце концов.
Действительно, ожидания могут не оправдаться, если вам надо будет делать один большой документ в PDF или RTF
В итоге надо получить xhtml и PDF. Ну то есть из DITA топиков мне надо собрать эти форматы. А так как поддерживать результирующий исходник буду я, то хотелось бы получить что-то хоть отдаленно похожее на обычные dita-топики (пусть одного вида).
 
Цитата
'' пишет:
Попробуйте найти Adobe Frame Maker, для него есть расширение для работы с файлами Dita. Редактор может открыть DOC или HTML, отредактировать их и сохранить в формат dita. В нем же можно разбить текст на несколько файлов.
Вот скачала себе Frame maker. Но конвертации из HTML в нем я не вижу. Научите как открыть HTML! Там куча форматов, но нужного нет. Есть правда WORD.
 
Цитата
Elena пишет:
Но конвертации из HTML в нем я не вижу. Научите как открыть HTML!
А никак. FM 7.0. В новых версиях, может быть, уже сделано.

Цитата
Elena пишет:
Есть правда WORD.
И rtf.

Ещё можно скопировать текст из Обозревателя Интернета в документ FM.
 
Чуток подкорректировал стандартные файлы h2d и получается конвертнуть html в dita. Обычный файл (или несколько) конвертируются в обычный topic (или несколько).

Пока не ясно со структурой ничего и и с входными тегами. Про таблицы вообще полчу   :(
Изменено: ADVANCED - 25.11.2013 12:04:14
 
Думаю, что проще написать XSL с нуля без применения DITA. В понедельник продолжу эксперименты.
 
Цитата
ADVANCED пишет:
Чуток подкорректировал стандартные файлы h2d и получается конвертнуть html в dita. Обычный файл (или несколько) rjydthnbhe. в обычный topic (или несколько).

Пока не ясно со структурой ничего и и с входными тегами. Про таблицы вообще полчу
Как работать с h2d я разобралась. HTML файлы умеет импортировать редактор XML Editor. В результате я импортировала свой HTML, а потом запустила сценарий трансформации в DITA. Все делается средствами редактора, очень просто и удобно. Другой вопрос, что мне это мало помогло. Там в полученном файле каша полнейшая.

В отличие от WordToDita, который разбивает на топики, и, в целом, итог похож на оригинал, тут все гораздо хуже.
 
После ряда экспериментов, я вообще для себя, поняла, что алгоритм переноса быстрей всего делать простым копированием.
Открываем в браузере html, копируем текст и вставляем в открытый в редакторе DITA-топик. Мне, правда, удобнее сначала скопировать xtml в WORD, а уже оттуда - в DITA топик.
При копировании вставляются даже рисунки! Правда, название длинное, в виде цифровой последовательности. Но жить можно и так. Если не лень - можно потом подложить свои скрины, или существующие переименовать.
 
Цитата
Elena пишет:
и вставляем в открытый в редакторе DITA-топик.
При копировании вставляются даже рисунки!
Что за XML-редактор, в котором поддерживаетсяч вставка рисунков?
 
Цитата
ADVANCED пишет:
Цитата
Elena пишет:
и вставляем в открытый в редакторе DITA-топик.
При копировании вставляются даже рисунки!
Что за XML-редактор, в котором поддерживаетсяч вставка рисунков?
Oxygen Author или Oxygen Editor. Рисунки копируются в тот же каталог, где находится топик (в который копируется информация), а в текст вставляется ссылка на рисунок - рисунок отображается.
Страницы: 1
Читают тему