Word с картинками в HTML на сервере
  • Есть куча вордовских доков (.doc), в которых кроме текстов есть картинки, вордовские таблицы и текстовые формулы.
    Реально ли с помощью php на сервере их конвертировать в нормальные html-страницы, чтобы и картинки (как минимум) и все остальное (как максимум) тоже не потерялось?
    Ну т.е. по принципу: залить доки на сервак, запустить скрипт-обработчик, который их по очереди распарсит и создаст html-страницы со ссылками на картинки, картинки вытащит из доков и накидает их в какую-нибудь папку img.
    Вручную это делать нереально и несерьезно (ну разве что пересохранить все доки в вэб или xml например, если это потребуется для скрипта), нужна автоматизация процесса.

    п.с. погуглил немного, что-то ничего на глаза не попалось... может не так искал, может какие-то сервачные приложения/библиотеки для этого надо... или это нереально или реально, но не с помощью php?
  • В цмс с текстовыми редакторами для статей (назв редактора не помню), есть такая штука, из ворда код, почти без мусора.
    Оттуда можно выдернуть
  • В цмс с текстовыми редакторами для статей (назв редактора не помню), есть такая штука, из ворда код, почти без мусора.
    Оттуда можно выдернуть

    А картинки?

    Мне бы название такого редактора, чтоб картинки тоже хавал сразу (без доп.загрузки).
    Хотя тогда тоже ручной работы много получается: открыть док, скопировать всё (с картинками), вставить в редактор... и так мульон раз.
  • под линукс есть много консольных конверторов ворд файлов в хтмл (сам юзал). Сам код в принципе очень несложно очистить весьма простым скриптом, который оставляет только определенные метатеги. Картинки сохраняет. Можно конечно и программу использовать. Только это всё верно, если не используются вставки (часто со скана) и не многоколоночная верстка (часто в журнадах).
  • под линукс есть

    блин, у меня винда :(

    чую, что придется идти нудным дубовым методом (пересохранять все доки в вэб и писать скрипт, чтоб вырезал мусор, менял имена картинок, т.к. ворд везде одинаковые делает, менял адреса ссылок на них, картинки из папок .files перекидывал и удалял эти папки потом).
    и всё это для того, чтоб меня потом полный нуб не дергал как новую страницу на своем сайте сделать, а заливал тупо по фтп все что у него в ворде наворочено... хотя и себе может эта затея пригодится для гс-строительства :)
  • Придется примерно так искать http://www.google.ru/search?aq=1&oq=fr...280&bih=899

    ибо в рунете туго с решениям частенько
  • http://www.freeware32.ru/index.php?program=2447
    искать надо. я несколько решений видел.
  • Придется примерно так искать http://www.google.ru/search?aq=1&oq=fr...280&bih=899

    ибо в рунете туго с решениям частенько

    Да я уж и не знаю, что лучше, проще и быстрее - найти несложное решение или самому засесть за написание скрипта взяв простой дубовый вариант за основу, правда нарисованное в ворде я точно не осилю перевести во что-то вменяемое :)
  • http://www.freeware32.ru/index.php?program=2447
    искать надо. я несколько решений видел.

    Может распознавать файлы, содержащие:
    * текст
    * гиперссылки
    * простые таблицы
    * вставки внешних (не сохранённых внутри документа) картинок.
    Ну вроде ограниченно получается
  • WYSIWYG :) его можно распотрошить

    или этти, если я что напутал http://www.google.ru/search?aq=0&oq=%D...BB%D1%8F+joomla
  • JCE может. надо прикручивать его.
  • http://mastertalk.ru/topic137378.html
    Сохраненный в виде веб странице вордовский файл, преобразуется размеченный текст,
    который после нажатия кнопки превращается в сайт с кодами выбранных бирж для монетизации.
    С картинками пока не решено, но работаем.
    Яша кушает с удовольствием.
    До Н.Г. думаю сделаю для всех желающих с закачкой на их хостинги по FTP. Бесплатно.
  • http://mastertalk.ru/topic137378.html
    Сохраненный в виде веб странице вордовский файл, преобразуется размеченный текст,
    который после нажатия кнопки превращается в сайт с кодами выбранных бирж для монетизации.
    С картинками пока не решено, но работаем.
    Яша кушает с удовольствием.
    До Н.Г. думаю сделаю для всех желающих с закачкой на их хостинги по FTP. Бесплатно.

    Да, я помню про вас. :)
    Но у меня немного другая задача: залить себе (условно) на сайт сразу кучу неподготовленных вордовских файлов, дальше запустить скрипт, который их преобразует в html-страницы, дальше движок сам будет захватывать их и выкладывать/генерить их на сайте (это сделать не сложно). Плюс на будущее сделать загрузку вордовских файлов поштучно, чтоб скрипт перед записью на сервер (созданием страниц) их преобразовывал. Весь гимор из-за картинок в доках, т.к. они тоже нужны.
    Если вы такую задачу реализуете (по сути похожую на мою), я только за, даже готов заплатить копеечку, чтоб себе мозг не разрушать :)
  • dik, см. что нашлось для WP: http://wordpress.org/extend/plugins/docx-t...ee/other_notes/ Вроде бы - то самое, что нужно, правда - для WP, но всёж - что то, чем ничего - лучше))


    так там главное исходник, а далее можно расшпиливилить его :) дабы не вникать во все премудрости Ворда
    поэтому тогда и вспомнил про редакторы, но тут проще найти будет
  • блин, у меня винда

    у вас виндовый сервер? Круто круто...
  • Дык - и я ж про то же, правда - не совсем понятно описание, что там они под "Uploads images inside .docx" имеют в виду - надо ставить и смотреть (лень)...

    О, судя по описалову подходит, но тоже еще разобраться надо как его на автомат переставить. Теперь придется переварить в голове 2-3 десятка закладок с инфой по теме и определиться в какую сторону двигаться, чтоб не переделывать ничего потом, мутить на вордпрессе и/или задействовать этот плагин под себя или какой-другой скрипт или дождаться, что tbc доделает свой генератор :) + если сайт на вордпресс ставить, то его еще переносить придется со слабого хостинга.

    upd: проверил плагин, что-то не пашет он, типа не может экстрактить, может русский язык не понимает...

    у вас виндовый сервер? Круто круто...

    Пардон, нет. У меня уже просто венегрет в голове от всего этого :)
  • Теперь придется переварить в голове 2-3 десятка закладок с инфой по теме и определиться в какую сторону двигаться, чтоб не переделывать ничего потом, мутить на вордпрессе и/или задействовать этот плагин под себя или какой-другой скрипт или дождаться, что tbc доделает свой генератор + если сайт на вордпресс ставить, то его еще переносить придется со слабого хостинга.

    Ну как дела?
    Есть что то достойное внимания по этим ссылкам?

    Если вы такую задачу реализуете (по сути похожую на мою), я только за, даже готов заплатить копеечку, чтоб себе мозг не разрушать

    Сейчас появилось время плотно заняться решением этой задачи. Но конечно doс раздраконивать это
    мрак. Вот сохраненные файлы ворда как веб страницы можно. С картинками тоже попытаюсь решить.
    По поводу копеечки...
    1) Одна страница - 1 цент. Т.е. 100 страничный сайт обойдется вам в 1WMZ разовой выплаты.
    На странице немного моего адсенса и возможно рич медиа, или чего то подобного.
    2) Плюс пара - тройка тематических ссылок на мой ресурс, одна на главной и по одной на каждой десятой
    странице сайта 2-го, 3-го уровня. Или каждой нечетной, если страницы только 2-го уровня и их < 40
    3) Созданные сайты должны быть размещены в моих реферальных аккаунтах тех бирж, коды которых будут автоматом вставляться в страницы сайта. Доход с бирж 100% ваш.

    Устроит?
    Если нет, то можно торговаться. Но хотелось бы кусочек контента получить для пробы, чтобы
    было с чем работать. И хотелось бы еще знать, на сколько много материала имеется, т.е. прикинуть свою загрузку в случае вашего согласия.

    turta@narod.ru
  • Ну как дела?
    Есть что то достойное внимания по этим ссылкам?

    На странице немного моего адсенса и возможно рич медиа, или чего то подобного. Плюс пара - тройка тематических ссылок на мой ресурс, одна на главной и по одной на каждой десятой странице сайта 2-го, 3-го уровня. Или каждой нечетной, если страницы только 2-го уровня и их < 40 Созданные сайты должны быть размещены в моих реферальных аккаунтах тех бирж, коды которых будут автоматом вставляться в страницы сайта.

    1.Вкратце: плагин для вордпресса у меня не захотел конвертировать файлы docx в html, конвертированные из doc-файлов прогой Batch DOC and DOCX Converter (почему - не разбирался, может структура doc сложная и надо было какой другой прогой, но не руками же это делать надо из ворда), хотя плагин вроде оптом не конвертирует, т.е. не очень подходит, ну разве что в нем ковыряться/разбираться, чтоб его принцип работы под себя переделать. Есть неплохая программка word-to-html, с помощью которой можно оптом у себя на компе doc-файлы в html конвертировать. Получаются все оптом как сохраненные веб страницы с чистым кодом (может не во всех случаях - не проверял) - в принципе это почти что по минимуму подходит, т.к. далее скриптом на сайте можно их оптом обработать в нужную для сайта структуру или сразу генерить страницы из залитых папок. Но эта прога платная, в триальном варианте имеет ограничение в 300 слов с 1 страницы, а формы оплаты у нее дурные (карты и прочее не катят, а кряков и таблеток с ходу не увидел в инете). Ну а потом дел привалило разных, ничего вменяемого не нашел пока (чтоб оптом и сразу) и сейчас руки не доходят заняться вопросом вплотную ни для поиска готовых решений ни для чего другого. Так что вопрос еще открыт.

    2.Реклама, ссылки и прочее - не прикалывает, сейчас не для ГС планируется вся эта затея, тем более мне не нужны главные и 2-3 уровня, нужны только готовые страницы и папка с картинками для них (на страницах ссылки на картинки в папке).

    tbc, я таки конечно дико извиняюсь, но - вы ветки то форума не попутали? Мы тут решение вопроса обсуждали, а не "заработок в сети".

    В общем-то да, согласен.

Привет, незнакомец!

Похоже, Вы новенький! Чтобы начать обсуждение, кликните на одну из кнопок ниже ;)

Войти с помощью OpenID

Категории

В этой теме: