Пакетное преобразование файлов doc и docx в txt с кодировкой utf-8 для языков Ближнего Востока

У меня есть около 7 тыс. Файлов, написанных на персидском языке со словом Microsoft в doc/docx формат. Я хочу преобразовать их всех в txt форматировать без потери любого из них для веб-приложения php. Я знаю много тем с Converting doc to txt название, но никто из них не решил мою проблему. Есть идеи, как мне это сделать?

Вот ссылка на сайт к одному из этих файлов.

0

Решение

Поскольку вы не смогли найти такую ​​маленькую утилиту, я создал ее:

https://github.com/edi9999/docx2txt

установить и использовать:

npm install docx2txt -g
docx2txt input.docx

Тем не менее, это не будет ставить пробелы между абзацами.

Может быть, вы могли бы использовать Pandoc для этого тоже:

pandoc input.docx -o output.txt

1

Другие решения

(Это одно из решений, но оно может быть лучше сделано программно или с помощью конвертера пакетных файлов.)

Word может конвертировать файлы. Вам нужен макрос vba, который сохранит файл как текст UTF-8 и закроет его. Затем вы можете использовать пакетный файл, как показано ниже, чтобы открыть каждый файл и запустить макрос (например, MacroName) для него. (Убедитесь, что безопасность слова установлена ​​так, чтобы макросы могли запускаться без запроса.)

Эта пакетная команда выполняется для каждого файла doc и docx в текущем каталоге и подкаталогах. Вам нужно заменить путь к Word.

@echo off
for /r %%A in (*.doc*) do call "C:\Program Files (x86)\Microsoft Office\Office14\winword.exe" /q "%%A" /mMacroName
0