Grep в Microsoft Word?


11

Grep в Microsoft Word?

Я хотел бы вытащить все строки с заданной строкой из текстового документа. В мире Unix ... grep делает это без сбоев. Windows менее очевидна для меня.

Ответы:


10

С Cygwin (или доступом к машине с Linux) вы можете

antiword file.doc | grep "my phrase"

или же

catdoc file.doc | grep "my phrase"

Есть много конвертеров форматов файлов командной строки, чтобы аналогичным образом делать grep .

Чисто в Word решение может быть Ctrl + F (Найти), а затем Найти все - однако, я не уверен, есть ли во всех версиях MS Word кнопка Найти все .


2
Когда я увидел название вопроса, я подумал: «Ха! Это было бы хорошо, не так ли». Никогда больше я не должен недооценивать программистов GNU.
Phoshi

Самая последняя версия catdocsegfaults в каждом .doc/ .docxфайле, который я даю, antiwordпросто говорит мне, что мой документ "не является документом Word". Знаете ли вы какие-либо другие варианты?
детально

Ничего из того, что я использовал ... Быстрый поиск показывает, что docx2txtсуществует в репозиториях Debian - может работать. Я также изучил бы утилиту преобразования формата командной строки OpenOffice / LibreOffice (unoconv), которую можно использовать для той же цели.
Хронос

3

Я знаю, это звучит примитивно, но что мешает вам сохранить файл в формате .txt, а затем разорвать его по своему вкусу.


2
Наличие сотен из них для этого, вот что.
2013 года

1

Что означает «линия» в контексте Word? Отображаемая строка, что изменится, если вы сделаете что-нибудь с форматированием страницы? Параграф? Что-то другое?

С помощью функций поиска и замены Word вы можете делать кучу вещей, включая изменение форматирования и другие неочевидные вещи, но все они будут действовать только на сам текст find-what, а не на любой окружающий текст.


Хотя у Грепа есть это регулярное выражение любви!
Phoshi

1

Есть поддержка документов MS - Word, PowerPoint, Excel - в CRGREP, которую я разработал как бесплатный инструмент с открытым исходным кодом. Он также включает другие трудные для поиска вещи, такие как таблицы базы данных, изображения, аудио, архивы, PDF и их комбинации. Веселиться.



0

Недостаточно представителей, чтобы комментировать, но я вижу, что эта проблема с документами и документами обсуждалась, поэтому любой, кто преследует тему (как и я), может найти это полезным.

Вам не нужен специальный инструмент для файлов DOCX. docx - это сжатые файлы XML.

Чтобы извлечь и удалить XML, попробуйте что-нибудь на основе

unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

из командной строки фу

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.