Честный результат
Мы прямо говорим, что переносится текст, а не сложная вёрстка — и где ждать ограничений.
Достаньте текст из PDF-документа и сохраните его в редактируемый файл Word за пару секунд. Инструмент работает прямо в браузере — договор, статья или отчёт остаются на вашем устройстве, ничего не загружается на сервер. Сразу скажем честно: это извлечение текста, а не точное копирование вёрстки, и ниже мы подробно объясняем, где инструмент выручит, а где лучше поискать другой путь.
или перетащите сюда — файл не уходит на сервер
Мы прямо говорим, что переносится текст, а не сложная вёрстка — и где ждать ограничений.
Файл обрабатывается в браузере и не уходит на сервер — подходит для конфиденциальных документов.
Не нужен Word и сторонние программы: загрузили PDF, получили редактируемый .docx за секунды.
Результат открывается в Word, LibreOffice и Google Документах и сразу доступен для редактирования.
Инструмент читает текстовый слой PDF-файла и переносит его в документ .docx, который открывается в Word, LibreOffice или Google Документах и доступен для правки. Именно поэтому корректнее говорить «извлечение текста», а не «конвертация».
PDF задуман как формат для точного отображения на печати: он хранит, где именно на странице стоит каждая буква, но не хранит логику документа — где заголовок, где абзац, где ячейка таблицы. При переносе в Word эта логика восстанавливается лишь частично: вы получаете сам текст в редактируемом виде, но расстановку по колонкам, точные отступы и графику придётся местами поправить руками.
Для большинства задач — вычитать, дополнить, скопировать куски в свой документ — этого достаточно.
Лучше всего инструмент справляется с «текстовыми» PDF — теми, что изначально сделаны из документа Word, из вёрстки или экспортированы из редактора. Договоры и соглашения, статьи и рефераты, инструкции, служебные записки, текстовые отчёты, электронные книги без сложного оформления — их текст лежит в файле в готовом виде, и его достаточно перенести.
Признак такого PDF простой: если открыть файл в просмотрщике, выделить абзац мышью и он выделяется как обычный текст, а не как картинка, — извлечение пройдёт чисто. Именно с такими документами чаще всего и возникает задача «нужно быстро поправить пару абзацев», ради которой инструмент и создан.
Есть три случая, в которых результат вас разочарует, и лучше знать о них заранее. Первый — сканы: если PDF получен фотографированием или сканированием бумаги, внутри лежит картинка, а не текст, и доставать оттуда нечего (об этом отдельный раздел ниже).
Второй — сложная вёрстка: две-три колонки, боковые врезки, подписи под рисунками, колонтитулы. Порядок чтения такого документа человеку очевиден, а программе — нет, поэтому строки могут перемешаться, и текст придётся собирать в нужном порядке вручную.
Третий — насыщенная графика: диаграммы, логотипы, фотографии в документ Word не попадут, останется только текст рядом с ними. Если файл — это в основном текст с редкими простыми вставками, потери будут минимальными; если оформление сложное, готовьтесь дорабатывать результат.
Разница между текстовым PDF и сканом — ключевая, и от неё зависит, получится ли вообще что-то извлечь. В текстовом PDF каждая буква хранится как символ: программа читает её напрямую и переносит без ошибок.
В скане страница — это фотография, набор пикселей, и чтобы «увидеть» на ней буквы, нужна технология распознавания образов (OCR), которая анализирует картинку и угадывает символы. В этом инструменте OCR нет намеренно: он работает только с готовым текстовым слоем, зато делает это быстро, точно и прямо в браузере, не отправляя ваш файл никуда.
Проверить тип файла просто: попробуйте выделить и скопировать текст в просмотрщике PDF. Копируется — это текстовый PDF, инструмент справится.
Выделяется вся страница картинкой — перед вами скан.
Если у вас скан, инструмент честно вернёт пустой или почти пустой результат — и это не сбой, а физическое ограничение: доставать текст из картинки он не умеет. Выход — сначала прогнать документ через распознавание текста (OCR), а уже потом переносить в Word.
Такую функцию дают, например, Adobe Acrobat, ABBYY FineReader, бесплатный онлайн-сервис OCR или встроенное распознавание в некоторых просмотрщиках PDF. После OCR внутри файла появляется текстовый слой, и дальше документ можно обрабатывать как обычный текстовый PDF.
Если сканов немного и они несложные, иногда быстрее просто перепечатать текст вручную. Мы указываем на это прямо, чтобы вы не тратили время в ожидании результата, которого при сканах не будет.
| Тип файла | Как проверить | Результат в этом инструменте | Что делать |
|---|---|---|---|
| Текстовый PDF | Текст выделяется и копируется мышью | Текст извлекается чисто | Просто загрузить файл |
| Скан / фото страницы | Выделяется вся страница как картинка | Пусто или почти пусто | Сначала OCR, затем перенос |
| Смешанный (текст + сканы) | Часть страниц копируется, часть нет | Извлечётся только текстовая часть | OCR для отсканированных страниц |
Обработка идёт полностью в браузере на вашем устройстве — PDF не уходит на сервер, не сохраняется в облаке и не попадает к третьим лицам. Это важно для документов, которые нельзя показывать посторонним: договоров с персональными данными, финансовых отчётов, служебной переписки, медицинских справок.
С обычными онлайн-конвертерами такой файл сначала уезжает на чужой сервер, обрабатывается там и только потом возвращается — вы не контролируете, что с ним происходит и как долго он хранится. Здесь этого шага просто нет: закрыли вкладку — и никаких следов файла нигде не осталось.
Работать можно даже без интернета, если страница уже открыта.
Несколько простых приёмов заметно улучшают итог.
Во-первых, отдавайте предпочтение исходному текстовому PDF, а не его отсканированной версии — если есть выбор, берите файл, экспортированный из редактора.
Во-вторых, для документов со сложным оформлением не ждите готовой вёрстки: воспринимайте .docx как «сырьё с текстом», которое вы соберёте в своём шаблоне.
В-третьих, проверяйте порядок абзацев в многоколоночных документах — иногда достаточно поменять местами пару кусков.
В-четвёртых, если нужна только часть документа, быстрее извлечь весь текст и удалить лишнее в Word, чем искать способ вырезать конкретные страницы заранее. И главное — держите в голове, что задача инструмента не заменить дизайнера вёрстки, а быстро вернуть вам редактируемый текст.
Нет, и мы говорим об этом прямо. Инструмент извлекает текст и сохраняет его в редактируемый .docx, но не копирует сложную вёрстку один в один.
Колонки, врезки, точные отступы, картинки и оформление таблиц переносятся не всегда. Для простых текстовых документов результат близок к оригиналу, для сложных — придётся доработать вёрстку в Word вручную.
Скорее всего, вы загрузили скан — фотографию или отсканированный образ страницы. Внутри такого PDF нет текстового слоя, только картинка, а доставать текст из картинки инструмент не умеет: для этого нужна технология распознавания (OCR), которой здесь нет.
Прогоните файл через OCR (Adobe Acrobat, ABBYY FineReader, онлайн-сервисы распознавания), а затем повторите извлечение.
Откройте файл в любом просмотрщике PDF и попробуйте выделить абзац мышью и скопировать его. Если текст выделяется и копируется как обычный — это текстовый PDF, инструмент справится.
Если выделяется вся страница целиком, как картинка, и скопировать буквы не получается — перед вами скан, и его сначала нужно распознать через OCR.
Нет. Инструмент работает только с текстом: фотографии, диаграммы, логотипы и векторная графика в документ .docx не попадают.
Останется лишь текст, который был рядом с изображениями. Если нужны и картинки, извлеките их отдельно — например, сделав скриншот нужного фрагмента или сохранив изображение из PDF в специальной программе.
Нет, обработка идёт полностью в вашем браузере на вашем устройстве. PDF не загружается на сервер, не сохраняется в облаке и не передаётся третьим лицам.
Это удобно для конфиденциальных документов — договоров, отчётов, справок. Как только вы закроете вкладку, никаких следов файла нигде не останется.
После загрузки страницы инструмент работает даже без интернета.
Таблицы из ровных строк переносятся приемлемо: текст ячеек оказывается в документе, хотя и не всегда в виде настоящей таблицы Word. Сложные таблицы с объединёнными ячейками, вложенными строками или разной шириной колонок, скорее всего, разъедутся, и их придётся собирать заново.
Если ваша основная задача — именно таблицы, посмотрите инструмент «PDF в Excel»: он раскладывает данные по строкам.
PDF хранит положение текста на странице, но не логику чтения. В документе с двумя-тремя колонками человеку очевидно, что читать нужно сначала левую колонку, потом правую, а программе — нет, поэтому строки из разных колонок могут чередоваться.
Это ожидаемое ограничение: после извлечения проверьте порядок абзацев и при необходимости поменяйте фрагменты местами в Word.
В любом, что понимает формат Word: Microsoft Word, бесплатный LibreOffice Writer, WPS Office, Google Документы, Pages на Mac и даже мобильные редакторы. Файл сохраняется в стандартном .docx, поэтому проблем с совместимостью не будет.
Открыв документ, вы сможете сразу редактировать текст, менять оформление и сохранять в нужном вам формате.