forum.boolean.name

forum.boolean.name (http://forum.boolean.name/index.php)
-   Болтовня (http://forum.boolean.name/forumdisplay.php?f=25)
-   -   парсить DOC (http://forum.boolean.name/showthread.php?t=16891)

NetBuilding 10.06.2012 14:30

парсить DOC
 
Ребята. кто опытный, подскажите.

Такая задача: Есть Doc файлы однотипные куча. их содержимое представляет собой форму на двух страницах. их генерирует некая прога к которой физического доступа никак нет. необходимо как-то автоматизировать процесс вытягивания от туда данных. для дальнейших программных операций с ними.

вопрос: какими средствами, как это сделать. нужно ли переводить doc в другой формат для этого. чтоб все автоматически, минимум движений.

Gector 10.06.2012 15:24

Ответ: парсить DOC
 
Цитата:

Сообщение от NetBuilding (Сообщение 229980)
Ребята. кто опытный, подскажите.

Такая задача: Есть Doc файлы однотипные куча. их содержимое представляет собой форму на двух страницах. их генерирует некая прога к которой физического доступа никак нет. необходимо как-то автоматизировать процесс вытягивания от туда данных. для дальнейших программных операций с ними.

вопрос: какими средствами, как это сделать. нужно ли переводить doc в другой формат для этого. чтоб все автоматически, минимум движений.

Макрос не подойдет?

NetBuilding 10.06.2012 15:37

Ответ: парсить DOC
 
Я тоже подумываю макрос на VBA чтоб данные из всех доков сохранять в какой-нибудь txt что ли. и потом в своей программе работать с этим txt. но это как-то не айс помоему :mda: . лишние телодвижения

moka 10.06.2012 16:57

Ответ: парсить DOC
 
У нас была подобная задача, нужно было из pdf вытянуть данные с таблицы.
Сделал так:
1. Конвертируешь PDF в excel (в твоём случае таблицу в excel).
2. Сохраняешь excel как html.
3. Грузишь страницу ajax'ом и вытягиваешь данные автономно из элементов по шаблону используя jquery.
4. Сразу пихаешь куда нужно.

Звучит громоздко, но когда у меня было 70 разных pdf, пару часов на такую тулзу - стоили чтобы автоматизировать процесс работы с данными.

Вариантов куча.
Если из excela работать, будет проще, чем из дока.

ABTOMAT 10.06.2012 17:59

Ответ: парсить DOC
 
Цитата:

Сообщение от MoKa (Сообщение 229997)
У нас была подобная задача, нужно было из pdf вытянуть данные с таблицы.
Сделал так:
1. Конвертируешь PDF в excel (в твоём случае таблицу в excel).
2. Сохраняешь excel как html.
3. Грузишь страницу ajax'ом и вытягиваешь данные автономно из элементов по шаблону используя jquery.
4. Сразу пихаешь куда нужно.

Звучит громоздко, но когда у меня было 70 разных pdf, пару часов на такую тулзу - стоили чтобы автоматизировать процесс работы с данными.

Вариантов куча.
Если из excela работать, будет проще, чем из дока.

А где автор говорил, что у него именно таблица?
Олсо вместо сохранения excel как html можно схоронять excel как csv, его парсить в десяток раз удобней. А на PHP (если автор юзает его) есть уже и готовые решения.

radiobutton 10.06.2012 20:06

Ответ: парсить DOC
 
на c# есть библиотека для работы с word файлами.
Там можно в закладки шаблона засовывать данные, а потом сохранять документ, распечатывать итд.
По идее должны быть функции парсинга обратно в той же библе.
http://alexanderkobelev.blogspot.com...word-c-40.html


Часовой пояс GMT +4, время: 20:25.

vBulletin® Version 3.6.5.
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Перевод: zCarot