|
Болтовня Разговоры на любые темы (думайте, о чем пишите) |
10.06.2012, 14:30
|
#1
|
ПроЭктировщик
Регистрация: 07.06.2010
Сообщений: 105
Написано 5 полезных сообщений (для 13 пользователей)
|
парсить DOC
Ребята. кто опытный, подскажите.
Такая задача: Есть Doc файлы однотипные куча. их содержимое представляет собой форму на двух страницах. их генерирует некая прога к которой физического доступа никак нет. необходимо как-то автоматизировать процесс вытягивания от туда данных. для дальнейших программных операций с ними.
вопрос: какими средствами, как это сделать. нужно ли переводить doc в другой формат для этого. чтоб все автоматически, минимум движений.
__________________
Юзаю Ubuntu, Юзаю Mac
|
(Offline)
|
|
10.06.2012, 15:24
|
#2
|
Легенда
Регистрация: 14.10.2007
Сообщений: 3,878
Написано 2,012 полезных сообщений (для 5,072 пользователей)
|
Ответ: парсить DOC
Сообщение от NetBuilding
Ребята. кто опытный, подскажите.
Такая задача: Есть Doc файлы однотипные куча. их содержимое представляет собой форму на двух страницах. их генерирует некая прога к которой физического доступа никак нет. необходимо как-то автоматизировать процесс вытягивания от туда данных. для дальнейших программных операций с ними.
вопрос: какими средствами, как это сделать. нужно ли переводить doc в другой формат для этого. чтоб все автоматически, минимум движений.
|
Макрос не подойдет?
__________________
Ибо как сказал Бгдн:
|
(Offline)
|
|
10.06.2012, 15:37
|
#3
|
ПроЭктировщик
Регистрация: 07.06.2010
Сообщений: 105
Написано 5 полезных сообщений (для 13 пользователей)
|
Ответ: парсить DOC
Я тоже подумываю макрос на VBA чтоб данные из всех доков сохранять в какой-нибудь txt что ли. и потом в своей программе работать с этим txt. но это как-то не айс помоему . лишние телодвижения
__________________
Юзаю Ubuntu, Юзаю Mac
|
(Offline)
|
|
10.06.2012, 16:57
|
#4
|
.
Регистрация: 05.08.2006
Сообщений: 10,429
Написано 3,454 полезных сообщений (для 6,863 пользователей)
|
Ответ: парсить DOC
У нас была подобная задача, нужно было из pdf вытянуть данные с таблицы.
Сделал так:
1. Конвертируешь PDF в excel (в твоём случае таблицу в excel).
2. Сохраняешь excel как html.
3. Грузишь страницу ajax'ом и вытягиваешь данные автономно из элементов по шаблону используя jquery.
4. Сразу пихаешь куда нужно.
Звучит громоздко, но когда у меня было 70 разных pdf, пару часов на такую тулзу - стоили чтобы автоматизировать процесс работы с данными.
Вариантов куча.
Если из excela работать, будет проще, чем из дока.
|
(Offline)
|
|
10.06.2012, 17:59
|
#5
|
Ференька
Регистрация: 26.01.2007
Адрес: улица Пушкина дом Колотушкина
Сообщений: 10,741
Написано 5,461 полезных сообщений (для 15,675 пользователей)
|
Ответ: парсить DOC
Сообщение от MoKa
У нас была подобная задача, нужно было из pdf вытянуть данные с таблицы.
Сделал так:
1. Конвертируешь PDF в excel (в твоём случае таблицу в excel).
2. Сохраняешь excel как html.
3. Грузишь страницу ajax'ом и вытягиваешь данные автономно из элементов по шаблону используя jquery.
4. Сразу пихаешь куда нужно.
Звучит громоздко, но когда у меня было 70 разных pdf, пару часов на такую тулзу - стоили чтобы автоматизировать процесс работы с данными.
Вариантов куча.
Если из excela работать, будет проще, чем из дока.
|
А где автор говорил, что у него именно таблица?
Олсо вместо сохранения excel как html можно схоронять excel как csv, его парсить в десяток раз удобней. А на PHP (если автор юзает его) есть уже и готовые решения.
__________________
Мои проекты:
Анальное Рабство
Зелёный Слоник
Дмитрий Маслов*
Различие**
Клюква**
* — в стадии разработки
** — в стадии проектирования
Для проектов в стадии проектирования приведены кодовые имена
|
(Offline)
|
|
Сообщение было полезно следующим пользователям:
|
|
10.06.2012, 20:06
|
#6
|
Бывалый
Регистрация: 16.09.2011
Сообщений: 863
Написано 257 полезных сообщений (для 546 пользователей)
|
Ответ: парсить DOC
на c# есть библиотека для работы с word файлами.
Там можно в закладки шаблона засовывать данные, а потом сохранять документ, распечатывать итд.
По идее должны быть функции парсинга обратно в той же библе.
http://alexanderkobelev.blogspot.com...word-c-40.html
|
(Offline)
|
|
Ваши права в разделе
|
Вы не можете создавать темы
Вы не можете отвечать на сообщения
Вы не можете прикреплять файлы
Вы не можете редактировать сообщения
HTML код Выкл.
|
|
|
Часовой пояс GMT +4, время: 10:54.
|