批量提取word格式的调查表信息,提取word调查表,#coding:utf-
文章由Byrx.net分享于2019-03-23 04:03:13
批量提取word格式的调查表信息,提取word调查表,#coding:utf-
#coding:utf-8import osimport win32comfrom win32com.client import Dispatch, constantsfrom docx import Documentdef parse_doc(f): """读取doc,返回姓名和行业 """ doc = w.Documents.Open( FileName = f ) t = doc.Tables[0] # 根据文件中的图表选择信息 name = t.Rows[0].Cells[1].Range.Text situation = t.Rows[0].Cells[5].Range.Text people = t.Rows[1].Cells[1].Range.Text title = t.Rows[1].Cells[3].Range.Text print name, situation, people,title doc.Close()def parse_docx(f): """读取docx,返回姓名和行业 """ d = Document(f) t = d.tables[0] name = t.cell(0,1).text situation = t.cell(0,8).text people = t.cell(1,2).text title = t.cell(1,8).text print name, situation, people,titleif __name__ == "__main__": w = win32com.client.Dispatch('Word.Application') # 遍历文件 PATH = "H:\work\\aaa" # windows文件路径 doc_files = os.listdir(PATH) for doc in doc_files: if os.path.splitext(doc)[1] == '.docx': try: parse_docx(PATH+'\\'+doc) except Exception as e: print e elif os.path.splitext(doc)[1] == '.doc': try: parse_doc(PATH+'\\'+doc) except Exception as e: print e
相关内容
- python版实现文本左右对齐排版,python对齐,# python版实现
- 系统监控,,#! /usr/bin/
- 爬取和保存豆瓣小组图片,豆瓣小组图片,#!/usr/bin/e
- 自己编的汉诺塔游戏过程,汉诺塔过程,def tower(a,
- python处理Excel文件,,#coding=utf-
- 12306订票代码--python订票的另类方式,12306--python,#!/usr
- python列表类型,python列表,列表类型简介列表类型
- python之路---08 文件操作,python---08,二十六. 文件 f
- Python37 协程、阻塞IO、非阻塞IO、同步IO、异步IO,pyth
- Python——graphviz及pydotplus安装步骤,graphvizpydotplus,Pyth
评论关闭