如何将doc转换成html,doc转换成html,用此标题在Google上


用此标题在Google上所有会得到一大片的答案,但是这些方法有一个问题,都是使用python的win32模块调用word的SaveAs方法,传入类型为8的参数进行另存为html文件,但是MS生成的HTML代码太丑陋了,想对内容做分离基本很难!

所以我找到了另一个组件docx2html模块,它可以将docx文件转换成非常简洁的html代码!但是这里又有一个问题,需要把doc文件先转成docx文件…貌似能搜到的中文文章都是在说如何将docx转成doc吧?下面我贴一点儿示例代码,希望对大家有帮助!

from win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open(r'G:\\T.doc')doc.SaveAs(r'G:\\T.docx', 16)#使用参数16,表示将doc转成docxdoc.Close()word.Quit()from docx2html import convertimport HTMLParserhtml_parser = HTMLParser.HTMLParser()html = convert('G:/T.docx') #使用docx2html模块将docx文件转成html串,随后你想干嘛都行print html_parser.unescape(html) #这句非常关键,docx2html模块将中文进行了转义,所以要将生成的字符串重新转义回来!#该片段来自于http://byrx.net

评论关闭