用python下载gitbook上的pdf书籍后 如何转化为html,pythongitbook,如题,,,想把转化后的h
用python下载gitbook上的pdf书籍后 如何转化为html,pythongitbook,如题,,,想把转化后的h
如题,,,
想把转化后的html丢进nginx中, 请问如何转为html。。。。。。。
你不如使用pdf.js直接在网页里加载PDF
直接weg下载gitbook目录不可么?
这个问题分两部分回答吧:
PDF 转 HTML;
PDF 和 HTML 结构差别极大,和epub比之HTML(epub只是HTML/XHTML的封装)
或者 Markdown 比之HTML(Markdown和HTML逻辑结构类似)有本质的区别。
目前有很多转换工具,可以用谷歌搜:PDF to HTML。需要注意的是,转换效果都不会很好。
Gitbook上的PDF文档是由其它格式转换而来的(默认Markdown)。即 Markdown -> PDF;
所以你可以尝试获取该PDF的Markdown源码,再转换成HTML。
建议选择这条路。
有个第三方python库可以很轻松解决这个问题,这个是项目的托管地址
[https://github.com/coolwanglu...
它的具体用法在这里
https://github.com/coolwanglu...
http://app.xunjiepdf.com/pdf2...
楼主你是不是在一个Python-flask的群里。。昵称彼岸花开。。
编橙之家文章,
相关内容
- 防止爬虫IP被屏蔽的应对方法代码放在哪里有效果requ
- mongo 2.6.3释放已删除mongodb集合空间方法是什么,mongom
- 请教Python内存合理分配及引用问题,python合理分配,如下
- Python适合新手练手项目推荐,python新手练手项目,我不是
- python中用requests模块登录状态cookie相关问题求助,pyth
- 想用python做一个投票站.求个思路,python投票站,希望有
- Python selenium抓取数据PhantomJS快速报错,seleniumphantomjs,
- Python对外服务经常被扫描如何应对,python对外服务应对
- Python检测数据是否为空用什么方法,python检测,现在的实
- 求Python BeautifulSoup爬取数据不能正常运行源码修正,,
评论关闭