如何用python把pdf转为word,Python转PDF

  如何用python把pdf转为word,Python转PDF

  目前,有相当多的应用程序支持从PDF中提取表格。

  但是转化的效果真的参差不齐。易用性也不一样。有些要求您编写自己的脚本来完成操作。

  其中转换效果好、使用方便的多为收费。而且有些真的不便宜。

  几经查找对比,终于找到了一款免费好用的工具。而且经过实践尝试,发现转换效果良好。

  在这里,我推荐给你。希望能帮助你在阅读和写作过程中提高PDF表格的数据收集效率。

  固定

  它的名字叫Tabula,网站链接在这里。

  该网站提供了Windows和macOS版本的下载链接,以及相应的源代码。

  我的操作系统是macOS,这里以macOS版本为例。如果使用Windows,操作也是类似的。

  请点击相应的链接下载并安装。

  MacOS系统下载安装文件的压缩包,解压后会出现这样的目录。

  双击其中的Tabula.app,在浏览器中就可以看到这样的Web界面。

  让我们试着转换一个PDF文件。

  试图

  这里我就以BERT论文中的表单集合为例,告诉大家如何使用Tabula。

  点击上图中的浏览按钮,选择硬盘上的PDF文件。

  然后点击导入按钮进行导入。

  导入的PDF文章将显示在pages中。

  你只需要翻到相应的页面,用鼠标勾选表格区域。

  然后点击右上方绿色的“预览并导出提取的数据”按钮,就可以看到提取结果了。

  然后,点击导出按钮,可以将结果导出为CSV格式,并在Excel中打开。

  调整

  但是,在一些复杂表格的提取中,可能会将原来不同的列错误地放在一起。

  比如选择这种形式的时候。

  导出的结果如下所示:

  我该怎么办?

  其实并不难处理。

  我们先将自动转换结果导出为CSV,然后用Excel打开。

  以这里的第一列为例。很明显,这里的三列数据是挤在一起的。

  幸运的是,因为这些数据都是用空格隔开的,所以拆分起来并不困难。

  我们创建两个新的空列来容纳新分解的数据。

  然后在第一列中选择要拆分的数据。

  进入数据菜单,选择文本到列按钮。

  在折叠的上方,一直往前走。

  在第二个屏幕上,选择空格作为分段符号。

  点击完成,就这样。

  你看,拆分成功了吗?

  总结

  看完这篇教程,希望你掌握了以下技巧:你遇到的功能需求可能早就被别人解决了。所以,你可以找工具解决,而不是自己反复发明轮子;

  对于工具搜索,需要掌握主动搜索的技巧。这样,可以快速定位候选人。这里有一个搜索引擎技巧的教程,链接在这里;

  学习使用Tabula自动将表格从PDF文档转换为Excel可读的CSV格式;

  可以使用Excel快速调整没有正确列出的转换结果。

  祝你学习进步!

  阅读延伸

  您也可能对以下主题感兴趣。点击链接查看。

  请喜欢,打赏。也可以在微信关注并置顶我的微信官方账号“nkwangshuyi”。

  如果你对Python和数据科学感兴趣,不妨看看我的系列教程索引贴《如何高效入门数据科学?》,里面有更多有趣的问题和解决方法。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • 怎么在word中下载mathtype,word中怎么导入mathtype
  • php生成word文档的三种实现方式是什么,php 生成word
  • php生成word文档的三种实现方式是什么,php 生成word,PHP生成word文档的三种实现方式
  • IceSword,ice of swords
  • IceSword,ice of swords,IceSword (冰刃) 应用图文指南
  • 基于wordpress的博客建设,如何使用wordpress建站
  • ,,WordPress中设置Post Type自定义文章类型的实例教程
  • ,,MYSQL安装时解决要输入current root password的解决方法
  • 学生成绩管理系统c语言课程设计报告,学生成绩管理系统c语言程序设计,C语言学生成绩管理系统课程设计word版
  • word365怎么转pdf,office365word怎么转换pdf_1
  • Word文档图片不显示,Word文档的图片无法显示出来
  • 如何将多个wps文件合并成一个,WPS多个word文档合并成一个文档
  • wpsword怎么取消首字母大写,wps word取消首字母大写
  • 如何word文档删除空白页,怎样在word文档删除空白页
  • word里面怎么写代码,代码放在word里
  • 留言与评论(共有 条评论)
       
    验证码: