Python批量提取PDF中的信息,Python提取PDF数据到Excel

  Python批量提取PDF中的信息,Python提取PDF数据到Excel

  作为人力资源部门的小伙伴,经常需要将他人提交的PDF简历中的关键信息和数据提取到excel表格中进行汇总。这时候Python是最合适的实现方式。快来学学怎么实现吧。

  00-1010简介1。将PDF文档中的文本读入word 2。将word中读取的文本输入到excel中

  

目录

  今天给大家分享一个真实的案例。

  今天收到一个人力资源部同事的请求,想把别人提交的PDF简历中的关键信息数据提取到excel中进行汇总。

  背景:是求职者自己整理的简历材料,投递到人力资源部。由于其数据格式的不确定性,很难收集数据信息。

  我的解决方案是:先从PDF文档中抓取文字信息保存在word文档中,然后从word文档中读取文字信息保存在excel中。

  

介绍

  导入pdf木材

  从docx导入文档

  包含Plumber.open的pdf(CV 1632532336 . pdf,共1 _ 5页)为RPDF 3360

  first_page=rpdf.pages[0]

  print(first_page.extract_text())

  doc=Document()

  rpdfword=first _ page . extract _ text()

  pages=doc . add _ paragraph(rpdfword)

  Doc.save (Test 2.docx )

  结果如下:

  

1.将PDF文档中的文字读取到word中

  #导入所需的库

  从docx导入文档

  将xlwings导入为xw

  #写入数据

  def excel_write(a,路径,工作表名称,写入列数,写入行数):

  app=xw。App(visible=False,add_book=False)

  app.display_alerts=False

  app.screen_updating=False

  wb=app.books.open(路径)

  sht=WB . sheets[工作表名称]

  魏徵=[]

  尝试:

  i=0

  而我!=len(写入列数):

  j=0

  而j!=len(写入行数):

  weizhi . append(write _ cols[I]str(write _ rows[j]))

  j=1

  i=1

  k=0

  而k!=len(a):

  sht.range(魏徵[k])。值=a[k]。文本

  打印(魏徵[k])

  k=1

  最后:

  wb.save()

  wb.close()

  app.kill()

  if __name__==__main__:

  #打开一个word文档

  Document=Document(u test 2.docx )

  #获取所有段落

  所有段落=文档.段落

  打印(len(all_paragraphs))

  Excel_path=r 信息统计表(模板)。xls

  SheetName=rSheet1

  wcols=[c , d , I , h , e , f , j , L]

  #在新的一行阅读新的简历。

  wrow=[3]

  excel_write(all_paragraphs,excel_path,SheetName,wcols,wrow)

  结果如下:

  在word中阅读汉字时,需要分配相应的关键信息字符,必要时删除非关键信息。

  关于Python提取PDF简历信息并保存在Excel中的这篇文章到此结束。有关Python提取PDF信息的更多信息,请搜索热门IT软件开发工作室之前的文章或继续浏览下面的相关文章。希望大家以后多多支持热门IT软件开发工作室!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: