python3如何解析处理pdf文件并提取信息

 时间:2024-10-16 10:05:02

1、首先在windows10打开cmd,选择一个虚拟环境,进入到该虚拟环境中,用命令pip install pdfminer3k下载解析库,如下图所示:

python3如何解析处理pdf文件并提取信息

2、标准pdf文档解析如下图所示,导入pdfminer个文件解析模块,设备模块,页面锟侯希哇处理模块,并创建PDF解析对象,判断该pdf是否可以解析,如果最后对pdf的每一页进行解析处理,具体代码和讲解如下图所示:

python3如何解析处理pdf文件并提取信息

3、对于日常的python编程更倾向于用类把功能进行封装,如下图所示,是将pdf进行解析成txt类的详细讲解。

python3如何解析处理pdf文件并提取信息

4、运行该程序,输出结果如下所示:可以发现pdfminer库解析pdf速度很快,而且解析的也很好。

python3如何解析处理pdf文件并提取信息

5、pdf文档转换成byte字符流,需要先把byte转换成str字符流,接着对文本进行处理,根据所需要的信息进行提取。

python3如何解析处理pdf文件并提取信息

6、pdf文件处理经常是需要批量处理的,此函数是用来把文件夹下所有的pdf的路径读取出来,便于python程序批量处理,具体的程序和输出结果如下所示:

python3如何解析处理pdf文件并提取信息

7、在所有的pdf文件中查找单词'also',运行刚才的程序,会有如下所示,可以发现共输出了158个结果,并且每一个结果里都有'also'这个单词的那句话。

python3如何解析处理pdf文件并提取信息

8、对于解析提取pdf的关键信息,为了操作方便起见,需要在python文件的外部进行传参数,具体如下图所示,最主要的命令为sys.argv。

python3如何解析处理pdf文件并提取信息

9、解析处理pdf文件并提取信息需要一系列复杂操作,先是要进入到程序所在的位置,然后激活虚拟环境,接着需要传参,可以直接用bat一家操作全部完成,非常方便快捷。

python3如何解析处理pdf文件并提取信息
  • Adobe Acrobat怎么调节页码的位置
  • word中怎么为多个文件名创建文档?
  • EXCEL技巧——用VBA实现公司员工等级评定
  • 如何在word中编辑excel图表?
  • 如何将excel中图表粘贴到word中并自动更新数据
  • 热门搜索
    田横岛旅游度假区 双系统怎么装 孕妇可以吃桂圆吗 老公有外遇怎么处理 郑州旅游职业学院 伊美尔整形怎么样 吃什么可以降低血糖 易县旅游 青少年掉头发怎么办 电脑一体机怎么样