PDFplumber
介绍
读取分析PDF文件,特长分析PDF内文字表格等参数分析
安装
github 地址:(https://github.com/hbh112233abc/pdfplumber)
1 | pip install pdfplumber |
程序调用
1 | import pdfplumber #read PDF file |
注意事项
.chars[] 字符读取
只能读取可显示的ASCii字符,而无法显示 “\n” 之类的非显示字符。
如 “mistake \n”,
会显示 .chars[7] 为 “ “ (space),
而 .chars[8] 不会读取为 “\n” 而是下一行第一个字符,
故一般和 .extract_text() 方法联合使用来分辨换行位置