我正在进行PDF扫描,在这里我想从pdf中提取文本。我使用pdf Multithreading.pdf进行搜索。我能够提取文本,但不能从文本中提取空格,我只得到TJ操作符的回调,而不是Tj的回调。有什么问题吗?
谢谢
发布于 2014-11-20 14:18:12
我能够提取文本,但不能从文本中提取空格,我只得到TJ操作符的回调,而不是Tj的回调。
原因是在你的样本文件里
例如,标题页的文本绘图操作

包括:
BT
/F0 50 Tf
1 0 0 1 60 669.225 Tm
(\0006)Tj % T
1 0 0 1 83.527 669.225 Tm
(\000J\000T)Tj % hr
1 0 0 1 125.631 669.225 Tm
(\000G\000C\000F\000K\000P\000I)Tj % eading
1 0 0 1 273.395 669.225 Tm
(\0002)Tj % P
1 0 0 1 298.272 669.225 Tm
(\000T)Tj % r
1 0 0 1 313.599 669.225 Tm
(\000Q)Tj % o
1 0 0 1 340.076 669.225 Tm
(\000I\000T)Tj % gr
1 0 0 1 382.43 669.225 Tm
(\000C\000O\000O\000K\000P\000I)Tj % amming
0 Tc
1 0 0 1 60 609.225 Tm
(\000\))Tj % G
1 0 0 1 91.7 609.225 Tm
(\000W\000K\000F\000G)Tj % uide
ET 在Tj文本绘图操作中没有空白,只能使用Tm在绘图位置上移动。
https://stackoverflow.com/questions/27039673
复制相似问题