为什么 pdf 和 word 存储文档方式不同
pdf 将页面保存为固定的绘图, 把每个字母和图片放在页面的某个位置, word 把文本保存为段落, 样式和会随字体或页面大小变化的对象, 因为 pdf...字体, 间距和字符定位
pdf 可以嵌入字体或使用精确的字符间距, 转换器可能找不到精确的字体而替换成别的字体, 不同字体会改变换行和间距, 还有些 pdf 把文本作为单个字符或小组绘制以控制精确位置,..., 转换这些需要光学字符识别 ocr, ocr 常常误读字母和布局, 磨针工具软件 可以提醒需要手动校对的部分, 这是普通人觉得方便的地方....常见问题(FAQ)
任何工具都能完美转换 pdf 吗
不能, 有些工具在带标签或简单布局的 pdf 上表现更好, 复杂页面, 大量图形或扫描件很少能在不人工修复的情况下完美转换.
...为什么单词会被拆分或出现多余空格
因为有些 pdf 为了控制布局把字符单独放置, 转换器在解释这些分离片段为单词或行时可能插入空格或换行.