,却看到句中换行,奇怪的字体,以及错位的列,这是因为 pdf 注重固定布局,而 word 使用流式文本,转换工具试图解释 pdf 的布局并将其重建为可编辑内容,当 pdf 使用复杂格式,非标准字体,或者内容采用绝对定位而非逻辑阅读顺序时...为什么 pdf 和 word 不同
pdf 保留文本,图片,形状的精确位置,像是一张页面快照,word 文件用于编辑会根据页面设置和样式重新排列文本,当转换器读取 pdf 时它试图将固定位置映射为段落和文本片段...,如果 pdf 使用栏目,人工空格或文本框,转换器可能将文本放错顺序或断开句子,嵌入的字体在你的系统上不存在时,转换器会替代相似字体,从而改变换行和间距,图片和表格常常丢失锚点从相关文本移动开....常见转换问题
断开的换行,原文使用了硬换行或空白导致行在不合适处断开,错误的阅读顺序,视觉上从左到右的文本可能被拼接成不同顺序,字体丢失或被替换,字符显得不同或间距变化,图片和说明位置错误,图形失去与文本的关联跳到其他页面...,表格崩塌,单元格合并或列错位使数字和标签不对齐,项目符号和编号列表丢失层级变成普通文本.