我发现在MarkLogic数据库中插入无效的XML字符是可能的。只有当我提取一个XML文档时,这一点才会变得很明显,xdmp:quote,然后是xdmp:unquote,于是我得到了一条消息,比如"Invalid character entity '14'“。该字符通过XQuery生成的HTML表单提交进入数据库。我认为用户粘贴了Excel中的文本,其中包含了这些隐藏的内容。
显然,我将来需要检查输入<e
因此,需要扫描文档并将其上传到SharePoint Online上,该will将用作文档存储库。使用OCR的扫描文档的输出为XML格式,并将使用以下相应字段存储在自定义列表库中:
Title (单行文本)=包含扫描文档的标题XML (多行文本)=包含XML格式的扫描文档的索引信息。附件=包含扫描文档</