深入浅出数据分析 pdf_深入浅出数据分析_深入浅出数据分析 - 腾讯云开发者社区

open-source、sql、data

我有80,000 PDF(白皮书，电子书)将用于市场营销.我迫切需要寻找一个工具(希望是开源的)，用于文本挖掘，分类，根据它的行业，子行业对80,000个PDF进行分类。我希望文本挖掘工具能够为我提供正确的行业分类和内容内容分类，而不是每一个PDF文档。举例说明。 FileName/AssetName Industry Content Matter Oracle_Security_Cloud_Platform.pdf Cloud Technology Overview Oracle_S

浏览 0提问于2020-12-26得票数 0

1回答

转换PDF文件为XML文件，最好使用ITextSharp

c#、xml、pdf、itext

我有一个PDF文档，我需要从中读取数据。我发现，当我将上述PDF转换为XML文档时，可以从其中读取方便的标记，因此我需要一种方法来在代码中将我的文件转换为xml，这样我就可以使用映射文件将数据内容读取到数据库中。

浏览 2提问于2012-06-22得票数 3

1回答

想要在没有扩展的网页上显示pdf名称

php、string

我想在网页上显示上传的pdf。pdf的名称来自带有时间戳的数据库。如何在没有时间戳和扩展的情况下只显示pdf名称？这是我的代码，但它没有生成所需的输出。 $count = strlen($promotion_data->pdf1); $pos=strrpos($promotion_data->pdf1,"_"); $poz = $count - $pos; $SavePath=substr($promotion_data->pdf1,0,$poz);//name to echo 数据库中的文件名开始-Zend_1399126117.pdf。

浏览 1提问于2014-05-05得票数 0

回答已采纳

1回答

marklogic中的数据分析/分析工具

marklogic、marklogic-dhf

我正在处理一个用例，在这个用例中，我将以csv/excel/pdf格式“按原样”将源数据加载到marklogic。稍后，我们需要使用marklogic中的一些工具进行数据分析/分析。在google上搜索，我在一些博客中看到一个名为“数据分析器”的工具。没有关于数据分析器工具的信息或GitHub项目。如果任何人知道数据分析器或marklogic中的任何数据分析/分析工具，请给予帮助。

浏览 0提问于2018-06-05得票数 0

1回答

BradleyTerry2包在模型结果中缺少一个播放器

r、bradleyterry2

我有23个“玩家”的数据。他们中的一些人玩了一次或多次(但不是所有可能的对子)。我拥有的数据集(参见下面的dput )包括一个玩家对另一个玩家获胜和失败的次数。我用它来拟合一个使用BradleyTerry2包的BT模型。我的问题是，模型给了我22个玩家的系数，而不是23个。有人能帮我找出问题出在哪里吗？下面是我的数据的dput (head) structure(list(player1 = structure(c(1L, 1L, 1L, 1L, 1L, 1L), .Label = c("a12TTT.pdf", "a15.pdf", "a17.pdf

浏览 16提问于2021-05-20得票数 0

1回答

创建PDF报告花费了这么多时间

php、tcpdf

我一直在使用tcpdf导出我的数据到pdf，第一，我有一个错误，说分配的内存是不够的，然后我增加了内存大小使用ini_set()。现在大约需要5分钟才能生成PDF文件，pdf文件包含19页数据。有人能建议我如何优化性能吗？我可以使用像PDFCreator这样的软件打印报告而不导出文件吗？

浏览 0提问于2012-05-25得票数 0

2回答

将PDF转换为文本-保留表格行- Python

python、pdf、text、converter

我有pdf文档中的表格，我想将其转换为文本。我找到了以下代码，它可以将pdf转换为文本。但是，当它转换时，它不会将数据保留在正确的行中。它将所有内容放在一行长字符串中。当使用Python从PDF转换为文本时，有没有办法保留表中的行？ from pdfminer.pdfparser import PDFDocument, PDFParser from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, process_pdf from pdfminer.pdfdevice import PDFDevice, TagE

浏览 0提问于2012-03-07得票数 2

1回答

使用pyspark在azure synapse studio中获取文件的完整路径

azure、azure-blob-storage、azure-synapse

我需要处理我的存储帐户中的pdf文件。在本地环境中，我们使用获取文件'C:\ path \file1.pdf‘的路径。但是我如何访问Azure synapse studio pyspark(python)中azure存储帐户中的数据？

浏览 0提问于2021-10-15得票数 0

4回答

任何人都知道有一个好的C#代码分析器/分析器可以帮助优化help服务

c#、web-services、optimization

我有一个网络服务，这是非常需要一些优化。它位于一个驻留在虚拟服务器上的企业应用程序上，并且遇到了一个巨大的瓶颈。我对自己的技能很有信心，并且能够让这件事变得更有效率，但我想知道是否有人对分析器或优化工具有过良好的经验，这些工具可以帮助我找到问题所在。 webservices的主要功能是生成PDF，这些PDF是使用Sql报告和第三方PDF Writer实用程序创建的。基本上，它获取一个ID并根据与该ID关联的表单数量创建X个数的PDF。因此，它有一个平均可以运行8次/ ID的循环，每天发送数千个ID。不用说，总是有一个要创建的PDF的积压日志，这是客户端不愿看到的。我也考虑过运行多线程来异步生

浏览 1提问于2012-05-12得票数 0

回答已采纳

1回答

如何使用matplotlib和python在PDF中创建自定义报告

python、matplotlib

我在一个项目中工作，在那里我必须提出的图表/graph创建使用matplotlib与python3的PDF格式。PDF必须携带数据、自定义标题以及图表/图形。PDF也可以是多页报表。我知道我们可以将matplotlib图表存储为PDF格式。但我正在寻找任何解决方案，如果我们可以实现PDF格式的数据，图表和自定义文本。

浏览 0提问于2019-11-11得票数 0

1回答

使用hadoop和相关技术对大量不同格式的文档进行索引和搜索

hadoop、full-text-search、bigdata

在我们的组织中，我们试图围绕大数据、、Hadoop、和相关的生态系统开发一些能力。我们正在考虑做一个概念的证明，我们的目标是存储，索引和搜索大量的PDF文件，电子邮件文档和word文档。首先，我想知道这是一个大数据用例吗？如果是，那么它是hadoop用例吗？如果是这样的话，我们应该追求什么技术呢？我们尝试将PDF存储在HDFS中，并通过mapper作业并行地创建lucene索引，并将索引存储在数据节点本地临时目录中。但我们不确定我们是否做对了，如何使它成为适当的大数据Hadoop用例，以及如何在技术堆栈上做出决定，无论是Hadoop还是no SQL db，还是SOLR等等。我们的目标

浏览 1提问于2014-08-07得票数 0

1回答

测量与数据库相关的网站的运行时间

java、database、time、webclient、measure

我需要测量从数据库请求数据到数据可视化所用的时间。我正在使用一个与大型数据库相关的with客户端。当创建一个报告(作为pdf文档)时，webclient将访问数据库。在访问和计算报告所需的数据时，pdf文档已经在web浏览器中的新页面中打开，并显示URL为“about:空白”和“等待...”(... =将其等待的位置关联起来)。实际上，我需要从“等待...”开始所经过的时间。我的想法是测量时间，从pdf文档的新窗口打开的那一刻到'about:blank‘的末尾，只需使用： long lStartTime = System.currentTimeMillis(); //task t

浏览 14提问于2016-09-21得票数 0

1回答

pdfplumber可以为我扫描的pdf提取表格吗？

python、pdf、data-extraction、historical-db、pdfplumber

(我知道pdfplumber主要是针对计算机生成的PDF。然而，在我花几天时间从扫描的PDF文件中手动输入数据之前，我想我应该问问pdfplumber是否能以某种方式帮助我。) 我的问题是：我已经扫描了历史书籍中的PDF文件。示例：现在，我正在尝试从扫描的PDF中提取表格(示例中右下角的表格)。我第一次用pdfplumber解压表格的尝试没有成功。例如： with pdfplumber.open('test.pdf') as pdf: page = pdf.pages[0] tables = page.extract_tables() print(tables) 返回

浏览 9提问于2021-11-18得票数 0

1回答

xxTEA上纯密文攻击的差分密码分析

encryption、cryptanalysis、tea

在我的IoT项目中，我使用xxTEA加密算法加密我的数据。我对所有数据包都使用相同的加密密钥，因为我没有可能在Alice和Bob之间进行密钥交换。我想知道要多少包才能推断出我的钥匙。我查看了Alex的文档，名为“对仅密文攻击的差分密码分析”(https://link.springer.com/content/pdf/10.1007%2FBFb0055721.pdf)，但我不明白所有的内容，也找不到给我所寻找的结果的计算结果。我每分钟发送两个数据包，在加密变得不安全之前，我想知道我需要多久更改一次密钥。

浏览 0提问于2021-06-09得票数 2

1回答

将PDF分割成逐行图像(OCR模型训练)

python、pdf、imagemagick、ocr、tesseract

我有一个包含扫描文本的PDF的大集合，我想要OCR。没有任何商业工具(Abby、PhantomPDF、Acrobat )、服务(Google )或开源(使用tesseract、kraken)进行过预培训的模型能够以足够准确的方式对文本进行OCR。我有一些PDF的原始形式(与完整的文本)，这意味着我有一个合理的数量，地面真相训练数据，在字体，页面结构等巨大的重叠。似乎每一种训练您自己的OCR模型的方法都要求您的训练数据逐行设置，这意味着我需要在训练中将每一行数百页的PDF裁剪成单独的图像(然后我可以简单地将培训中的文本分割-PDF逐行创建相应的gt.txt文件，以便用于tesseract或

浏览 0提问于2020-03-15得票数 1

2回答

使用表单识别器解析内容错误

microsoft-cognitive、azure-cognitive-services、azure-form-recognizer

在试图分析作为架构图的PDF文件时，我收到了以下错误： { "error": { "code": "2018", "innerError": { "requestId": "7ffbbd94-fab5-4200-b32c-990d6029a1cc" }, "message": "Content parsing error." } } 我正在使用表单Recognize

浏览 3提问于2019-12-15得票数 0

1回答

如何使用python和amazon-textract检索PDF格式的表单数据(键值对)？

python-3.x、forms、amazon-web-services、amazon-textract

我曾尝试使用Analyze Document来检索数据，但此函数只允许图像文件。那么如何获取PDF文件中的表单数据(键值对)呢？

浏览 9提问于2019-09-26得票数 0

4回答

Python 3-从PDF中进行数据挖掘

python、python-3.x、pdf、toolkit、foxit

我正在做一个需要从PDF文档中获取数据的项目。目前，我使用Foxit toolkit (从脚本调用它)将文档转换为txt，然后迭代它。我对此相当满意，但100$，这只是一个我负担不起的小项目。我已经测试了我能找到的所有免费转换器(比如xpdf，pdftotext)，但是它们就是不切断它，它们在某种程度上搞砸了格式，以至于我无法用单词来定位数据。我尝试过一些Python模块，比如pdfminer，但是它们在Python 3中似乎不太好用。在数据转换成PDF之前，我无法得到数据，因为我是从电话运营商那里得到的。我正在寻找一种从PDF或获取数据的方法，这是一个转换器，它

浏览 6提问于2016-08-17得票数 4

1回答

Django/Postgres中的数据库性能

django、database、performance

在我为员工提供的一个视图中，我展示了我网站上的最后10个注册商以及他们的一些活动，如下所示： recentlyjoined = User.objects.order_by('-date_joined').annotate(post_count=Count('post', distinct=True), text_count=Count('text', distinct=True),

浏览 4提问于2021-04-09得票数 1

1回答

Azure DevOps PDF导出纸浆建议

azure、plugins、azure-devops、export、report

我使用jenkins构建作业，并通过worksapce中的restful api获得pdf报告，并使用"HTML Publisher“插件在作业摘要下载中呈现pdf报告。现在我需要转到azure devops来工作，azure devops也有"HTML Publisher“，但没有办法像jenkins那样呈现它 Azure上的jenkins HTML Publisher有没有类似的插件，可以让我在摘要中查看报告或下载它们？或者，有没有其他方式可以提供报告演示？(压缩成zip文件，直接显示pdf，或其他方法...)

浏览 19提问于2020-03-17得票数 1

1回答

如何可视化地分析和跟踪git repo中的所有源代码和资产文件大小？

git

我想看看repo的当前状态，以了解所有跟踪文件的当前大小，如HTML，PHP CSS，JS，图像，PDF和所有其他文件。我想看看像这样的东西然后，我想要跟踪所有这些文件类型的更改，以了解有多少数据被删除或添加。有没有工具可以做到这一点？

浏览 0提问于2020-02-05得票数 1

2回答

检查pdf中的javascript是否是恶意的

javascript、pdf、code-execution

我使用迪迪埃·史蒂文斯的pdfid.py来检查pdf，它找到了与pdf相关的js和自动操作： 📷 如何检查这是否是恶意代码？

浏览 0提问于2023-05-05得票数 1

回答已采纳

1回答

将文件上载到Microsoft窗体识别器的问题

azure、azure-form-recognizer

当我试图将PDF文件发送到微软的表单识别服务时，我遇到了一些麻烦。而不是发送PDF位置，我需要发送PDF文件。根据我的经验，发送文件可以使用base64完成，但似乎Microsoft与base64格式不兼容。每当我尝试发送文件时，服务器响应： {“错误”：{“代码”："1000"，“消息”：“无效输入文件”} 我需要知道如何将我的PDF转换为所需的应用程序/ PDF“二进制PDF数据”。我找不到任何有关这种转换的文档。表单Recognizer网页是：在这里您可以找到完整的文档网页：谢谢!

浏览 3提问于2021-03-31得票数 0

1回答

使用Azure应用程序服务下载pdf文件时出现406错误(不可接受)

angular、azure、asp.net-web-api、.net-core、azure-web-app-service

WebAPI：.NetCore 2.0；前端/APP：角4；我在我的webapi中有一个导出到pdf文件的方法，这个方法在我的机器上工作，但是在Azure上发布之后就不能工作了。这是控制器上的方法： [HttpGet("DownloadPDF")] public IActionResult DownloadPropostaPDF(int propostaId) { var telemetry = new TelemetryClient(); try { var nomeProposta

浏览 1提问于2018-01-15得票数 0

回答已采纳

1回答

在搜索中未找到但在弹性搜索中的项向量中存在的项

java、elasticsearch

我在我的数据集中有一个术语，它不给出任何搜索结果，但存在于文档中。如果我请求一个术语向量： GET index_5589b14f3004fb6be70e4724/document_set/382.txt/_termvector { "fields" : ["plain_text", "pdf_text"], "term_statistics" : true, "field_statistics" : true } 向量一词有一个词： ... "advis"

浏览 2提问于2015-07-25得票数 2

回答已采纳

2回答

NFOP性能问题

xsl-fo、apache-fop

我们在一个项目(C#，ASP.NET 2.0)中使用NFOP最终将ASP.NET文件返回给用户。目前的过程如下：存储过程-> XML XML -> XSLT -> XSL-FO -> NFOP -> PDF 这工作得很好，PDF生成得很漂亮。问题是，它需要300+秒来完成它。蚁群分析器表明问题位于 driver.run() 方法在NFOP中。这不是大量的数据，进入nfop驱动程序对象的xsl源的大小是980 k。这个问题最有可能的来源和解决方法是什么？任何提示或提示或答案都非常感谢，我们应该在上午11点前往VA扫描。：

浏览 1提问于2009-06-22得票数 0

1回答

非英语语言的搜索/索引问题

java、pdf、utf-8、solr

我试图在solr中索引PDF文件，但看起来在将文本转换为UTF-8字符时发生了更改。例如，下面突出显示的文本：转换为：搜索适用于以后的关键字，而不是原始词。据我所知，在索引之前将PDF文本转换为UTF-8时会发生这种情况。下面是用于索引的代码，供参考： String solrUrlString = "http://localhost:8983/solr/example"; SolrClient solr = new HttpSolrClient(solrUrlString); ContentStreamUpdateRequest u

浏览 17提问于2016-08-20得票数 2

1回答

如何将字符串用作r中的公式

r、for-loop、statistics、linear-regression、anova

我正在尝试对我所有的数据帧列进行time_of_day的方差分析，这是一个因素。我的其余列都是双精度的，长度相等。 x = 0 pdf("Time_of_Day.pdf") for (i in names(data_in)){ if(x > 9){ test <- aov(paste(i, "~ time_of_day"), data = data_in) } x = x+1 } dev.off() 运行此代码会出现以下错误： Error: $ operator is invalid for atomic vectors 我的代码

浏览 1提问于2016-08-25得票数 0

回答已采纳

1回答

使用Pdfbox写入Adobe读取器后，PDF顶形字段变得不可编辑

pdfbox

我正在阅读一个PDF，它有可编辑的字段，这些字段可以通过Adobe打开来编辑。我使用PDFBox API生成一个输出PDF，并为输入PDF中的可编辑字段填充数据。输出PDF可以使用Adobe打开，我可以看到字段值，但我不能直接从Adobe编辑这些字段。也有一张JIRA关于这一问题的票证，根据这一链接，这一问题尚未解决：有人能告诉我如果这件事解决了吗？此外，如有可能，请回答以下与我的问题有关的问题：是否有任何保护策略或访问权限，我需要显式设置，以编辑输出PDF从Adobe阅读器？每次打开写入使用pdfbox的PDF时，我都会得到以下消息提示： “自文档创建以来，文档已

浏览 5提问于2014-08-20得票数 1

1回答

windows商店应用程序中没有释放内存

c#、memory-leaks、windows-store-apps、pdf-generation

我已经用c#创建了windows商店应用程序。其中，我正在使用pdfdocument类创建图像表单pdf，并在图像中显示。在按钮单击，我要删除对象，并调用垃圾收集器后，所有的对象，为什么内存不释放？ doc = await PdfDocument.LoadFromFileAsync(file); if (doc != null) { for (int i = 0; i < doc.PageCount; i++) { PdfPage pdf_page = doc.GetPage(

浏览 3提问于2013-11-30得票数 1

回答已采纳

2回答

使用ephtmltopdf将html转换为pdf花费的时间太长。

c#、asp.net、pdf、pdf-generation

我正在使用ephtmltopdf dll将一个html页面转换为pdf.It。我正在将一个数据表加载到aspx页面中并将其转换为pdf.I。当数据表的大小小于100到200 records.In时，效果很好。这种情况下，它需要大约2分钟，或者so.But需要太长时间，这种情况下，大小就像一些3000+ records.In。这种情况下，大约需要3个小时才能将aspx页面转换为pdf.The。结果是，在这两个页面中，cases.It是所用的时间，problem.There在代码中什么都不是，可以optimised.Is删除任何数据都可以完成。我正在使用asp.Net c#。

浏览 0提问于2011-10-26得票数 1

回答已采纳

1回答

在生成PDF文档并使用iText 7合并它时，如何消除PDF错误和iText警告消息？

itext、itext7

我使用iText版本7.1.6来生成PDF文档，最后我尝试合并它。下面是与注释合并的代码。 List<byte[]> pdfDocumentList= new ArrayList<byte[]>(); // pdfDocumentList has list of byte arrays generated from other ways ByteArrayOutputStream mergeOutputStream = new ByteArrayOutputStream(); PdfDocument pdfMerged = new PdfDocument(new P

浏览 3提问于2019-07-18得票数 0

回答已采纳

3回答

检查Fortify版本和Fortify规则包版本的命令是什么？

fortify

我是新来Fortify的。我需要将Fortify版本和Fortify规则包版本添加到PDF Fortify报告中？我需要将该命令添加到模板中，以便在运行reportGenerator时，它将动态选取版本号并更新PDF，而不是硬编码Fortify版本。您能让我们知道检查Fortify版本和规则包版本的命令(不是通过GUI，通过控制台模式或命令行) 谢谢。

浏览 2提问于2013-11-08得票数 0

2回答

根据简单但大的数据创建许多表格和图表的战略(人口普查)

java、jdbc、statistics、business-intelligence

我们的任务是从人口普查数据中创建许多统计分析(很多数据，但容易分析-大部分是(子)和数据)。这些分析将被表示为表格和图表(在web-2语言中-和pdf)，让我们假设数据存储问题得到了解决(SQL，良好的结构)。网络应用软件(GWT)和Pdf (iText)软件主要是完成的.我们“只”需要改变数据的后端。有效地创建这些分析和表示(表格、图表)的好策略是什么？我想到了两种不同的方式：简单的java编程: jdbc或jpa，jfreechart (这里我们有经验，无聊的编程) 比工具birt，jasper，pentaho，palo.(学习使用它们，无聊的指向和点击) 但可能还有第

浏览 8提问于2012-07-13得票数 3

1回答

Django - pdf响应编码错误- reportlab

python、django、character-encoding、pdf-generation、reportlab

我正在Django后端上开发一个PDF生成器，我使用reportlab。它似乎有效，但编码不正确。当我使用透明字符时，它会得到错误的字符/符号。这个问题非常类似于：但是我使用reportlab，它允许添加字体。我在reportlab注册了一种支持波兰方言的字体："Aleo“。 pdfmetrics.registerFont(TTFont('Aleo', './resources/fonts/Aleo/Aleo-Light.ttf')) pdfmetrics.registerFont(TTFont('AleoBd', './re

浏览 6提问于2020-05-19得票数 3

回答已采纳

2回答

向pdf中添加图像时出现的问题

java、pdf-generation、itext

我正在用java和itext生成pdf。当我添加图像，我们以前使用的版本的pdf，一切都很好。但是当我用新的(它们都是png-s)替换它时，它会腐蚀PDF (我的pdf阅读器返回“不是pdf或损坏)”。在保存图像时，有什么特殊的东西必须设置吗？这给我带来了jpg的同样问题。在生成pdf的过程中没有抛出的异常。更新：我最终成功地添加了这个图像，但它是在减少颜色的数量之后。另外，我使用的是iText 2.0.6 (由lowagie.com编写)

浏览 0提问于2010-10-19得票数 0

回答已采纳

1回答

elasticsearch中的部分搜索只适用于一个记录，而不是其他记录。

elasticsearch、elasticsearch-query、elasticsearch-analyzers

弹性搜索是用下面的身体创建的 body = { "mappings": { "properties": { "TokenizedDocumentFileName": { "type": "text", "analyzer": "my_analyzer", "search_analyzer

浏览 2提问于2021-07-23得票数 0

回答已采纳

2回答

加强投诉“硬编码加密密钥”mozila pdf.js

javascript、jquery、pdf、mozilla、fortify

在我的项目中，我们使用来自Mozilla的pdf.js，现在强化扫描抱怨“硬编码加密密钥”的.See，如下图所示请提供一些关于this.Using第2版pdf.js的帮助

浏览 2提问于2019-07-05得票数 2

回答已采纳

3回答

如何在solr查询中从PDF中排除索引的文本

pdf、indexing、solr

我有一个从PDF文件目录生成的solr索引，并对应与pdf文件本身相关的元数据字段。尽管如此，我仍然希望为我的用户提供一个选项，以便在查询中排除从PDF中索引的任何文本。这是因为查询结果将基于元数据字段，而不会因pdf文件中的大量文本而产生偏差。我想过可能有两个索引(核心)-一个有索引的pdf文件，另一个没有。还有别的办法吗？

浏览 6提问于2017-05-29得票数 0

1回答

JTable非常慢

java、user-interface、swing、jtable

我在swing应用程序中有一个JTable。我写了一个又快又脏的移出操作，将JTable从它的默认父对象中删除，并添加到一个单独的JFrame中。当JTable脱离对接并放在单独的JPane上时，它在JTable中移动的速度真的很慢……一旦我把它放回原处，它就又恢复正常了……下面是undocker的代码。有什么想法吗？谢谢 JTABLE UNDOCKER public class MatrixWindowUndocker implements ActionListener{ private static final Logger logger = Logger.getLogger(

浏览 1提问于2010-08-12得票数 1

回答已采纳

1回答

如何在mvc页面中显示blob文件？

asp.net-mvc-2、blob

我上传了一些不同的blob类型(.pdf、.xls、.gif )。.png ...)在数据库里。现在，我想显示它的图标(按类型)，并在我的视图页面中读取它的blob内容，例如，如果这是pdf文件显示pdf图标，并双击打开该文件。请帮帮我，谢谢

浏览 0提问于2011-01-23得票数 0

1回答

哪些隐藏的元数据可能嵌入到“肉眼”不可见的PDF中？

data-leakage、confidentiality、pdf、sensitive-data-exposure

我在Acrobat中编辑了一个PDF文件，其中留下了一些元数据，我想知道：如果我将其发送给外部方，可以从结束文件中识别出哪些元数据？要从PDF文件中删除不可见的元数据，需要采取哪些行动？

浏览 0提问于2022-01-30得票数 0

1回答

评测PDF时是否有大小限制？

watson-knowledge-catalog

当我尝试分析一个pdf文件时，它有时工作，有时不工作。Watson Knowledge Catalog中可以分析的内容是否有大小限制？

浏览 25提问于2019-06-21得票数 0

1回答

使用德语简单的弹力搜索PDF文本

elasticsearch、pdf、ocr、apache-tika

我可以从我的PDF-文件中处理/提取文本，我不知道我是否在正确的方式上存储我的内容在Elasticsearch中。我的PDF--文本大多是德语--字母如“(”)、“(”)等等。为了存储内容的每个字符，我“转义”了必要的字符，并将它们正确地编码为JSON，以便存储它们。例如：我想储存以下(PDF)文本： Öffentliche Verkehrsmittel. TestPath: C:\Windows\explorer.exe 我将其转换并上传到Elasticsearch，如下所示： {"text":"\\u00D6ffentliche Verkehrsmittel

浏览 1提问于2020-05-13得票数 1

回答已采纳

1回答

我如何调和我的谷歌分析数字和我的广场分析？

google-analytics、analytics

根据Squarespace的说法，上个月我的页面浏览量为259次，独特的访问者为172次，机器人的点击量为1 965次。根据的数据，它更像是346个页面浏览量，97个Uniques (没有关于机器人的数据)。目前，我在这两种分析中都为自己的流量(不包括家庭/工作)设置了过滤器。我该如何调和两者，或相信两者之一呢？以下是导出分析的链接；对不起pdf

浏览 0提问于2010-12-03得票数 1

回答已采纳

1回答

pdf文件文本读取和搜索

iphone、xcode、ipad、pdf、ios4

我想从pdf文件中读取文本，并将文本搜索到pdf文件中。这是我所知道的链接。这些都帮不了我。谢谢, shyam parmar

浏览 0提问于2011-02-24得票数 25

回答已采纳

1回答

在pdf查看器同步中加载pdf

jquery、pdf、syncfusion

我的cshtml中有以下代码： <span id = "/C/documents/demo.pdf" class="viewDoc">Demo.pdf</span> 单击文档名称后，它将击中函数viewDoc，如下所示： function viewDoc(docPath){ $.ajax({ url: "/ViewDoc/LoadPDF", dataType: "text", type: "POST", data: docPath, success:

浏览 0提问于2018-11-02得票数 0

回答已采纳

1回答

用Zend_Pdf编辑1.4以上版本的pdf

php、zend-framework、zend-pdf

我有一个应用程序，它添加一些数据到现有的pdf文件，并保存为另一个pdf文件。对于编辑，我使用的是Zend Framework的一部分，Zend_Pdf，但是它不能用于1.4以上版本的pdf，但是我需要编辑的pdf文件有时比1.4版本更高。我找不到任何可以在这个PHP应用程序中直接解决这个问题的解决方案。那么你知道有什么解决方案可以很好的工作吗？当我尝试编辑更高版本时，它显示此错误： Fatal error: Uncaught exception 'Zend_Pdf_Exception' with message 'PDF file syntax error. Off

浏览 1提问于2012-03-20得票数 0

2回答

elasticsearch -全文搜索具有特殊/保留字符的单词

elasticsearch

我是索引文件，可能包含任何特殊/保留字符，在其全文正文。例如，"PDF/A是可移植文档格式的ISO标准化版本.“ 我希望能够搜索pdf/a，而不必逃避正斜杠。我应该如何分析我的查询字符串以及我应该使用哪种类型的查询？

浏览 4提问于2016-09-06得票数 0

回答已采纳

1回答

使用PyPDF2基于PDF标题将多个PDF合并到单个PDF的特定页面

python、pdf、pypdf2

我有一个PDF文件夹，目前正在使用PyPDF2进行合并。 merger = PdfFileMerger() for file in os.listdir('****'): if file.endswith(".pdf"): merger.append('****'+file) merger.write('****' + str(dt.date.today()) + '.pdf') merger.close() 这些文件包含图形，并且标题非常具体。我希望能够做到的是：基于标

浏览 14提问于2021-03-25得票数 0