规格:我公司的服务器运行Jsoup,根据我提供的链接下载pdf
我有时会遇到这样的问题,一个网站有一个我可以从我的浏览器正常下载的文档(pdf或其他格式),但通过我的抓取软件,它返回一个错误,如下所示
出了点问题。哦不!有些地方不太对劲!请尝试重新登录。如果您继续看到此错误,请通过以下地址与我们联系: support@agendapal.com错误描述: MessageInvalid URI:无法解析授权/主机。在SWPalInc.WebHost.Controllers.DController.F(String u,String n)在System.Web.Mvc.ReflectedActionDescriptor.Execute(ControllerContext filter,,Func 1 filters,,System.Uri.CreateThis处的lambda_method(System.String,ControllerBase,Object[] )处的闭包( StackTrace,ControllerBase,Object[]),IDictionary
2 parameters) at System.Web.Mvc.ControllerActionInvoker.InvokeActionMethod(ControllerContext controllerContext, ActionDescriptor actionDescriptor, IDictionary
2参数)。IDictionary`2参数)在System.Web.Mvc.ControllerActionInvoker.InvokeAction(ControllerContext步骤,字符串actionName)在System.Web.Mvc.Controller.ExecuteCore()在System.Web.Mvc.MvcHandler.<>c__DisplayClass6.<>c__DisplayClassb.b__5()步骤)在System.Web.Mvc.Async.AsyncResultWrapper.<>c__DisplayClass1.b__0()在System.Web.HttpApplication.CallHandlerExecutionStep.System.Web.HttpApplication.IExecutionStep.Execute()在System.Web.HttpApplication.ExecuteStep(IExecutionStep步骤,Boolean& completedSynchronously) DataSystem.Collections.ListDictionaryInternal InnerException SourceSystem单击此处并尝试再次登录
当我尝试使用我的公司服务器https://meetings.municode.com/d/f?u=https://agendapalncus.blob.core.windows.net/paonia-pubu/MEET-Agenda-e11f135d48564ad983c6c46949e34894.pdf&n=Agenda-Regular%20Town%20Board%20Meeting-February%2026,%202019%206.30%20PM.pdf从这样的链接中提取pdf时,我收到了这个错误。
我已经尝试使用代理服务器,但我得到了同样的问题,当我抓取它。有谁知道这个问题的解决方案,或者以前见过这个问题?
发布于 2019-02-28 04:06:15
当我尝试用Jsoup解析这个URL时,它抛出
Exception in thread "main" org.jsoup.UnsupportedMimeTypeException: Unhandled content type.
Must be text/*, application/xml, or application/xhtml+xml.
因此,它似乎抛出了适当的、显式的异常。尝试捕获并处理此异常。这就是我在Java中的做法:
try {
doc = Jsoup.connect(url).get();
(...)
} catch (UnsupportedMimeTypeException ex) {
// handle exception here
}
https://stackoverflow.com/questions/54889277
复制相似问题