使用php爬电影_php爬取豆瓣电影_php电影 - 腾讯云开发者社区

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。 590859A8-9A1A-4E52-8E60-AD292B16B4A8.png 655C6D0E-4901-4369-AA98-452F9FEFB852.png 4E73A31E-C9C4-45C0-A34E-8EA9AE335A98.jpeg 91321020-9B32-4C77-910A-FA

浏览 330提问于2021-01-09

2回答

单击提交按钮时在后台运行PHP脚本，无需重新加载页面

我需要运行一个php脚本(网站爬虫)上提交按钮点击，而不是页面重新加载。后台脚本运行后，应出现确认/警报弹出窗口，表明站点爬网程序已结束。有什么想法吗？

浏览 0提问于2012-04-17得票数 0

7回答

有哪些PHP网络爬虫库可用？

、

我正在寻找一些健壮的，良好记录的PHP网络爬虫脚本。也许是Java项目的一个port - 我正在寻找免费和非免费的版本。

浏览 2提问于2011-01-30得票数 9

回答已采纳

1回答

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

、

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

浏览 5提问于2011-02-15得票数 0

回答已采纳

1回答

即使网址从seed.txt中删除，网站也会被爬行(Nutch2.1)

、

我在seed.txt中用url-1成功地执行了一次爬行，我可以在MySQL数据库中看到爬行的数据。现在，当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新的爬行时，新的爬行开始于抓取步骤，并且它试图抓取的url是seed.txt中旧的替换的url。我不确定它是从哪里拿到这个旧网址的。我尝试检查隐藏的种子文件，但没有找到，并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题？

浏览 1提问于2013-04-17得票数 1

5回答

谷歌什么时候会重新抓取一个网站？

、

谷歌什么时候会重新抓取一个网站？为什么Google在Cache中有同一页面的两个版本？？ forum.portal.edu.ro/index.php?showtopic=112733&st=25/ forum.portal.edu.ro/index.php?showtopic=112733&st=50为：缓存页

浏览 14提问于2009-08-04得票数 0

回答已采纳

2回答

Wordpress自定义帖子类型中的Strage问题？

我有一个博客，我已经添加了一个自定义的帖子类型‘电影’。我已经将它链接到我的单人电影.php。并添加了以下代码： <div id="container"> <?php $args = array( 'post_type' => 'movies', 'posts_per_page' => 1, 'name' => $_GET['movie'] ); $loop = new WP_Query( $args ); while ( $loop->have

浏览 2提问于2011-09-21得票数 0

1回答

SharePoint 2010 search中的爬网程序影响规则和爬网规则有何不同？

、、

SharePoint 2010 search中的爬网程序影响规则和爬网规则有何不同？

浏览 1提问于2011-02-13得票数 4

回答已采纳

1回答

谷歌网站地图和Robots.txt问题

、

在我们的网站上有一个网站地图网站管理员中心报告说，网站地图中的一些urls被我们的robots.txt屏蔽了，请看，！尽管这些urls在Robots.txt中并不是不允许的。还有其他类似的网址，例如，gamezebo.com/gamelinks出现在我们的网站地图中，但它被报告为“robots.txt限制的网址”。另外，我在站长中心有一个解析结果，上面写着：“第21行:爬行延迟: 10规则被Googlebot忽略”。什么意思？我很感谢你的帮助谢谢。

浏览 3提问于2009-09-28得票数 1

1回答

已暂停爬网问题的计划增量爬网行为

快速问一下，我错误地开始了对我的一个内容源的增量抓取。然后我暂停了它，这样它就不会影响用户了。它将在下一次计划的增量爬网时恢复还是需要手动恢复？

浏览 12提问于2019-12-20得票数 0

1回答

如何使MOSS 2007我的站点配置文件字段不作为可搜索链接？

、、、、

我有一个MOSS 2007实例，其中我的客户希望我的网站配置文件中的内容不显示为链接。我们如何才能做到这一点？我尝试从SSP中删除首选搜索中心url。它做到了这一点，但它也打破了位于页面右上角(欢迎菜单下方)的标准搜索功能。

浏览 1提问于2009-09-28得票数 0

1回答

如何告诉搜索引擎使用我更新的robots.txt文件？

、

以前，我已经阻止了搜索引擎机器人，以防止使用robots.txt文件爬行我的网站，但现在我想取消阻止它们。我更新了robots.txt文件，并允许搜索引擎机器人爬行我的网站，但搜索引擎似乎仍然使用我的旧robots.txt文件，我如何告诉搜索引擎使用我的新robots.txt文件？或者是我的robots.txt文件有什么问题？我的旧robots.txt文件的内容： User-agent: * Disallow: / 我的新robots.txt文件的内容： User-agent: * Allow: / # Disallow these directories, url types &am

浏览 27提问于2019-03-24得票数 2

回答已采纳

4回答

如何使用PHP/jQuery列出文件夹中的所有文件

、、、

上下文你好，我想列出文件夹中的所有文件，所以我首先考虑使用PHP函数在php中这样做，这样做的结果如下： <?php $dir = "/images/"; // Sort in ascending order - this is default $a = scandir($dir); // Sort in descending order $b = scandir($dir,1); print_r($a); print_r($b); ?> 结果：数组( => .1 => ..2 =>电影1.mkv 3 =>电影2.mkv

浏览 0提问于2019-01-12得票数 1

2回答

获取爬行信息的SharePoint接口

、

我正在尝试创建一个自定义报告，它显示当前的爬网时间/持续时间，状态是完全爬网还是增量爬网。有谁知道我可以用什么API来获取这样的信息？

浏览 0提问于2009-06-01得票数 0

回答已采纳

1回答

Nutch Crawler读取分段结果

、、

我使用apache-nutch-crawler1.6进行爬行。在爬行之后，当我尝试使用命令读取爬行结果的内容时 bin/nutch readseg -dump crawl/segments/* segmentAllContent 错误是 Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/ubuntu/nutch/framework/apache-nutch-1.6/blogs/segments/20

浏览 0提问于2013-06-21得票数 1

1回答

java web爬虫无法识别非英语字符

、、、、

我抓取电影列表并将它们存储在我的数据库中。对于只包含英文字符的电影，一切都很好，但问题是，一些包含非英语字符的电影名称无法正确显示。例如，意大利电影"Il pi as crudele dei giorni“被存储为"Il pi& ugrave；crudele dei giorni”。如果有什么解决办法，有人能告诉我吗？(我知道我可以为爬虫设置语言，我已经用意大利语爬行了电影标题，但当我想爬英文标题时，Imdb中还有一些非英语字符的电影) 编辑：这里是我的代码： String baseUrl = "http://www.imdb.com/search/title

浏览 3提问于2014-10-05得票数 1

1回答

在get_terms循环中获取posts

、、

我设置了一个基本循环来显示自定义分类法中的所有术语。 <?php $workshops = get_terms( 'workshop', array( 'orderby' => 'name', 'hide_empty' => 0, ) ); foreach ( $workshops as $workshop ) { ?> <h3><?php echo $workshop->name; ?></h3>

浏览 5提问于2016-10-13得票数 0

3回答

当添加新页面时，Nutch会自动抓取我的站点吗？

当我向网站添加新页面时，会自动爬网吗？

浏览 4提问于2009-11-25得票数 0

1回答

无法检索ID及其列详细信息

、

我正在用PHP和MYSQL.Once开发一个电影预订/预订系统，用户已经点击了他/她想要预订的图像，下一个.php页面应该通过获取电影的ID来显示电影及其细节，如导演、演员、类型等等。我的问题是，它无法获取ID。在网址上，我得到了一个丢失的id=号码 localhost/movieproject/selectedmoviedetails.php?id= 下面是我在php页面上的代码，用户将在其中选择一部电影，我正在测试一部电影以供测试。 <?php $sql=mysqli_query($conn,&

浏览 0提问于2019-01-28得票数 0

1回答

转换浏览器cookies并在cURL爬网中使用

、、

首先，这样做的目的是爬取我们的一个登录应用程序，并获取有关作业运行的数据，而我可能无法通过任何其他方式获取这些数据。我可以通过浏览器登录，也可以检查我的cookie；那么我如何(及时地)将这些信息添加到cURL调用中，以便我可以使用PHP来解析返回页面(和链接)？

浏览 3提问于2015-11-18得票数 0

1回答

在目录中发生文件修改时调用shell脚本

、、、

当许多用户更新电影文件，然后我使用PHP脚本手动更新数据库时，我正在组织一个电影库，这样用户就可以从URL中知道驻留在库中的电影列表。我知道我可以进入Crontab在Linux中，让它在每10个小时运行PHP脚本来更新数据库，但我想知道有没有一种方法，PHP文件可以自动运行时，用户粘贴电影文件到数据库类的通知，这将调用php，使数据库可以被实时更新？我正在使用Linux Mint。

浏览 3提问于2013-12-23得票数 0

1回答

sharepoint 2007搜索爬网

我的问题是:我有sharepoint 2007 web应用程序和windows server 2008操作系统。我在SharePoint2007中做搜索，它工作得很好。最近我添加了一个新的网站页面，但它没有出现在搜索结果中。我也在爬虫日志中查找了它，但我没有找到页面的url。新信息当我切换到windows身份验证时，一切都很好，页面是在搜索process.but中找到的，切换回表单身份验证不会使网页出现在搜索结果中。我的问题是:如何让新页面出现在搜索结果中？

浏览 1提问于2013-01-31得票数 0

2回答

如何使用另一个文件中的图像更改背景？

、、、、

我正在做一个网站来跟踪我的电影收藏。我有一个名为"list.php“的页面，上面列出了我所有的电影标题。每个标题都是可点击的。当您单击该电影时，ajax函数将从另一个名为getmovie.php的文件中检索有关该电影的信息。然后，div展开，信息被放入展开的div中。这很容易做到。为了让网站更漂亮，我想把list.php的背景换成“点击”电影中的海报。数据库存储此海报的路径，getmovie.php将获取该路径。但是如何将list.php中的背景更改为存储在getmovie.php中的路径呢？基本上，我有一个变量，其中包含我想要在另一个文件中设置为背景的图像的路径。我该怎么编码呢？

浏览 2提问于2012-09-17得票数 3

1回答

系统自动更新SQL Server全文索引会导致阻塞和超时

、

自动更新目录中的全文索引的内部系统进程(change tracking = on)需要很长时间才能完成，从而锁定了希望同时访问同一个表的其他查询。除了将更改跟踪设置为关闭之外，是否可以采取其他措施来避免这些影响？保持较小的目录大小是否有帮助，即每个目录一个表？全文目录目前有34 GB大小，其中包含一些包含大量记录的非常大的表。

浏览 22提问于2019-02-22得票数 0

回答已采纳

2回答

PHP搜索引擎重定向到另一个页面

、、

我有一个个人电影数据库网站。我创建了一个搜索引擎，用户可以使用一个或多个搜索标准(即电影长度、标题、类型、演员等等)。搜索引擎是伟大的工作，但我想增加一个“挑选一个随机电影”的功能，这样脚本将选择一个单一的标题，当我们不知道要看什么。现在，我的搜索引擎名为"search.php“，表单指向”sear-go.php“。搜索结果列在一个表中。现在，我想验证用户是否选中了搜索-go.php中的“随机电影”框，如果是这样的话，它将选择一个随机的电影ID，然后显示电影描述(details.php)，而不是显示结果表。我不知道我是否够清楚，让我们简化一下： search.php ->

浏览 2提问于2013-08-08得票数 0

回答已采纳

1回答

在AssociationNavigator中具有AttachmentAssociator属性的自定义索引连接器中搜索

、、、

嗨, 我有一个自定义的索引连接器，通过AssociationNavigator方法与实体相关联。为了( SharePoint 2013的)搜索爬网关联实体，我们需要在关联实体中设置'DirectoryLink‘属性或'AttachmentAccessor’属性，如下所述：* 当我设置DirectoryLink属性时，搜索将搜索关联的实体(子实体)和父实体。但是，当我将子实体设置为作为附件进行爬网时，如果使用AttachmentAccessor属性，爬网程序只会爬行父实体，而忽略相关实体，因此不会对其进行索引。这是自定义连接器的一些问题吗？就像在帖子里一样。如果更改为.n

浏览 4提问于2013-07-12得票数 1

3回答

PHP爬行器用于一个特殊的HTML元素

、

我们有一个简单的HTML页面(用于测试！)： <html> <body> <div class="my"> One </div> <div class="my"> Two </div> <div class="my"> Three </div> <div class="other"> NO </div> <div class="other2"> NO </div> <

浏览 0提问于2014-02-28得票数 3

回答已采纳

1回答

Wordpress自定义文章在单个页面上显示多个帖子

、、、

谢谢你看我的问题。我已经创建了一个叫做“电影”的自定义帖子，我设法让它显示了一个电影列表，并且我创建了一个名为“单电影. page”的页面。我还使用了一个名为“高级自定义字段”的插件来添加字段，问题是当我单击一部电影来获取更多细节时，它会显示所有的电影细节，而我只想点击它。因此，例如，如果我在自定义帖子中添加了4部电影，它将在单电影页面中显示所有4部电影的细节，例如： mydomain.com/movies/avangers-2 上面的url应该只显示来自复仇者联盟2的详细信息，但是它显示了我添加的每一个定制的帖子。，这是单电影的代码 <?php $args = ar

浏览 1提问于2016-10-09得票数 1

1回答

使用户能够在新窗口中返回上一页

、、

我有PHP表单，用户可以在文本框中插入电影名称，然后单击“搜索”按钮，打开一个新窗口，显示包含用户在文本框中插入的单词的电影列表。例如，下面的图片显示电影列表中包含了“froz”这个词：现在，如果用户单击新窗口中的任何电影名称(例如“冻结”)，将显示此页面：从图像中可以看到，窗口在浏览器中没有后台。我的问题是如何使用户返回到上一页(显示电影列表的页面)？这是用户单击“搜索”按钮打开一个新窗口(显示电影列表)时的代码： $('#btnSearch').on('click', function (e) {

浏览 0提问于2014-11-14得票数 0

回答已采纳

1回答

怎样在不使用API的前提下爬取Twitter数据？

、、、、

由于现在Twitter API 数据爬取付费，所以我想在不使用Twitter API的情况下使用python爬取到特定关键词的Twitter数据或者Reddit数据，有什么好办法吗？

浏览 459提问于2024-01-06

1回答

对于日期值，SharePoint 2013“查找项目”搜索返回null

、

微软SharePoint 2013。我有一个任务列表，其中有一些日期列。每当我尝试在列表上方的Serach框中搜索日期值时，我都得不到任何项目。其他值在搜索框中工作正常。请帮帮我。未启用内容审批

浏览 10提问于2019-04-16得票数 0

2回答

如何在wordpress中显示不同Single.php文件的自定义帖子？

我已经创建了一个自定义帖子类型的电影，也创建了一个页面电影，并显示了该页面上的所有电影。伟大的…。 “但问题是”，当我点击那部电影时，它会出现在同一个single.php页面上，这是我不想要的，我想要一个Saprate Single.php文件用于这个电影部分，并分离其他像新闻，视频这样的文件，所以告诉我会为这个做些什么

浏览 3提问于2011-09-06得票数 0

2回答

Google plus web共享按钮不共享动态og标签

、

我正在尝试分享一些事件使用谷歌加分享按钮。我面临的问题是，当我试图通过使用og标签分享一个特定的事件时，其中的内容是硬编码的，例如： <meta property="og:title" content="My Title"> <meta property="og:image" content="Awesome event"> <meta property="og:description" content="http://exqlusiv.com/wp-content/uplo

浏览 0提问于2013-04-17得票数 0

回答已采纳

2回答

从一个句子中只提取并显示第一个单词

我有两个页面index.php和currentmovies.php。我正在尝试在currentmovies.php中显示给定电影的电影名称，但我无法显示整个名称，只显示了第一个单词。我用index.php编写了查询，并将值传递给currentmovies.php。如果电影的名字是“指环王”，那么只有“指环王”在播放。 // index.php echo中的代码""； //code in currentmovies.php <?php echo "<b><font size='3'>Current Movie:",

浏览 6提问于2013-11-10得票数 0

1回答

在SharePoint online库中查找最近添加的文件

、

我的要求是使用图形apis在我的整个SharePoint Online (SPO)中搜索文件。我在MS Graph Explorer中使用的查询如下所示： domain'.sharepoint.com/_api/search/query?Querytext='res1a2b3c4d5e‘ 基本上，上面的查询是搜索标题/名称为'res1a2b3c4d5e‘的所有文档。如果我搜索任何现有的文档，这将很好地工作。如果我试图搜索在进行上述调用之前创建/上传的任何文档，我将不会得到结果。如果我在几分钟后搜索相同的内容，则请求成功。当我在我的客户站点上尝试相同的内容时，它有数百

浏览 2提问于2017-04-18得票数 1

1回答

我可以使用robots.txt来允许Google访问一些文件夹，但不允许所有其他的文件夹吗？

、、、

我想让谷歌机器人只抓取我的index.php和一些文件夹的内容。那能行吗？ User-agent: * Allow: /index*.php Allow: /folder1/ Allow: /folder2/ Allow: /folder3/ Allow: /folder4/ Disallow: / Google的想法是抓取以下URL： http://example.com/folder1/discussionA/topic/ http://example.com/folder1/discussionB/topic/ http://example.com/folder1/discussio

浏览 0提问于2018-12-28得票数 2

2回答

如果我有登录凭据，我如何抓取页面上的数据，就像它已经登录一样？

、

我需要从一个不属于我的域的页面中抓取一些数据。我知道如何加载页面服务器端，并分析它在各种不同的语言(asp.net，PHP等)，然而，我需要抓取页面后，它已经登录。 <div id="profile" data-userid="1234"></div> 除非登录，否则data-userid属性中不会有ID。可以在服务器端登录站点吗？(我确实有登录凭据) 谢谢, 托马斯

浏览 0提问于2012-03-23得票数 0

回答已采纳

1回答

如何将图像从PHP加载到flash电影剪辑？

、、、

首先，我想说我没有actionscript知识，但我有PHP知识。如何让电影剪辑显示来自php文件的图像？我怎样才能把图片从php文件发送到电影剪辑呢？我有回音吗？

浏览 1提问于2010-12-27得票数 0

1回答

将邮件服务器与watson发现服务集成以接收邮件

您好，我目前正在Watson knowledge studio中创建机器学习模型，需要使用加载的盲数据进行测试。请需要一些帮助，了解如何将邮件服务器与Watson discovery服务连接/集成，以便理解收到的邮件。

浏览 0提问于2018-09-14得票数 0

1回答

facebook (不同？)来自like and share的用户代理爬虫？

、、、

我现在在一个网站上工作。整个网站都是受保护的，因此只有登录的用户才能访问此网站(只要beta测试运行->的时间有限)。我们有两种不同类型的分享在我们的网站上。一个是简单的“喜欢”按钮，另一个只是使用：{URL} 为了给facebook爬虫提供访问权限，我建立了这样的保护： if(wUserCur::isLoggedIn() || in_array($currentPath, $allowedLogins) || strstr($_SERVER['HTTP_USER_AGENT'], 'facebookexternalhit')): // do n

浏览 2提问于2011-09-21得票数 3

1回答

Php确认框

、、

我有一个文本框，如果用户输入一个值，它将转到数据库并检查该值=y，如果是这样，它会给用户一个警告，就像你想激活一个，如果没有，它应该重定向到其他页面，如果没有，也重定向到一些页面。警告框中应显示是或否我不知道是我的sql脚本错误还是java脚本错误 $activate = mysql_query("SELECT * FROM `thirdpartycategorymaster` WHERE `delete` = 'y' "); $activate='y'; if($activate) { header("location:catact

浏览 0提问于2010-12-26得票数 2

1回答

Wordpress自定义查询顺序段塞类型并使用选项进行更改

、

我正在创建一个推荐列表，但这段代码并不像我想要的那样。 <?php $recomendation= new WP_Query("post_type=movie&orderby=rand&showposts=5"); if($recomendation->have_posts()) : while($recomendation->have_posts()) : $recomendation->the_post(); ?> 我想改变顺序随机类型与选项列表和自动刷新结果后，选择选项。下面是显示类型行的代码 <?php

浏览 2提问于2018-01-14得票数 0

2回答

在目标web服务器上使用Php/Querypath crawler的已知或预期影响是什么，以及如何将其保持在最低限度？

、、、

我正在构建一个php+querypath爬虫来构建一个想法的原型。我担心一旦我运行它，目标站点可能会以某种方式受到影响，因为它有大量我想要抓取的相关页面--目前有1361个页面。有什么建议可以将对目标站点的影响降到最低？

浏览 2提问于2012-03-28得票数 0

回答已采纳

1回答

PHP至少匹配两种类型(mysql)

、、

我正在创建一个简单的电影数据库，其中有三个表：电影与movie_id，movie_name，movie_year 体裁与genre_id，genre_name movie_genre (对许多人来说) 有偶像，有电影我把电影和体裁联系在一起： Movie id Genre id 1 1 1 2 2 4 2 1 所以，一部电影可以有更多的类型。现在，在single.php页面中，我检索电影id并打印有关该电影的信息，我还希望只打印至少匹配两种类

浏览 3提问于2014-11-06得票数 0

回答已采纳

2回答

单击按钮-不发布数据(Ajax)

我试着用ajax发布电影的描述。我有一些电影，每部电影都有一个带有id "button_id“的按钮，当我点击这个按钮时，我会得到电影的描述。问题是我只得到了第一部电影的描述。当我点击另一部电影的按钮时，它什么也做不了。我做错了什么？ var id = $('#form_index input[name=id]').val(); $('#button_'+id).click(function() { $.ajax({ url: 'description.php', ty

浏览 4提问于2014-01-18得票数 0

回答已采纳

1回答

IMDB刮擦问题

、

可能的重复：我正在使用PHP从curl中抓取电影细节。它在获取数据方面非常有效，但我现在面临的问题是：当我去买像这样的非英语电影时。当我在浏览器中打开这部电影时，它会显示这部电影的"IMDB“-version页面，其中显示电影名为”寄宿学校“。但是，当我通过curl获取数据时，它会获取这部电影的原始页面，其中电影名为"Leidenschaftlicheümchen“。因此，请建议我如何获取curl数据的英文版本IMDB页面。

浏览 4提问于2011-08-10得票数 6

回答已采纳

2回答