我在seed.txt中用url-1成功地执行了一次爬行,我可以在MySQL数据库中看到爬行的数据。现在,当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新的爬行时,新的爬行开始于抓取步骤,并且它试图抓取的url是seed.txt中旧的替换的url。我不确定它是从哪里拿到这个旧网址的。
我尝试检查隐藏的种子文件,但没有找到,并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题?
我抓取电影列表并将它们存储在我的数据库中。对于只包含英文字符的电影,一切都很好,但问题是,一些包含非英语字符的电影名称无法正确显示。例如,意大利电影"Il pi as crudele dei giorni“被存储为"Il pi& ugrave;crudele dei giorni”。
如果有什么解决办法,有人能告诉我吗?(我知道我可以为爬虫设置语言,我已经用意大利语爬行了电影标题,但当我想爬英文标题时,Imdb中还有一些非英语字符的电影)
编辑:这里是我的代码:
String baseUrl = "http://www.imdb.com/search/title
我们有一个简单的HTML页面(用于测试!):
<html>
<body>
<div class="my"> One </div>
<div class="my"> Two </div>
<div class="my"> Three </div>
<div class="other"> NO </div>
<div class="other2"> NO </div>
<
我试着用ajax发布电影的描述。我有一些电影,每部电影都有一个带有id "button_id“的按钮,当我点击这个按钮时,我会得到电影的描述。问题是我只得到了第一部电影的描述。当我点击另一部电影的按钮时,它什么也做不了。我做错了什么?
var id = $('#form_index input[name=id]').val();
$('#button_'+id).click(function() {
$.ajax({
url: 'description.php',
ty