为了上大学,我必须做这个练习。基本上,我必须创建一个函数findurls( urls,s,k),其中urls是一个url列表,s是一个字符串,n是为了返回url,字符串必须出现的次数。例如,如果我的列表中的urls包含字符串"Python“至少两次,该函数应该只返回列表中包含字符串"Python”出现两次或更多次的urls。我写了这段代码:
def findurl(urls,s,k):
count = 0
for url in urls:
f = ul.urlopen(url)
r = f.read()
if s in url:
我正在尝试创建一个网站地图生成器。简而言之,我给它提供了一个链接,它在网站上寻找更多的链接,等等。
为了避免任何长的边缘链,我想我应该创建一个blocked_sites.txt,我可以从中读取并将我的unprocessed_urls与之进行比较,并删除包含的所有项。
我的问题是,天真的我以为我可以简单地做一些集合/列表的比较和删除,和viola,完成,但问题主要是在collection *deque*上更大
代码
我首先定义我的strating url,它是用户输入,并将其添加到一个que中:
# a queue of urls to be crawled
unprocessed_urls
如果在Python中创建这样的类:
import numpy as np
class Foo:
def __init__(self, data):
self.data = data
self.data_copy = self.copy(self.data)
def copy(self, data):
a = []
for e in data:
a.append(e)
return a
def change(self, val):
for i
在运行for循环和从列表中删除条目(清除无效urls)时,会出现一些令人困惑的行为:
urls = ['http://a.com/?mail=a@b.com','mailto:a@a.com', 'mailto:a@b.com', 'mailto:a@c.com', 'mailto:a@d.com']
for s in urls:
if '@' in s and '?' not in s:
urls.remove(s)
print(urls)
输出为:
[
我在一个名为recipe_urls的列表中有一个包含100个URL的列表,我试图从该列表中的每个元素中删除前37个字符,并将其存储在一个名为recipe_names的新列表中。如何在.insert()中增加索引位置。也许我想错了,有更简单的方法来做这件事吗?
recipe_names = []
for url in recipe_urls:
recipe_names.insert(x, url[37:0])
我想要创建一个post方法,当给定一个在JSON中包含多个URL的主体时,返回一个缩短URL列表。
这是我的发帖方法:
public class MyServices : Service
{
public object Post(CreateShortUrlRequest request) //Post an array/list of URLs to the database and get a respective list of short URL
{
using (Task4URLEntities db = new Task4URLEntities())
我想创建一个列表,列出从我的python Google App Engine应用程序返回花费时间最长的前10个urls。我已经在使用appstats了,但这并没有为我提供返回所需的最长实时时间的urls列表。在我的应用程序的在线控制台中,是否有可以运行的查询或可以在日志筛选器中键入的正则表达式?我正在寻找更优雅的东西,可以下载和解析我所有的日志。
我正在尝试使用Selenium和Python浏览URL列表。但是,有些页面并不停止加载,如果发生这种情况,希望导航到其他URL。所以,我使用了TimeoutException。但是,在获得该异常后,浏览器不会导航到列表中的下一个URL,并一直试图加载该页面。
我使用的代码大致如下:
list_of_urls = [...] # List of the URLs I wish to navigate to
for i in range(0, len(list_of_urls)):
try:
browser.get(list_of_urls[i])
excep
我试图在python中创建一个包含10个字典(每个字典都具有相同的键值对)的列表,但是我已经意识到列表中字典更新的方式因列表初始化的方式不同而不同,有人能解释为什么吗?
00 person = {'name':'', 'phone':0}
01
02 # The following three lines result in a different way the dictionary is updated
03 dataStructure = [{'name':'', 'phone':0} fo
我用python写了一个蜘蛛程序。它可以递归地爬行网页。我希望避免下载相同的页面,所以我将urls存储在一个列表中,如下所示:
urls = []
def download(mainPage): # mainPage is a link
global urls
links = getHrefLinks(mainPage)
for l in links:
if l not in urls:
urls.append(l)
downPage(l)
但是有一个问题,当链接太多时,urls将非常大,而且代码if l
我已经使用scrapy创建了一个爬行器,我正在尝试将下载链接保存到一个(python)列表中,所以我以后可以使用downloadlist[1]调用一个列表条目。
但是scrapy将urls保存为项而不是列表。是否有方法将每个url附加到列表中?
from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider
from scrapy.http import Request
import scrapy
from scrapy.linkextractors import LinkExtractor
我正在遍历一个对象(我也尝试过使用数组)并构建一个urls列表。我尝试使用for...in进行枚举,并使用for进行迭代,但我一直在丢失顺序。
var Model = require('./model');
var Scraper = require('./scraper');
var Pages = [];
function generateUrls(limit) {
var url = 'http://www.weatheronline.co.uk/SouthAfrica/'
我已经使用python很长时间了,对于垃圾收集、内存管理以及真正处理删除变量和释放内存的问题,我感到困惑。
>>> pop = range(1000)
>>> p = pop[100:700]
>>> del pop[:]
>>> pop
[]
>>> p
[100.. ,200.. 300...699]
在上面的代码中,会发生这种情况。但,
>>> pop = range(1000)
>>> k = pop
>>> del pop[:]
>
我是新来姜戈的。我使用pydev eclipse作为IDE。首先,我创建了一个项目,然后在该项目上创建了一个欢迎应用程序。我在项目中创建了一个名为Templates的文件夹,并创建了一个" home.html“文件,home.html包含
<div>
This is my first site
</div>
我将settings.py文件修改为
TEMPLATE_DIRS = ("Templates")
INSTALLED_APPS = (
..........#all default items
'welcome
伙计们,我这里可能有个棘手的问题。我正在尝试制作一个机器人,它可以下载一个instagram账户的所有照片/视频网址,将它们添加到一个列表中,最后将它们保存到一个文件中。但是当我查看它是否正常工作时,我发现urls列表一直包含51个urls,每次当我在程序运行时添加新的urls时,列表中的这些urls都会随着新的51个urls的变化而变化,最后的urls会从列表中删除,而不是将它们加到现有的urls列表中,然后继续添加新的urls。为什么会发生这样的事情?我需要你们的知识:) 机器人的代码如下: #Here is the run.py from where I'm running t
我正在阅读Dive into Python,特别是试图理解示例,我对list-urls.py有一些问题。
在最后一行中,它从"parser.urls“编译urls列表。这些数据是从哪里来的?我在URLLister或SGMLparser中没有看到urls方法。
此外,还创建了一个方法start_a,但从未使用过。这是什么?
完整代码的链接,下面是一个精简版本的
#!/usr/bin/python
"""Extract list of URLs in a web page"""
from sgmllib import SGMLParser
如何获取特定直播事件的rtmp url和流名称?
之前,我一直在使用Youtube API v.2.0,可以检索包含rtmp urls和流名称的实时事件列表。使用新的Youtube Live Streaming API (v.3.0),我可以使用liveBroadcasts list方法检索实况事件列表,但响应不包含任何rtmp urls和流名称。为了获得它们,我应该创建一个新的liveStream资源或使用现有的资源。
有没有办法在不这样做的情况下获得rtmp url和流名称?
我有一个网站地图,上面有大约21个urls,每个urls包含大约2000个以上的urls。我正在尝试编写一些东西,使我能够解析原始21个urls中的每一个,并获取它们包含的2000个urls,然后将其附加到一个列表中。
几天来,我一直在碰壁,试图让它正常工作,但它总是返回一个“无”的列表。我使用python只有3个星期了,所以我可能遗漏了一些非常明显的东西。任何帮助都是最好的!
storage = []
storage1 = []
for x in range(21):
url = 'first part of the url' + str(x) + '.xml