展开

关键词

实现GeoIP 的自动更新

中,介绍了如何在nginx中实现IP的定位,但是下载的我们可以看到是截止到某一日期的,例如GeoLite2-City_20211214.tar.gz,就指明是2021年12月14日的 ,maxmind官网提供了两种自动更新方法(如第三方工具更新的方法风险自负),一种是直接下载,这种就不说了,因为不是官网推荐的用法,另外一种通过GeoIP Update program(照例,链接放在下方参考中 第二步,创建带有账户信息的GeoIP.conf。 按照上面的要求,创建一个就行 cd /usr/local/share mkdir GeoIP geoipupdate -v 再前往刚刚创建的GeoIP目录可以发现多了三个mmdb main.defaultConfigFile=/etc/GeoIP.conf \ -X main.defaultDatabaseDirectory=/usr/share/GeoIP" 接下来我们就可以试下新安装的

30320

Python爬虫入门教程 33-100 《海王》评论抓取 scrapy

海王评论爬取前分析 海王上映了,然后口碑炸了,对咱来说,多了一个可爬可分析的电影,美哉~ [cmwinntebr.png] 摘录一个评论 零点场刚看完,温导的电影一直很不错,无论是速7,电锯惊魂还是招魂都很棒 海王案例开始爬取 爬取的依旧是猫眼的评论,这部分内容咱们用把牛刀,scrapy爬取,一般情况下,用一下requests就好了 抓取地址 http://m.maoyan.com/mmdb/comments _v_=yes&offset=15&startTime=2018-12-11%2009%3A58%3A43 关键参 url:http://m.maoyan.com/mmdb/comments/movie /249342.json offset:15 startTime:起始时间 scrapy 爬取猫眼代码特别简单,我分开几个py即可。 ,存储到csv中 import os import csv class HaiwangPipeline(object): def __init__(self): store_file

28640
  • 广告
    关闭

    腾讯云618采购季来袭!

    一键领取预热专享618元代金券,1核1G云原生数据库TDSQL-C低至4.9元!云产品首单低0.8折起,企业用户购买域名1元起…

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    关于http网站包装ssl和https网站日志可视化

    mmdb(也是官网现在的推荐)而不使用legacy,第一,GeoIP2更强,第二,它可以将IP定位到城市,可能之前稍微使用过goaccess的用户都知道,使用legacy确实很方便,只需要安装一个 Geoip的即可,但是它只能将IP锁定到洲、国家级别,感觉很鸡肋,但是GeoIP2则完全不一样了。 前往下载,我选择的是城市 ? GeoIP2城市,可以看到正是我们需要的GeoLite2-City.mmdb,进入到报告里面,可以看到访问的IP所在城市也被解析出来了 ? 这些参信息其实也都可以写入到goaccess的配置,但是我也就运行一次(因为后续都是实时更新),就懒得去修改配置了。

    18520

    Python爬取猫眼「碟中谍」全部评论

    实现目标 昨天晚上看完碟中谍后,有点小激动,然后就有了这片章。 我们将猫眼上碟中谍的全部评论保存下来,用于后期分析~ 总共评论3W条左右。 当我们将评论页面向上拖,后台请求中变看到了我们想要的接口地址:http://m.maoyan.com/mmdb/comments/movie/341737.json? self.starttime = datetime.now().strftime('%Y-%m-%d %H:%M:%S') self.starturl = 'http://m.maoyan.com/mmdb utf-8') return e.message,'',False def SaveComent(self): ''' 保存评论到txt if __name__ == '__main__': p = MaoYan('341737') p.SaveComent() 最后 评论算保存完了,近期会再做一个关于此次的可视化分析

    49330

    Python爬取猫眼「碟中谍」全部评论

    [4vornxxabe.png] 实现目标 昨天晚上看完碟中谍后,有点小激动,然后就有了这片章。 我们将猫眼上碟中谍的全部评论保存下来,用于后期分析~ 总共评论3W条左右。 chrome手机模式打开碟中谍6的页面,然后找到了全部评论入口: [glzqq4u9kz.png] 当我们将评论页面向上拖,后台请求中变看到了我们想要的接口地址:http://m.maoyan.com/mmdb self.starttime = datetime.now().strftime('%Y-%m-%d %H:%M:%S') self.starturl = 'http://m.maoyan.com/mmdb \n' print e.message return e.message,'',False def SaveComent(self): ''' 保存评论到txt 如果请求成功保存 if __name__ == '__main__': p = MaoYan('341737') p.SaveComent() 最后 评论算保存完了,近期会再做一个关于此次的可视化分析。

    21600

    手把手教你用Python分析电影 | 以《蚁人2》为例

    我们想要获取完整的评论接口,需要进入查看所有短评之后,往下再刷一些评论,然后点击左边的json,可以看到完整的url。 ? 点击几个json之后,大家也会发现相应的变化规律。 # 存储,存储到 def save_to_txt(): start_time = ‘2018-09-20 22:00:0’ end_time = ‘2018-08-23 00 可视化过程中,我们主要使用到的可视化工具是pyecharts。 Pyecharts是一个用于生成Echarts图表的类,而Echarts是百度开源的一个可视化JS,主要用于可视化。 import Counter # 处理地名,解决坐标中找不到地名的问题 def handle(cities): # print(len(cities), len(set(cities)

    65520

    哪吒提取、分析

    版权声明:本为博主原创章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原出处链接和本声明。 本链接:https://blog.csdn.net/weixin_43908900/article/details/100882598 最近哪吒大火,所以我们分析一波哪吒的影评信息,分析之前我们需要呀 ,所以开篇我们先讲一下爬虫的提取;话不多说,走着。 ----------------------------------- 我们手里有接近两万的后开始进行分析阶段: 工具:jupyter、方法:pyecharts v1.0===> pyecharts 向下不兼容,所以我们需要使用新的方式(链式结构)实现: 我们先来分析一下哪吒的等级星图,使用pandas 实现分组求和,正对1-5星的: from pyecharts import options

    40920

    Ionic3学习笔记(十三)HttpClient 实现 HTTP 请求以及踩过的一些坑

    type=hot&offset=0&limit=1 Request: type ==> hot 类型(正在热映) offset 初始位置 limit 显示最大上限值 即将上映电影列表: type=coming&offset=0&limit=1 Request: type ==> coming 类型(即将上映) offset 初始位置 limit 显示最大上限值 电影详情 movieid=342068&offset=0&limit=1 Request: movieid 电影id offset 初始位置(最大为1000) limit 显示最大上限值(最大为15 offset=0&limit=1&startTime=2017-12-01%2008:00:00 Request: 后面跟上电影id offset 初始位置(最大为1000) limit 显示最大上限值 offset=0&limit=1 Request: 后面跟上评论id offset 初始位置 limit 显示最大上限值 本地影院列表: http://m.maoyan.com/cinemas.json

    1.4K10

    170行代码爬取《白蛇:缘起》短评

    _v_=yes&offset=1 其中 1235560 表示电影的 id,offset 代表页。 02 爬虫制作 因为短评量可能会比较多,所以我选择用来存储。 后面方便进行导出、去重等。 自己从 json 结果中提取想要的,然后设计表并创建。 ,最后一步工作就是将插入到中。 def insert_comments(self, datalist): """ 往表中插入 """ insert_sql = ( "insert into " 至于爬取结果,详情见下篇章关于电影短评的分析。 如果你觉得章还不错,请大家点『好看』分享下。你的肯定是我最大的鼓励和支持。

    24510

    实战-nginx嵌入GEOIP

    local/nginx/sbin/ # start systemctl start nginx.service # 再次查看安装情况 /usr/local/nginx/sbin/nginx -V 找到so find / -name "ngx_http_geoip2_module.so" /opt/nginx-1.18.0/objs/ngx_http_geoip2_module.so 创建GeoIP.conf ,但是运行geoipupdate之后,夹里面多了三个以mmdb结尾的 打开nginx的配置 vim /usr/local/nginx/conf/nginx.conf 在nginx的配置第一行 ,增加如下代码(加载so) load_module /opt/nginx-1.18.0/objs/ngx_http_geoip2_module.so; http段添加如下代码,这个mmdb填写你自己创建的路径 server 段添加如下代码,可以通过下方的参考链接查看各国代码 if ($geoip2_data_country_code = "AK") { return 403; } 检查nginx配置是否有误

    9510

    爬取了 48048 条评论,解读 9.3 分的《毒液》是否值得一看?

    获取 首先要获取,准备爬取猫眼上的电影评论作为本次分析样本,PC官网上只显示了电影的10条热门短评,显然不够,于是准备从M端抓包找到评论接口。 接口中对我们本次抓取主要有用的参是offset偏移量以及日期,这两个条限制了抓取的条。 导入本次爬取需要的包,开始抓取。 ,每个接口有15条评论,10条热门评论,我们将评论中用户名、城市名、评论内容、评分、评论时间依次解析出来,并返回。 可视化 可视化采用了pyecharts,按照地理位置制作了毒液观众群的分布图。

    5120

    内存网格主要特性简介

    你可以在日常生活中发现许多使用主内存DBMS(管理系统)(MMDB)执行比磁盘快得多的情况。一个例子是你使用手机的时候。 当你发短信或给你的朋友打电话时,大多移动服务提供商会使用MMDB来让你尽快获取朋友的信息。 内存网格(IMDG)与MMDB相同,它也将存储在主内存中,但它具有完全不同的架构。 它可以理解为内存键值存储和检索对象的概念。 IMDG中使用的模型是Key-Value(键值对)。因此,可以通过使用此密钥来分发和存储。 缓存系统 内存网格(IMDG) 读 如果在缓存中,则不会从中读取。 如果不在缓存中,则会从中读取

    1.6K40

    Python项目实战-爬取猫眼电影

    》猫眼信息 项目源码分享: import requests from fake_useragent import UserAgent import json import pymongo #保存到 clien=pymongo.MongoClient(host='填写IP') db=clien.The_cat_s_eye_essay coll=db.eye_essay #创建一个随机生成user-aengt _v_=yes' } #猫眼电影短评接口 #因为猫眼的是AJAX类型的 里面的offset是改变的 第一次是0 第二次15 第三次是30 以此类推 这个page 相当于100 /15然后循环 #可以自信观察猫眼AJAX请求参 就会知道了 page=100 u=0 for i in range(page): try: offset=u startTime = '2018-10-11' comment_api = 'http://m.maoyan.com/mmdb/comments

    36420

    今晚九点|可视化分析 web 访问日志

    Python 基础 值、字符串、列表、字典、的使用 with 关键字使用 函、lambda 函、sorted 时间类型转化 时间类型转化 ? , nargs, action) shutil /夹操作 -shutil.copy2/shutil.copytree/shutil.rmtree logging 日志记录 - logging.basicConfig (level, format, filename, filemode) - https://www.jianshu.com/p/4a801f61ecda jinja2 模板引擎,用于根模板生成 - 使用步骤(3步走) -创建加载器 -获取模板 -渲染 -模板语言 -打印变量 -流程控制(条、循环) -过滤器 -模板继承 geoip2 用于 maxmind 二进制 mmdb 查询 -打开 -获取 ip 信息(国家、城市、地理位置等) -关闭 可视化组 echarts 介绍 项目地址:http://echarts.baidu.com/echarts2/ 项目介绍:可视化 JS 组

    34120

    理解:从系统到

    我们excel都保存到一个目录(我们定义该目录为的根目录,事实上就是保存到某个目录下的)下,那我们就可以理解是一个简单的了。 可能你会觉得,这有点儿戏吧,但是事实上,真实和这个并不是有本质的区别,他们的都是以某种规范保存到系统上,所以说其实并没有那么神秘。 4. 这个怎么进行搜索? 有了索引之后,插入怎么办呢 更新之后,自然是需要同步更新索引的,系统本身就是要保证这个同步的过程。 所谓列式,我们我们来定义的话,可以这样理解:前面关系时,每个目录下存放,而到了列式,我们的表这层也定义成目录,而每列的单独保存成,这样如果对该列进行分析时,那基本只需要加载对应的列即可 所有,无论是还是索引,最终都是以的形式保存到系统中,只是其系统本身保证了保存时的某种规范。

    13720

    的迁移

    关于中的迁移,需要考虑普通,redo日志(还需要考虑是否为current状态),undo表空间,临时表空间,system,sysaux表空间。 迁移可以参考下面的伪代码: move_non_system_tablespace ,需要在open状态 { alter rename file '/oravl03/oradata/TESTDB/redo_g1_m2.dbf' to '/oravl01/oracle/redo_g1_m2.dbf'; 最后带给大家一些福利,关于的迁移

    52640

    C#实现

    为 Dennis Gao 原创技术章,发表于博客园博客,未经作者本人允许禁止任何形式的转载。 如果你需要一个简单的磁盘索引,这篇章可以帮助你。 描述: 每个档对象保存为一个独立,例如一篇博客。 内容序列化支持XML或JSON。 支持基本的CRUD操作。 抽象类实现 1 ///

    2 /// ,这是一个抽象类。 public abstract class FileDatabase 5 { 6 #region Fields 7 8 /// 9 /// 操作锁 <TDocument>(string data); 315 316 #endregion 317 } XML实现 1 /// 2 /// XML

    25710

    C#实现

    如果你需要一个简单的磁盘索引,这篇章可以帮助你。 描述: 每个档对象保存为一个独立,例如一篇博客。 内容序列化支持XML或JSON。 支持基本的CRUD操作。 抽象类实现 1 ///

    2 /// ,这是一个抽象类。 23 /// 24 /// <param name="directory">所在目录</param> 25 protected FileDatabase <TDocument>(string data); 315 316 #endregion 317 } XML实现 1 /// 2 /// XML 8 /// 9 /// <param name="directory">所在目录</param> 10 public XmlDatabase

    77110

    下载ENA

    ENA:European Nucleotide Archive:隶属EBI (European Bioinformatics Institute),由 EBI 负责维护,优点是可以下载fastq image.png 找到所有要下载的格式和需要的信息,打钩 ? ? 可以下载含有下载链接的TSV不多的话也可以直接下载。 包含下载链接的TSV如下 ? 选择fastq那一列的格式单独放进一个download.txt ? image.png download.txt如下 ?

    1.4K30

    今晚九点|可视化分析 web 访问日志

    Python 基础 值、字符串、列表、字典、的使用 with 关键字使用 函、lambda 函、sorted 时间类型转化 时间类型转化 ? , nargs, action) shutil /夹操作 -shutil.copy2/shutil.copytree/shutil.rmtree logging 日志记录 - logging.basicConfig (level, format, filename, filemode) - https://www.jianshu.com/p/4a801f61ecda jinja2 模板引擎,用于根模板生成 - 使用步骤(3步走) -创建加载器 -获取模板 -渲染 -模板语言 -打印变量 -流程控制(条、循环) -过滤器 -模板继承 geoip2 用于 maxmind 二进制 mmdb 查询 -打开 -获取 ip 信息(国家、城市、地理位置等) -关闭 可视化组 echarts 介绍 项目地址:http://echarts.baidu.com/echarts2/ 项目介绍:可视化 JS 组

    25630

    相关产品

    • 云服务器

      云服务器

      云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。 腾讯云服务器(CVM)为您提供安全可靠的弹性云计算服务。只需几分钟,您就可以在云端获取和启用云服务器,并实时扩展或缩减云计算资源。云服务器 支持按实际使用的资源计费,可以为您节约计算成本。

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券