首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI网络爬虫:用kimichat自动批量提取网页内容

首先,在网页中按下F12键,查看定位网页元素: 然后在kimi中输入提示词: 你是一个Python编程专家,要完成一个爬取网页内容的Python脚本,具体步骤如下: 在F盘新建一个Excel文件:提示词...-1ce01rv"的h1标签,提取其文本内容作为提示词标题,写入”提示词.xlsx”这个Excel文件的第1列,列的标为:提示词标题; 在源代码中定位class="layoutkit-flexbox...css-o3n4io acss-pl6lf1"的h2标签,提取其文本内容作为提示词简介,写入”提示词.xlsx”这个Excel文件的第2列,列的标为:提示词简介; 在源代码中定位class="acss...-7ksih7"的div标签,提取其全部文本内容作为提示词内容,写入”提示词.xlsx”这个Excel文件的第3列,列的标为:提示词内容; 注意: 每一步都要输出相关信息到屏幕; 网站有放爬虫机制,要通过设置请求...AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } # 发送请求获取网页内容 response =

7110

AI网络爬虫:批量爬取豆瓣图书搜索结果

工作任务:爬取豆瓣图书搜索结果页面的全部图书信息 在ChatGPT中输入提示词: 你是一个Python编程专家,要完成一个爬虫Python脚本编写的任务,具体步骤如下: 用 fake-useragent...Referer: https://search.douban.com/book/subject_search?...表格第2列; 保存ExcelExcel文件名为:doubanChatGPT20240606.xlsx, 保存到文件夹:F:\AI自媒体内容\AI行业数据分析 注意: 每一步都要输出信息到屏幕 每爬取1...模式:使用 --headless 参数在模式下运行,以减少干扰。如果需要在前台运行,可以移除此行。 随机暂停:在请求之间随机暂停,以避免反爬虫机制。...chrome_options.add_argument("--disable-dev-shm-usage") chrome_options.add_argument("--headless") # 模式运行

9110
您找到你想要的搜索结果了吗?
是的
没有找到

内网渗透之DCOM横向移动

调用Excel.Application远程执行命令 # 通过PowerShell与DCOM进行远程交互,创建Excel.Application对象的实例: $com = [activator]::CreateInstance.../dcomexec.py [domain/]username:@ip -hashes [hash] 注意 1、输入用户信息是根据当前已登录的用户,比如我现在登录的是administrator,如果我输入用户信息是...testuser,那么即使通过验证也无法执行命令或者返回shell 2、登陆的用户需要是管理员权限,如果是普通域用户,登陆没有权限,被拒绝 更多方法 https://www.anquanke.com/post...请保护具备高级权限的域账户,避免本地主机账户复用密码凭据; 3、请确保部署了深度防御控制策略、基于主机的安全产品监控主机,以检测/阻止可以活动。...如有可能,请强制启用PowerShell的“Constrained Language Mode(约束语言模式)”(这对特权账户来说可能有点难); 6、在DCOM调用“失败”时,目标主机上的System日志中会生成

2.2K20

python实现翻译word表格小程序

背景 原是弱电集成的设计员,纠结很久后参加了python培训机构转职后的一员小白,由于一次工作中需要翻译一份近100页word表格,纯手工翻译大概三个小时,为了解决这种重复又耗时的劳动,并重温python...selenium.webdriver.common.keys import Keys from os import system ''' seleium爬虫效率很低但胜在不用考虑反爬问题,由于想加快翻译速度实现转换为...exe文件后可在其他python环境中运行, 添加excel表格充当数据库,excel文件中,一列命名漏洞英文列表,一列命名漏洞翻译列表,由于使用seleeium需在python目 录下添加对应浏览器...print('表格待翻译内容:',table_contents) print('表格翻译后内容:',table_content_trans) def myspider(text): # 设置chrome浏览器模式...driver.fullscreen_window() #全屏 driver.maximize_window() # 屏幕最大化 # 打开有道翻译页面 driver.get("http://fanyi.youdao.com

68830

Pyppeteer Python加载扩展及示例

图片Pyppeteer 是一个 Python 库,可以控制 Chrome 或 Chromium 浏览器,并在网页加载过程中加载扩展来增强浏览器功能。...Pyppeteer 提供了一个 API,让您可以与浏览器交互,完成网页抓取、自动化测试、网页截图或 PDF 生成等任务。...一些常见的加载扩展的用例有:网络请求拦截:您可以修改页面发出的网络请求或响应,实现自定义的请求处理逻辑、阻止某些请求或向请求中添加额外数据。...stealth 模式 page = await browser.newPage() await stealth(page) # 导航到头条网站,等待页面加载完成 await...page.goto('https://www.toutiao.com', {'waitUntil': 'networkidle2'}) # 输入代理 IP 的用户名和密码,点击确认按钮 await

39620

【3】利用Word模板生成文档的总结

因此,使用Word来制作输出文件或者报表,不光格式易于控制(用户可以在Word中制作好需要的模板,替换真实数据就获得需要的输出文档或者报表),用户的接受度等方面都有很大的优势,近年来越来越受到重视。...但是,Word的开发相对于其他的二次开发,甚至于相对于同门的也很复杂的Excel来说,开发的难度都要大很多,原因来自以下方面: 1、Word 的对象结构复杂。...Word的众多版本也给二次开发带来很多困扰,开发者必须要对于当前多种Word版本都存在的情况有所考虑,做好兼容性的处理才行。...由于DsoFramer是COM时代的产物,适用于VB、VC开发者,在 .Net下开发,或者进行Web应用开发,就显得有点力不从心。在实际开发中,常常出现一些莫名其妙的错误。...另外,它的工作模式需要先在界面中打开文档再进行各种操作,这种模式也不适应Web应用程序的需要。

2.4K50

自动化测试工具-Playwright(快速上手)

2、简介 微软开源自动化测试工具 Playwright,支持主流浏览器,包括:Chrome、Firefox、Safari 等,同时支持以模式、有模式运行,并提供了同步、异步的 API,可以结合 Pytest...5、录制模式 Playwright 带有命令行工具(录制功能),可用于记录用户交互生成代码(Java、Python等)。其实就是类似于 Selenium IDE。...1、常规录制 打开命令行,输入 playwright codegen baidu.com 自动打开浏览器,跳转到百度首页。 同时也弹出录制窗口,可以看到是录制中,脚本语言为 Python。...1、启动浏览器(模式) Playwright 可以启动三种浏览器中的 chromium、firefox、webkit 任何一种。...2、启动浏览器(有模式) 默认情况下,Playwright 以模式运行浏览器。

2.6K21

「数据ETL」从数据民工到数据白领蜕变之旅(七)-将Excel(PowerQuery+VBA)的能力嫁接到SSIS中

在数据ETL过程中,除了常规的规范工整的关系数据库之外,很大一部分数据来源于用户自行生产的Excel数据源,此部分数据最容易产生脏乱差的数据现象。...前面推文虽有介绍使用dotNET和python这样的脚本语言去处理,但仍然有一片广阔的领域待开发,使用Excel自身的能力,即VBA和轻量化ETL工具PowerQuery的结合。...每次循环,模板文件使用PowerQuery将不同数据加载进来保存,实现所有的循环遍历文件的数据上传。...就算用上了最新的PIA,16版的Microsoft.Office.Interop.Excel.dll,仍然会对一些新方法如调用Workbook的Queries对象报错。.../p/8de014b1f957 「数据ETL」从数据民工到数据白领蜕变之旅(六)-将Python的能力嫁接到SSIS中 https://www.jianshu.com/p/033342b02dae

4.5K20

详解Python实现采集文章到微信公众号平台

该项目的难点在于现在很多网站都设置了反爬机制,可能会存在层层障碍阻止数据获取,而且光靠会Python编程还不够,很多时候都需要对前端代码有所了解,才能清晰的获取到定位信息。...总体来说数据采集项目算得上是一个考验全方位技术栈的综合项目,那么本篇文章将带你从操作实践学会Python数据采集,完成采集文章到微信公众号平台。...当我们在浏览器中输入一个网址访问时,发生的网络通讯流程可以分为以下几个主要步骤: 二、URL/POST/GET 大家不妨在浏览器开发者模式,点击网络一栏可以查看每次网络数据交互情况,基本上都会有涉及到...URL参数在Web开发中被广泛使用,用于传递用户输入、筛选数据、进行搜索等各种场景。在服务端,开发人员可以通过解析URL参数来理解客户端请求的意图,采取相应的操作。...BasicWebScraper: def __init__(self): # 配置WebDriver的选项 self.options = Options() # 示例:模式运行

61754

如何使用 HTTP Headers 来保护你的 Web 应用

更糟的情况是,即使用户通过安全连接与 web 应用进行交互也可能遭受降级攻击,这种攻击试图强制将连接降级到不安全的连接,从而使用户受到中间人攻击。...我们如何帮助用户避免这些攻击,更好地推行 HTTPS 的使用呢?使用 HTTP 严格传输安全(HSTS)。简单来说,HSTS 确保与源主机间的所有通信都使用 HTTPS。...为了保护用户抵抗反射型 XSS 攻击,有些浏览器实施了保护机制。这些保护机制尝试通过在 HTTP 请求和响应中寻找匹配的代码模式来辨识这些攻击。...我建议永远打开 XSS 过滤器以及 block 模式,以求最大化保护用户。...此响应指示浏览器对你的 web 应用是否可以被嵌入另一个网页进行限制,从而阻止恶意网页欺骗用户调用你的应用程序进行各项操作。

1.2K10

爬虫入门指南(7):使用Selenium和BeautifulSoup爬取豆瓣电影Top250实例讲解【爬虫小白必看】

介绍 在本篇博客中,我们将使用 Python 的 Selenium 和 BeautifulSoup 库来实现一个简单的网页爬虫,目的是爬取豆瓣电影TOP250的数据,并将结果保存到Excel文件中。...技术要点 Selenium Selenium 是一个自动化测试工具,可以模拟用户在浏览器中的交互操作。我们将使用 Selenium 来打开网页、获取网页源码。...文件 我们将使用 openpyxl 创建一个 Excel 文件,设置一个名为 ‘豆瓣电影TOP250’ 的工作表,添加表头: wb = openpyxl.Workbook() sheet =...文件 最后,我们保存 Excel 文件,命名为 ‘豆瓣电影TOP250.xlsx’: wb.save('豆瓣电影TOP250.xlsx') 至此,我们已经完成了整个代码的讲解了 完整代码 from...# 配置 ChromeDriver options = webdriver.ChromeOptions() options.add_argument('--headless') # 设置Chrome模式

36010

Excel催化剂与python交互原理剖析,py开发者按此规范可自行扩展功能

只需简单地编写小段py脚本,就可以借助Excel催化剂的平台作用,将写出的py脚本,嫁接到Excel的环境上使用,在Excel的广阔用户群体上带来更多的产出价值。...可能用户的参数匹配和我们py程序的不一致, 缺少一些必填项(需要报错返回提示用户) 多一些无用项如:参数名称,这个是标题行,可以忽略它 一些选填项用户没有输入,py程序要自己用默认值去补充或处理选填为空的其他逻辑...四、注意事项 用户输入为空时传入的kwargs参数变化 如下图所示,用户界面输入为空,对接收到的kwargs参数影响。...强制退出python进程 在使用插件进行最后测试过程中,特别是之前测试已经没问题,将debug方法注释后,在插件调用过程中发现有问题,之前的作法只能是重新关闭Excel程序再打开Excel,很麻烦。...现在补充一个小功能,可以强制退出python进程,让py脚本文件的缓存记忆可以清空,再次启动某py脚本时,将重新先启动python进程,再读取py文件,保证新修改的内容可生效,而又不需要重启excel

68910

VBA代码库10:强制用户启用宏

下面讲解的方法隐藏除“欢迎”工作表(告诉用户启用宏)之外的所有工作表,并在每次保存工作簿时强制执行该工作表。如果用户在启用了宏的情况下打开工作簿,则宏将不会隐藏所有工作表。...还可以使用Excel的 VeryHidden属性来实现工作表的隐藏,这意味着不能使用Excel的菜单来取消隐藏工作表。但是,这只会影响该工作簿,因此用户可以使用另一个工作簿中的宏取消隐藏所有工作表。...如果用户尝试退出该应用程序,它将关闭工作簿,而不是Excel。再次退出将完全关闭Excel。...下面是代码: Const WelcomePage = "欢迎" Private Sub Workbook_BeforeClose(Cancel As Boolean) '关闭事件以阻止不必要的循环...工作簿中应该有一个名为“欢迎”的工作表,否则你要将代码前面的常量WelcomePage设置为用户没有启用宏时的提示工作表名称。 注:本文的代码整理自vbaexpress.com

2.3K40

AI网络爬虫:批量爬取抖音视频搜索结果

/video/7340197363010637093" 在ChatGPT中输入提示词: 你是一个Python爬虫专家,一步步的思考,完成以下网页爬取的Python脚本任务: 在F:\aivideo文件夹里面新建一个...:charset=utf-8 用selenium打开网页:https://www.douyin.com/search/ChatGPT?...type=video; 等待网页加载,延迟50秒; 解析源代码,打印输出; selenium控制滚动条滚动到网页最底部,使数据全加载出来:使用一个无限循环来模拟滚动条的滚动,直到滚动条到达页面底部。...然后,再次使用JavaScript来获取新页面高度,检查它是否等于以前的高度。如果它们相等,说明已经滚动到了页面底部,可以退出循环。...,整合在一起; 不要开启模式; 在Selenium 4中,executable_path参数已经被弃用,取而代之的是service参数; DataFrame.append 方法在 pandas 1.4.0

10710

HTTP Strict Transport Security (HSTS) in ASP.NET Core

启用 HTTPS 还不够安全 现在很多站点通过HTTPS对外提供服务,用户在访问某站点,往往会直接输入站点域名(baidu.com),而不是完整的HTTPS地址(https://www.baidu.com...即使用户输入或使用普通的HTTP连接,浏览器也严格将连接升级到HTTPS。 ? HSTS HSTS是一种可选的安全增强策略,已经由IETF RFC6797中指定。...若浏览器认可该响应: 浏览器为该域名存储(阻止请求使用HTTP连接)这一约定,浏览器将强制所有请求通过 HTTPS 浏览器阻止用户使用不安全/无效证书,会显示禁用提示(允许用户临时信任该证书) 因为...HSTS策略由客户端强制执行,有一些前置条件: 客户端必须支持 HSTS 协议 必须要有一次成功的HTTPS请求,这样才能建立HSTS 策略 Preload HSTS 细心的你可能发现,HSTS还是存在一个薄弱漏洞...,那就是浏览器没有当前HSTS信息,或者第一次访问;或者新操作系统,浏览器重装,清除浏览器缓存;HSTS信息的max-age过期; 依然需要一次明文HTTP请求和重定向才能升级到HTTPS刷新HSTS

85220

Nginx配置各种响应防止XSS,点击劫持,frame恶意攻击

一个网站接受一个HTTP的请求,然后跳转到HTTPS,用户可能在开始跳转前,通过没有加密的方式和服务器对话,比如,用户输入http://foo.com或者直接foo.com。...为什么要开启 有的网站开启了https,但为了照顾用户的使用体验(因为用户总是很赖的,一般不会主动键入https,而是直接输入域名, 直接输入域名访问,默认就是http访问)同时也支持http访问,当用户...http访问的时候,就会返回给用户一个302重定向,重定向到https的地址,然后后续的访问都使用https传输,这种通信模式看起来貌似没有问题,但细致分析,就会发现种通信模式也存在一个风险,那就是这个...比如,用户点击超链接或在地址栏输入 http://www.example.com/ ,浏览器应当自动将 http 转写成 https,然后直接向 https://www.example.com/ 发送请求...SSL剥离的实施方法是阻止浏览器与服务器创建HTTPS连接。它的前提是用户很少直接在地址栏输入https://,用户总是通过点击链接或3xx重定向,从HTTP页面进入HTTPS页面。

3.2K50

跟我一起探索HTTP-内容安全策略(CSP)

使用 CSP 配置内容安全策略涉及到添加 Content-Security-Policy HTTP 标到一个页面,配置相应的值,以控制用户代理(浏览器等)可以为该页面获取哪些资源。...Content-Security-Policy: default-src 'self' *.trusted.com 示例 3 一个网站管理者允许网页应用的用户在他们自己的内容中包含来自任何源的图片,但是限制音频或视频需从信任的资源提供者...对策略进行测试 为降低部署成本,CSP 可以部署为仅报告(report-only)模式。在此模式下,CSP 策略不是强制性的,但是任何违规行为将会报告给一个指定的 URI 地址。...违规报告的语法 作为报告的 JSON 对象和 application/csp-report Content-Type 一起发送,包含了以下数据: blocked-uri被 CSP 阻止的资源 URI。...如果被阻止的 URI 来自不同的源而非 document-uri,那么被阻止的资源 URI 会被删减,仅保留协议、主机和端口号。

33320
领券