部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >AI让“消失的网页”露出真面目

AI让“消失的网页”露出真面目

作者头像
AIGC部落
发布2025-01-13 12:32:32
发布2025-01-13 12:32:32
380
举报
文章被收录于专栏:Dance with GenAI

保存了一个网页到本地,打开后却显示:Page not found,

查看源代码,应该是使用了JavaScript脚本

在Deepseek中输入提示词:

你是一个Python编程专家,写一段Python脚本,具体步骤如下:

打开文件夹:F:\Dwarkesh Podcast

读取里面所有的html网页文件;

去掉网页源代码中的全部Javascript代码;

注意:每一步都要输出信息到屏幕上

Deepseek给出的Python源代码:

import os

import re

def remove_javascript(html_content):

"""

去掉HTML内容中的所有JavaScript代码。

"""

# 使用正则表达式匹配<script>标签及其内容

pattern = re.compile(r'<script.*?>.*?</script>', re.DOTALL)

return pattern.sub('', html_content)

def process_html_files(folder_path):

"""

处理指定文件夹中的所有HTML文件。

"""

# 检查文件夹是否存在

if not os.path.exists(folder_path):

print(f"文件夹 {folder_path} 不存在。")

return

# 遍历文件夹中的所有文件

for filename in os.listdir(folder_path):

if filename.endswith('.html'):

file_path = os.path.join(folder_path, filename)

print(f"正在处理文件: {file_path}")

# 读取HTML文件内容

with open(file_path, 'r', encoding='utf-8') as file:

html_content = file.read()

# 去掉JavaScript代码

cleaned_html = remove_javascript(html_content)

# 将处理后的内容写回文件

with open(file_path, 'w', encoding='utf-8') as file:

file.write(cleaned_html)

print(f"文件 {filename} 处理完成。")

if __name__ == "__main__":

folder_path = r"F:\Dwarkesh Podcast"

print(f"开始处理文件夹: {folder_path}")

process_html_files(folder_path)

print("所有文件处理完成。")

代码说明:

remove_javascript 函数:使用正则表达式匹配并删除HTML内容中的所有<script>标签及其内容。

process_html_files 函数:遍历指定文件夹中的所有HTML文件,读取文件内容,去掉JavaScript代码,并将处理后的内容写回文件。

主程序:指定文件夹路径,调用process_html_files函数处理文件夹中的HTML文件。

输出信息:

开始处理文件夹时会输出文件夹路径。

处理每个HTML文件时会输出文件名。

处理完成后会输出“所有文件处理完成”。

注意事项:

确保文件夹路径正确,并且文件夹中确实包含HTML文件。

如果文件夹中包含非HTML文件(如.txt、.jpg等),这些文件将被忽略。

运行程序,JavaScript脚本去除掉后,正常显示页面了:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dance with GenAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档