保存了一个网页到本地,打开后却显示:Page not found,
查看源代码,应该是使用了JavaScript脚本
在Deepseek中输入提示词:
你是一个Python编程专家,写一段Python脚本,具体步骤如下:
打开文件夹:F:\Dwarkesh Podcast
读取里面所有的html网页文件;
去掉网页源代码中的全部Javascript代码;
注意:每一步都要输出信息到屏幕上
Deepseek给出的Python源代码:
import os
import re
def remove_javascript(html_content):
"""
去掉HTML内容中的所有JavaScript代码。
"""
# 使用正则表达式匹配<script>标签及其内容
pattern = re.compile(r'<script.*?>.*?</script>', re.DOTALL)
return pattern.sub('', html_content)
def process_html_files(folder_path):
"""
处理指定文件夹中的所有HTML文件。
"""
# 检查文件夹是否存在
if not os.path.exists(folder_path):
print(f"文件夹 {folder_path} 不存在。")
return
# 遍历文件夹中的所有文件
for filename in os.listdir(folder_path):
if filename.endswith('.html'):
file_path = os.path.join(folder_path, filename)
print(f"正在处理文件: {file_path}")
# 读取HTML文件内容
with open(file_path, 'r', encoding='utf-8') as file:
html_content = file.read()
# 去掉JavaScript代码
cleaned_html = remove_javascript(html_content)
# 将处理后的内容写回文件
with open(file_path, 'w', encoding='utf-8') as file:
file.write(cleaned_html)
print(f"文件 {filename} 处理完成。")
if __name__ == "__main__":
folder_path = r"F:\Dwarkesh Podcast"
print(f"开始处理文件夹: {folder_path}")
process_html_files(folder_path)
print("所有文件处理完成。")
代码说明:
remove_javascript 函数:使用正则表达式匹配并删除HTML内容中的所有<script>标签及其内容。
process_html_files 函数:遍历指定文件夹中的所有HTML文件,读取文件内容,去掉JavaScript代码,并将处理后的内容写回文件。
主程序:指定文件夹路径,调用process_html_files函数处理文件夹中的HTML文件。
输出信息:
开始处理文件夹时会输出文件夹路径。
处理每个HTML文件时会输出文件名。
处理完成后会输出“所有文件处理完成”。
注意事项:
确保文件夹路径正确,并且文件夹中确实包含HTML文件。
如果文件夹中包含非HTML文件(如.txt、.jpg等),这些文件将被忽略。
运行程序,JavaScript脚本去除掉后,正常显示页面了:
本文分享自 Dance with GenAI 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!