我有一个脚本,它是我按照《学习Python for Forensics》一书中的蓝图构建的。该脚本将遍历用户指定的目录,并收集该目录中每个文件的元数据。结果将保存到sqlite数据库,还会写入CSV或HTML文件。
该脚本最初是用Python 2.7.15编写的。我正在尝试更新Python 3.7的代码。但是,摄取目录函数中有一行给我带来了问题。
ingestDirectory
函数如下所示:
def ingestDirectory(cur, source, custodian_id):
count = 0
for root, folders, files in os.walk(source):
for file_name in files:
meta_data = dict()
try:
meta_data['file_name'] = file_name
meta_data['file_path'] = os.path.join(root, file_name)
meta_data['extension'] = os.path.splitext(file_name)[-1]
file_stats = os.stat(meta_data['file_path'])
meta_data['mode'] = oct(file_stats.st_mode)
meta_data['inode'] = int(file_stats.st_ino)
meta_data['file_size'] = int(file_stats.st_size)
meta_data['atime'] = formatTimestamp(file_stats.st_atime)
meta_data['mtime'] = formatTimestamp(file_stats.st_mtime)
meta_data['ctime'] = formatTimestamp(file_stats.st_ctime)
except Exception as e:
logging.error('Could not gather data for file: ' + meta_data['file_path'] + e.__str__())
meta_data['custodian'] = custodian_id
columns = '","'.join(meta_data.keys())
values = '","'.join(str(x).encode('string_escape') for x in meta_data.values())
sql = 'INSERT INTO Files ("' + columns + '") VALUES ("' + values + '")'
cur.execute(sql)
count += 1
给我错误的代码行是:
values = '","'.join(str(x).encode('string_escape') for x in meta_data.values())
此行用于在将数据写入数据库之前处理在metadata.values
中找到的任何字符串转义字符。
当我试图在Python3中运行这段代码时,我得到了一个关于无法识别的编解码器的错误。我在Stack Overflow上做了一些研究,发现在Python3中string_escape
已经被unicode-escape
取代了。
我是Python3和Unicode的新手。我的问题是:
如何更新上面的代码行,使其使用unicode-escape
而不是string_escape
,并生成与Python2.7代码相同的结果?
任何帮助都将不胜感激!我已经在这个问题上工作了几天,我尝试的每一个解决方案都会导致更多的错误代码或损坏的输出文件。
发布于 2018-09-11 03:50:21
您在这段代码中生成SQL,转义是为了尝试生成有效的SQL。这是一个非常糟糕的尝试,以避免SQL注入。它不是很有效,也不需要,因为数据库驱动程序已经知道如何以一种更安全的方式处理这个问题!
对于SQL数据库,将值放入SQL参数的正确方法。SQL参数由两个组件组成:占位符和分别传递给.execute()
方法的值,以便数据库干净地处理。sqlite3
库也不例外,请参阅cursor.execute()
method for details。对于您的情况,您可以使用命名占位符:
columns = [f'''"{name.replace('"', '""')}"''' for name in meta_data]
placeholders = [f':{name}' for name in meta_data]
sql = f'INSERT INTO Files ({", ".join(columns)}) VALUES ({", ".join(placeholders)})'
cur.execute(sql, meta_data)
注意,meta_data
是作为第二个参数传递的;数据库接受每个:name
占位符,并从meta_data
字典中获取该占位符的值。
我还对列名进行了适当的格式化,将列名用双引号括起来,并将名称中的所有"
字符加倍;请参阅SQLite keyword documentation
'keyword' A keyword in single quotes is a string literal.
"keyword" A keyword in double-quotes is an identifier.
您的代码已经对这些列名进行了硬编码,并且它们都不是保留的SQL关键字,因此它们实际上并不需要这种保护,但这仍然是一种很好的实践。
对于您的代码,其中meta_data
具有固定数量的键,上面的代码构建了这个sql
字符串:
>>> columns = [f'''"{name.replace('"', '""')}"''' for name in meta_data]
>>> placeholders = [f':{name}' for name in meta_data]
>>> sql = f'INSERT INTO Files ({", ".join(columns)}) VALUES ({", ".join(placeholders)})'
>>> from pprint import pprint
>>> pprint(sql)
('INSERT INTO Files ("file_name", "file_path", "extension", "mode", "inode", '
'"file_size", "atime", "mtime", "ctime") VALUES (:file_name, :file_path, '
':extension, :mode, :inode, :file_size, :atime, :mtime, :ctime)')
我还会改变记录错误的方式,而不是
logging.error('Could not gather data for file: ' + meta_data['file_path'] + e.__str__())
我会用
logging.exception('Could not gather data for file: %s', meta_data['file_path'])
并将错误收集留给日志记录框架。即使包含了exception对象,也要使用str(e)
或%s
占位符。
https://stackoverflow.com/questions/52264355
复制相似问题