TL;DR:我有一个CMS系统,它使用SHA-1文件内容作为文件名来存储附件(不透明文件)。既然我已经知道SHA-1散列匹配两个文件,那么如何验证上传的文件是否真的与存储中的一个匹配呢?我想要高性能的。
长版本:
当用户将一个新文件上传到系统时,我计算上传的文件内容的SHA-1散列,然后检查存储后端是否已经存在具有相同哈希的文件。PHP在代码运行之前将上传的文件放入/tmp中,然后对上传的文件运行sha1sum以获取文件内容的SHA-1散列。然后,我从计算出来的SHA-1散列计算扇出,并决定NFS挂载目录层次结构下的存储目录。(例如,如果文件内容的SHA-1哈希为37aefc1e145992f2cc16fabadcfe23eede5fb094,则永久文件名为/nfs/data/files/37/ae/fc1e145992f2cc16fabadcfe23eede5fb094。)除了保存实际的文件内容外,我还为用户提交了元数据(例如,INSERT、原始文件名、日期标记等),将一个新行保存到SQL数据库中。
我目前正在解决的问题是,一个新上传的文件具有与存储后端中现有哈希匹配的SHA-1哈希。我知道,这种偶然发生的变化非常低,但我想确定一下。(关于目的情况,请参见https://shattered.io/)
给定两个文件名$file_a 和 $file_b**,,如何快速检查两个文件的内容是否相同?**假设文件太大,无法加载到内存中。对于Python,我会使用filecmp.cmp(),但是PHP似乎没有类似的东西。我知道,如果找到不匹配的字节,可以使用fread()和中止操作,但我不想编写这段代码。
发布于 2021-06-11 07:32:54
所以我遇到了这个问题,然后找到了一个回答它的问题,而且真的很有效。
2021年事情变了,所以我想我会发布一个链接到这个答案Here
( A)基本上,它使用的是fopen和fread,如上面所示,但它可以工作。接受的答案总是对我来说是不同的,即使是在同一个文件上。
如果您可以使用fopen和fread方法,那么它将比sha1或md5方法更快,我不知道为什么不能。
Svish的版本来自上面的链接..。
function files_are_equal($a, $b)
{
// Check if filesize is different
if(filesize($a) !== filesize($b))
return false;
// Check if content is different
$ah = fopen($a, 'rb');
$bh = fopen($b, 'rb');
$result = true;
while(!feof($ah))
{
if(fread($ah, 8192) != fread($bh, 8192))
{
$result = false;
break;
}
}
fclose($ah);
fclose($bh);
return $result;
}https://stackoverflow.com/questions/18849927
复制相似问题