当前位置:首页 > 杂谈 > 正文内容

一个文件变出六种格式?它比“格式工厂”厉害多了

2023-06-13 03:18:08TONY杂谈275

本文转载自硅星人(微信公众号:guixingren123) 你可能听说过格式工厂,是一个给文件转格式

本文转载自硅星人(微信公众号:guixingren123)

你可能听说过格式工厂,是一个给文件转格式的工具。

但今天,硅星人见识了一个十分厉害的东西:不但一个文件可以有六种格式,而且变出来的新文件 MD5 哈希值还和源文件一样……

需要声明,不是故意要发在四月一日欺骗大家的感情:下面提到的都是真的,并非愚人节玩笑。

我们来一步一步看。

黑客圈有本期刊叫做 PoC||GTFO,全名是 The International Journal of Proof of Concept or Get The Fuck Out(译为“国际概念证明或者滚蛋期刊”?),发表在上面的都是一些文件格式、逆向工程和黑客攻击方面杂七杂八的东西。期刊的发表方式为在线 pdf,免费传阅,鼓励镜像。

而最新的 PoC||GTFO 0x19 这一期也很有意思:它本身是一个 pocorgtfo19.pdf 文件,却可以手动修改扩展名,变成三个“完全不同”(as in 文件格式),却又“完全相同”(as in MD5)的文件。

这三个相同又不同的文件,扩展名分别为 .pdf.zip .html。你可以在 GitHub [1](点击“阅读原文”) 上下载这个文件(大约65MB),然后自己修改扩展名试试。如果你无法访问,硅星人也把文件传到了百度网盘上 [2]。

如果我们对这三个文件 .pdf.zip .html 进行 MD5 校验,会发现他们的 MD5 值完全一致——这并没什么的,因为不会对文件造成任何影响,理论上它们还是同一个文件(只是扩展名不同):

但它的好玩之处就在于,在三个不同扩展名下都可以正常打开,并且具备各自的意义。

如果你打开 .pdf 版本,就可以阅读这本期刊:

把扩展名改成 .zip,然后进行解压,会得到这一期 PoC||GTFO 所引用作品的原始文档:

最后我们把格式改成 .html,就可以在浏览器里打开了,会得到下面这样一个静态页面:

这还没完,更有趣的还在后面呢。这个页面上写的是:drop me here so that I can parse myself(把我拽到这个地方,这样我就能解析我自己了)。这又是什么意思?

因为你现在打开的是 .html 文件,所以正确的做法是把 .html 文件再拖回到上面那段字所在的地方:

这个 html 自己解析自己,居然又解出来了四个文件????

解出来四个新文件的分别为:图像 .png、微软可执行 .ex、视频 .mp4,以及和最初的 .pdf 完全相同的另一个 .pdf 文件)。

如果你再去对这四个新文件检查 MD5 值,可能世界观会崩塌:它们的 MD5 值跟原始的 .pdf 仍然一样。

而且你需要注意到:新出来的其中三个文件(.png .ex 和 .mp4)并不是从原文件直接改扩展名得到的,而是那个 .html 文件作为一个解析器,对自己进行解析,所得到的次生文件。

因为在 macOS 上,硅星人就不打开 .ex 文件了;如果我们打开 mp4 文件,会得到一段很短赛车视频:

在解析后的页面里,这个小玩意的作者如此解释:这个文件是一个 HTML,但同时它也是一个 PDF polyglot.

Polyglot 的字面意义是通晓多种语言。在计算机科学上,它描述的是多种计算机语言写在一个文件里得到的“杂交体”,可以被这些语言对应的编译器编译。

用普通程序员的话来讲,Polyglot 就是一个程序可以同时用 PDF 和 HTML 编译器通过。用人话翻译一遍,就是一个文件,它可以被当做图片、视频和文档打开,也可以当做可执行程序运行……

作者继续解释道:它不仅仅是一个 HTML 和 PDF 的 polyglot,还同时和另外四个文件(也就是刚才解析出的 .png .ex .mp4 和 .pdf)实现了 MD5 碰撞。

这究竟是什么魔法???

刚才我们还有一个文件没打开,也就是 .png。如果你用 Chrome 浏览器打开它,能看到下面这张图:

它其实描述的就是这个文件的结构。简单来说:对一个文件的编码“排版”进行刻意的修改,在里面同时加入 html、png、mp4、pe 的文件头 (header) 和内容。

基因学有个词叫做嵌合体,描述的是一个生物体同时拥有多套 DNA,体现出不同的特征。比如杂交,如果成功,得到的就是一种最典型的生物嵌合体。

而这个 html/pdf 文件,就像是计算机上的嵌合体。它看起来是一种文件,实际上还包含了其他多种文件的“特征”……

网友对这个小玩意给出了很高的评价:

无限接近魔法了

哈哈非常酷!向着 SHA-2 进发!

笑翻了。MD5 别着急,你到不是完全没用,只是变成梗了 :-)

小心这些碰撞的碎片(双关梗,碎片-弹片-弹壳-壳-shell)

工作原理

这个小玩意的主要作者是 Ange Albertini 和 Marc Stevens。

Albertini 是 PoC||GTFO 的编辑之一,以及期刊 GitHub“官方页面”的所有者。他在 Google 的瑞典苏黎世办公室担任安全工程师,在这个小玩意里主要负责逆向工程的工作。

Marc Stevens 为该项目提供了哈希碰撞方面的重要帮助。他在荷兰国家研究机构 CWI 从事加密科学研究,于2017年和 Google 合作首次完成了 SHA-1 碰撞破解,也就是著名的 SHAttered 事件。

前面提到,MD5 在多年前就被证明可以碰撞破解,但是碰撞起来很费时费力。而Albertini 和 Stevens 共同开发出了一个“一键脚本”,能够轻松实现两个(甚至更多)文件的 MD5 碰撞。

“碰撞任何两个文件多年前就实现了,问题是每次都需要几个小时,没有捷径。 我们在此提供一种技巧,面向特定文件格式和预先计算好的碰撞前缀,让碰撞即可完成。

这一技术的工作原理大致是这样的:通过预先计算,了解JPG, PNG, PDF, MP4 这样的常用文件格式的 prefix(可以被理解为文件内容的“目录”)可以怎样兼容,然后在一个单独的文件 A 上做文章,使得 A 文件可以包含 b.jpg、c.png、d.pdf 和 e.mp4 四个不同文件的数据。

现在,这些研究者可以在 JPG, PNG, PDF, MP4, GIF 这些常用格式的文件之间快速实现碰撞——不仅他们可以,你也行。他们已经在 GitHub - corkami/Collision [3]上开源了这些技术,“git clone,运行,搞定。”Albertini 写道。

说实话这个技术没太多创造价值的用途……无非是 1)证明了 MD5 真的太不安全了,建议弃用;2)可以被用于黑客攻击。

安全研究员晨月举了一个哈希碰撞攻击的简单例子:“比方杀毒软件对可执行文件很严格,但有个 exe 文件伪装成了 jpg 文件,图片看起来也没什么问题,就被通过了,然后进入系统展开攻击。”(当然,现在的杀软也没那么傻,安全行业也一直对哈希碰撞保持高度关注。)

这种攻击造成的伤害,可能更多是社会意义上的。

比如,某政客的网站上有一段视频总结了他的政治理念和纲领,而黑客制作了一段哈希值和原视频完全相同,但意义完全相反的视频,再注入到网站上,让政客丢脸,使其失去选民的信任。

这样看的话,基于这一技术的黑客攻击就大有潜力了……

这个小玩意的其他贡献者者还有 Rafał Hirsz,他跟 Albertini 是同事,负责 JavaScript;Kurt Pfeifle,一位 PDF 文件/PostScript语言方面的专家,PDF Association 成员;Philippe Teuwen,比利时安全公司 QuarksLab 研究员,为项目提供文件格式帮助;以及 .mp4 视频的作者是 Gustavo Torres,一位独立视觉艺术家。

因为文件格式和哈希算法确实不是硅星人的专业,我们就不深入探讨了……

如果你感兴趣的话,可以下载 PoC||GTFO 的0x19期,然后自己动手该扩展名玩一玩,然后到 GitHub - corkami/Collision 上了解技术详情。

Have fun.

[1] https://github.com/angea/pocorgtfo/blob/master/releases/pocorgtfo19.pdf

[2] https://pan.baidu.com/s/1D4elZHUzg5vvzvfqLrgf4A 提取码: jx77

[3] https://github.com/corkami/collisions

[4] 视频1 https://github.com/corkami/collisions/blob/master/examples/collision1.mp4;视频2 https://github.com/corkami/collisions/blob/master/examples/collision2.mp4

“一个文件变出六种格式?它比“格式工厂”厉害多了” 的相关文章

潮讯:微软证实必应无法访问;抖音回应微信无法登录;苹果又卖iPhone SE;2018年移动支付人均月消费2600元

潮讯:微软证实必应无法访问;抖音回应微信无法登录;苹果又卖iPhone SE;2018年移动支付人均月消费2600元

三星 S10 / S10+ 真机曝光 今天,三星 S10 系列真机照曝光。 左侧的 Galaxy S 三星 S10 /...

2月70城房价分化 :一线城市环比上涨,二三线环比持平或下降

2月70城房价分化 :一线城市环比上涨,二三线环比持平或下降

  3月16日,国家统计局发布2022年2月70个大中城市商品住宅销售价格变动情况,国家统计局城市司首席统计师绳国庆解读表示,2月份,70个大中城市中,一线城市新建商品住宅和二手住宅销售价格环比上涨,二三线城市环比持平或下降。   整体来看,2月新房、二手房涨跌城市数量与...

银行人工客服怎么找?都给你总结好了,赶紧收藏!

银行人工客服怎么找?都给你总结好了,赶紧收藏!

你是否会遇到这种情况: 打银行电话半天也找不到人工客服,起到抓心挠肝! 找银行协商、了解逾期情况,接电话的总是催收! 想找个客服怎么就这么难! 其实是可以理解的,银行每天接待的客户量是很大的,经常是上万甚至几十万,如果都是人工客服接听,人工成本太大,所以都采...

把红包码贴在地铁场所码上,一男子被拘

把红包码贴在地铁场所码上,一男子被拘

  为获返现金额,上海一男子将红包二维码贴在了地铁场所码上。目前,该男子因扰乱公共秩序被轨交公安依法行政拘留。  9月25日,黄某将自己的红包二维码贴在了地铁场所码上。上海轨交公安 图  9月25日,上海地铁9号线台儿庄路站民警接车站站长反映,该站1号口进口处及通道内有2张“场所码”被其他二维码覆盖...

超好用知云文献翻译下载方式

超好用知云文献翻译下载方式

推荐一款论文翻译工具:知云文献翻译可直接进知云文献翻译的官网进行下载:知云文献翻译 - 知云文献翻译最新版下载,最好用的文献翻译软件www.zhiyunwenxian.com有什么问题,欢迎私信或者评论。两个网址都可以:知云文献翻译 - 知云文献翻译最新版下载,最好用的文献翻译软件www.zywxf...

汽车高速公路道路救援24小时,发动机突然没有动力怎么回事?

汽车高速公路道路救援24小时,发动机突然没有动力怎么回事?

汽车高速公路道路救援24小时,4OO-бб9-11ち9,发动机突然没有动力怎么回事?汽车行驶过程,总会出乎意料的出现不同的问题,关于汽车发动机问题,一般有以下几个问题。 汽车高速公路道路救援24小时...