前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >技术分析:D&G 创始人真被盗号了吗?

技术分析:D&G 创始人真被盗号了吗?

作者头像
Crossin先生
发布2018-12-17 17:16:10
3730
发布2018-12-17 17:16:10
举报

意大利奢侈品牌 Dolce & Gabbana(杜嘉班纳)的创始人一番脑残的侮辱性言论暴露了自己狂妄傲慢的龌龊内心,也让其品牌为此付出了代价:上海大秀取消、代言人解约、电商全线下架。

事情的大致流程是:D&G 为筹备上海大秀发布了几支宣传片,其中有一个华裔模特用筷子吃意大利菜的视频,从内容到风格让很多观者觉得反感。于是后来这个视频就被下线了。如果事情到此为止,充其量也只能算上“涉嫌”和“争议”。但后来其创始人在 Instagram 对网友发泄不满,放言说要是按他的想法就“坚决不删视频”,并且要在以后的所有国际采访中说中国是“country of ?????”。这显然就不是对不同文化的理解差异了吧?

关于此事的评论已经铺天盖地,不差我这一份观点。不过我想来谈个细节:事件最初曝光时,当事人 Stefano Gabbana 辩解说自己是被盗号了。虽然这个理由在现在看来是非常敷衍,但我当时确实想了下,是否有这样的可能性存在呢?联想到之前在《纽约时报》上爆料特朗普的匿名匿名文章,有程序员将文章中的内容和特朗普内阁成员的 Twitter 内容进行相关性分析并发布在 Github 上。那有没有可能将此段对话与 Gabbana 日常言论作对比,分析其相关性呢?

于是我先后尝试了 3 种相关性比较方法。但很遗憾,结果不能说不好,只能说……emmmm……这是一门玄学。因为现有的文本相关度或相似性分析大都是基于语义的。也就是说,A 和 B 表达同一件事的相似度,很可能大于 A 本人表达两件不同的事情。以至于我觉得,关于纽约时报匿名文章的分析也可能存在类似情况:副总统的相关性最高,或许主要是因为其平常言论涉及的话题和文章更接近。而在这件事上,借以判断到底是不是一个人,就不太靠谱了。再加上 Gabbana 之前的发布和此番对话都很短,样本量非常小,几乎没有可参考性。

不过我后来去他的 Instagram 上翻了一下,依然发现一些蛛丝马迹,值得分析一波:

1. 单引号

有一个汉语中没有但英语中很常见符号:'(单引号),比如 I'm Crossin. 但 Gabbana 在 ig 上的发文中,其实用的不是最常见的英文半角单引号,而是一个 unicode 字符 。一般人可能不注意,但我对这个再熟悉不过了,因为有无数的 Python 初学者在最开始的代码中就因为没有用英文半角引号而报错!

但巧的是,曝光出的对话里,用的也是这个特殊的单引号。而声称同时被盗号的 D&G 官方账号就没有这个习惯。

2. 标点习惯

我抓下了 Gabbana 最近的 30 条 ig 推文,发现他发文喜欢使用连续的 3~4 个感叹号30 条中有 8 处。而在曝光对话中,也有 4 次连续感叹号和 4 次连续问号

另外,他也喜欢用 ... 的省略号,而且和很多人会固定用 3 个点不同,他数量不定且一般在 4 个及以上的点,30 条中有 4 处,只有一处是 3 个点。对话中有一处是 3 个点,两处 4 个点。

还有就是,很少有人会在标点之前空格。但在他的对话和推文中也都偶有发生。这些都是打字习惯和输入法所决定的,如果换了人,甚至换了手机,都有可能不一样。

3. 连续表情

看下面这张汇总图,这太明显了:此人极度喜欢用 emoji 表情,用连续的表情,而且对❤️情有独钟

而此次最可耻的一句话,也恰好符合这个风格!

而对于无此习惯的人来说,让你马上打这个表情出来,你都未必能找到。

4. 结尾

有人喜欢发文结尾加上句号,哪怕只有一个词。比如他们的官方账号:

而 Gabbana 不是此类。对话和 30 条推文中,仅有一条是 . 结尾的。相反最近的盗号声明和致歉声明,均以 . 结尾,没有表情和感叹号。反倒不符合他一贯的行文习惯……

这又是为啥呢?按他习惯难道不应该是:

My Instagram account has been hacked !!!!!

It’s NOT ME !!!!! I love China and the Chinese Culture ❤️❤️❤️❤️❤️❤️

虽然从以上这几点细节,并不能实锤说,Gabbana 一定没有盗号。但至少可以说,这些对话中并没有表现出与他以往行文风格很不符的地方。就算真的是被盗,那这黑客也真的是高手,不但技术好,而且还这么花心思去模仿 .... 佩服佩服 !!!!!!

话说回来,我这也是多此一举。因为盗没盗号,Instagram 官方从登录记录一眼就能看出来。之前官方就曾为美国女歌手赛琳娜·戈麦斯(Selena Gomez)发表过声明证明其账号被盗。真的被盗了,是很容易证实的。然而 D&G 两位创始人在所谓的“道歉”视频中都闭口不提之前所谓的盗号一说,想必大家也都心知肚明了。

文化上存在差异,这是很正常的事情,但这不是某些人狂妄和傲慢的借口。有错就要认,挨打要立正。别又想那啥,又想那啥。瞧不起别人的人,最终也会被别人瞧不起。

虽然我本来就没买过 D&G(因为他家也没有格子衬衫和双肩包),这次之后就连以后光顾可能性也不存在了。拜拜!


PS:

最后提下,前面说到文本相关性比较,主要是基于 TF-IDF 算法。这个阮一峰曾经写过一个系列:

TF-IDF与余弦相似性的应用

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

我分别尝试了 Python 的 gensim 库(gensim.models.TfidfModel)和 sklearn 库里的相关方法(sklearn.feature_extraction.text.TfidfVectorizer)。虽然这次没用上,但回头也可以做个案例来介绍下。

另外过程中我还找到了另一个东西:百度 AI 开放平台上的“短文本相似度接口”。除此之外还有不少有意思的接口,感觉又有东西可以玩了


PPS:

昨天发布了一篇关于编程教室免费招收线下实训生的说明。有兴趣的同学可以翻下昨天的文章了解一下。

欢迎你来跟我们一起走上编程之路。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-11-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Crossin的编程教室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档