首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

脑洞 | 像Sheldon一样对“讽刺语言”分辨无能?别怕,MIT最新算法帮你助攻

但更准确辨识和评论意义可以帮助电脑自动圈出并撤销带有辱骂意味网络言论。对于更深层了解同样应当能帮助专业学者,去理解信息和影响因素是如何在网络中流动。...如果机器变更聪明,感知情感能力将会变成人与机器交流关键一环。 研究人员原本打算建立一个可以检测带有种族歧视系统,但后来他们发现,如果对讽刺没有一定程度理解能力,程序会很难理解这些。...为了训练这套叫做深度表情符号算法,研究者们从550亿文中选取了12亿个包含有64个最受欢迎表情符号。...他们先让系统根据情感(开心、难过、搞笑等等)来预测什么样表情符号可以被应用于该文中。用表情符号预先训练算法在检测讽刺歧视上表现比没有用更出众。他们发布这套算法给大众使用。...看上去运行不错,除了在我尝试输入唐纳德川普现今还不是很有名‘covfefe’,它表现的如大家一样一脸懵逼。 这个网站也支持用户们对于这项研究贡献,通过匿名上传他们自己和情感。

74940

Twitter新政:变革140字限定背后,Twitter有何新目标?

此外,该公司改变显示方式,用户包含艾特对象即时出现在用户特时间线内。 这一改变对用户习惯和互联网世界又意味着什么呢?...现在这个产品和应用已经能够发送包含照片、图片、视频、投票等特数据特性。 今天,我们非常兴奋宣布接下来几个月将要发生一些变化,特将允许人们在140个字符里表达更多信息。...媒体附件:由附件照片、视频、GIF、投票、引用或DM深度链接在尾部生成URL也将不再受到字符限制(键入或粘贴到文中URL会像现在一样受到字符限制)。...iOS、安卓和Web上显示时间轴; ◆ ◆ ◆ 特目标变化 如下几个方面会在有效内容中发生变化: · 在文中显示文本不超过140个字符,但当用户名或附件URL包含文中某些点时...这个区域被限制为只能包含一个URL标识为一个数据源:目前包括14张照片、GIF、投票、引用或DM深度链接。

1.9K60
您找到你想要的搜索结果了吗?
是的
没有找到

社交平台上桃色陷阱:僵尸网络SIREN侵袭Twitter

该僵尸网络名为SIREN(起源于希腊神话中用美妙歌声让水手迷失方向海妖塞壬),约包含9万多个伪造特账号,共计发布了850万条含有恶意链接,在数周内诱使网友进行了3000万次恶意点击。...近9万账户都使用诱人女性图片做头像,以及一个女性名字作为账户名(如下图)。这些机器人账户会通过直接转发受害者等方式来引诱他们落入圈套。 ?...SIREN僵尸网络同样一些流量引入与Deniro Marketing相关网站。...发布是SIREN重要传播手段,因此保护社交平台上个人资料、页面等远离这些垃圾网站,有助于减少客户接触这些链接几率,达到品牌声誉维护目的。 4....本报告数据均为相关社交平台API所收集公开数据,包含机密信息。

1.6K40

从TwitterXSS漏洞构造出Twitter XSS Worm

在该XSS漏洞修复之前,通过Twitter发布以下URL链接就会创建出一个XSS worm来,它可以在特圈内从一个账户中传播到另一个账户。...但是,我分析了一个,还有另外两种相对容易方法来创建XSS Worm传播态势: 1、“武器化”构造一系列链,每条文中包含对前一条转发Payload,这样,只要你点击或转发到其中一条...,都将造成对整个不断转发操作,导致攻击链中活跃Twitter账户都会执行这种操作,形成传播感染; 2、在转发文中加入一些XSS Payload,也会造成更大范围影响。...最终,基于上述一大堆传播功能构造,加入这种带有身份窃取功能隐蔽XSS Worm分阶段运行如下: 1、发送带有下面这个Payload并获取其ID: <iframe src...要注意是,"oauth_token"只能被进行一次身份验证,且其有效期非常短。但对一些不懈攻击者来说,只要发送大量,就能劫持很多用户权限。

1.5K30

重磅|如何利用NBA球员预测其球场表现?

AGC数据集中所收集,除了内容以外,还包含其他描述性属性,比如发布时间等。从量上来看,整个赛季中,球员一共发布了91,659条,75.3%球员发布了至少100条。...为了更准确分析,我们通过过滤掉单纯转发包含网址链接信息类推来预先处理它们。此外,非英文也被移除掉了。但是里面还是充满了非标准英文。因此我们设计了一种数据清理机制。...我们主要应用AFINN情感词典和一个手工组建表情符号延伸列表来监测文中球员情感信号,以及背后隐藏球员情绪极性和程度。...对于每条,作者使用R来自动提取与AFINN词典相关特征,然后内所有单词与AFINN词典相匹配,得出单词情感正负性,即AFINN得分,最后将其相加得出每条情感正负性。...因此我们也文中表情符号与手工组建表情符号延伸列表相比对来获取背后球员情绪。

1.2K81

【哈工大SCIR】多模态情感分析简述

数据集是根据选定十五种情绪搜索对应情绪标签,并且只选择其中既有文本又有图片部分,然后进行了数据处理,删除了那些文本中原本就包含对应情绪词内容,以及那些主要不是英文为主。...对于每个方面,都有一个从110情感得分。 Twitter-15和Twitter-17是包含文本和文本对应图片多模态数据集,数据集标注了目标实体及对其图文中表达情感倾向。...整个数据规模是Twitter-15(3179/1122/1037)条带图片,Twitter-17(3562/1176/1234)条带图片,情感标注为三分类。...数据集 Twitters反讽数据集构建自Twitter平台,其从Twitter上收集包含图片和一些特定话题标签(例如#sarcasm,等等)英语,将其作为例,并收集带有图片但没有此类标签英语...数据集还进行了进一步整理数据,含有讽刺、讽刺、反讽、反讽等常规词汇删除。也会删除含有URL,以避免引入额外信息。

4.1K61

Web Hacking 101 中文版 六、HTTP 参数污染

这些社交媒体链接包含用于社交媒体链接特定参数。 攻击者可以另一个 URL 参数追加到链接中,并让其指向任何他们所选站点。...这些情况下,被提交内容可能在没有合理安全检查情况下传递。 2....这里是它一个示例: Twitter Intent 充分测试之后,黑客 Eric Rafaloff 发现,全部四个 Intent 类型:关注用户、喜欢、转发和发,都存在 HPP 漏洞。...根据他,如果 Eric 创建带有两个screen_name参数 URL: https://twitter.com/intent/follow?...与之类似,当展现 intent 用于喜欢时,Eric 发现它能够包含screen_name参数,虽然它和喜欢这个毫无关系,例如: https://twitter.com/intent/like?

55510

一人改代码搞崩特,马斯克气疯:全部重写!

Platformer从内部员工那里了解到了更详细情况:这个API,就是马斯克在2月1日宣布从免费改收费那一个。这一改动当时直接让第三方客户端寿终寝了。...这下可把马斯克惹毛了,正如他在自己文中所表示,“无缘无故代码太脆弱”。 老板很生气,于是在内部Slack(通讯软件)上,瞬间挤满了特程序员们疯狂救火线程。...加上今天图片和链接无法访问,崩溃事件可谓是花样百出。 ——以及“家常便饭”大家已经掌握熟练吃瓜技能了。 特自己员工: 我们都已经麻了。 外媒: 等着吧,估计下一次崩溃又在路上了。...一位来自匿名工程师对此表示很担忧: 代码库非常庞大,网站各个部分都需要了解不同编程语言的人来维护。...峰会上还将发布《中国AIGC产业全景报告暨AIGC 50》,全面立体描绘我国当前AIGC产业竞争力图谱。点击链接或下方图片查看大会详情: 被ChatGPT带飞AIGC如何在中国落地?

53840

一顿操作猛虎,涨跌全看特朗普!

只需创建一个新JSON文件,密钥和秘密存储在字典中,并将其保存为.cred.json: 许多推包含非字母字符。例如,一条可能包含&、>或<。这样字符被Twitter转义。...清洁技巧: 删除引号 理想情况下,我想把“and“当作一个单词来对待。然而,我们发现Tokenizer并不总是这些单词视为单个单词。 删除URL. #和@。其中大多数只出现一次。...因此,包含URL大大降低了模型在valdiation集上性能。 我们发现这些清理对于创建有意义模型非常重要。不进行清洗,模型训练精度提高超过0.05。...这里我们重点介绍语法注释,语法注释响应提供关于句子结构和每个单词词性详细信息。常常缺少标点符号,语法上也总是正确,但是NL API仍然能够解析它们并提取语法数据。...但我并不想要所有收集文中形容词,我们只想要希拉里或特朗普作为句子主语文中形容词。NL API使使用NSUBJ((nominal subject)标签过滤符合此标准变得很容易。

4K40

拿起Python,防御特朗普Twitter!

这将为我们提供一个包含一个项目的列表,其中包含关于川普最后一条信息。我们可以得到关于Twitter不同信息。例如:last_tweet.full_text提供他最后一条全文。...只需创建一个新JSON文件,密钥和秘密存储在字典中,并将其保存为.cred.json: ? 许多推包含非字母字符。例如,一条可能包含&、>或<。这样字符被Twitter转义。...清洁技巧: 删除引号 理想情况下,我想把“and“当作一个单词来对待。然而,我们发现Tokenizer并不总是这些单词视为单个单词。 删除URL. #和@。其中大多数只出现一次。...因此,包含URL大大降低了模型在valdiation集上性能。 ? 我们发现这些清理对于创建有意义模型非常重要。不进行清洗,模型训练精度提高超过0.05。...使用带有Node.jsTwitter流媒体API对提到希拉里或特朗普进行了流媒体处理。 ? 一旦我们收到一条,我们就把它发送到自然语言API进行语法分析。

5.2K30

俄罗斯黑客是如何滥用twitter作为Hammertoss C&C服务器

本文我们复制一项技术,我们曾用它来追踪一个叫做Hammertoss复杂俄罗斯恶意软件,该恶意软件创造者滥用知名网站(比如twitter和github)来跃过防火墙和躲避追踪。...火眼给出了一个短视频,快速展示了恶意软件工作原理: Hammertoss工作原理 首先,Hammertoss会连接到twitter,寻找攻击者发布:里面包含一张图片URL和部分加密密钥hash...从技术角度来说,根本不需要登录twitter账户就可解析别人发布;这种情况下我们只需识别出账户URL包含真正信息HTML标签。...我twitter主页为:https://twitter.com/HussamKhrais 我用kali机器发布了一条:Hello from kali python。...随后退出账户,与此同时我们打开https://twitter.com/HussamKhrais,会发现一些类似的。 使用浏览器打开就可看到该页面的HTML源码。

1.2K50

如何一步一步设计一个大规模复杂系统

以设计一个类 Twitter 服务为例,在开始设计之前应先回答以下问题: 我们服务用户能否发布并关注其他人? 我们是否还应该设计来创建和显示用户时间轴? 文中是否包含照片和视频?...用户将能够搜索吗? 我们需要显示热门话题吗? 是否有关于新(或重要)推送通知? 这些问题决定最终设计系统长什么样。...这对于决定我们如何管理流量和平衡服务器之间负载。 第四步:设计数据模型 早一点定义数据模型可以弄明白数据如何在不同组件之间进行流转。数据模型指导数据分区和管理。...请记住,没有标准答案,唯一重要是有限资源前提下怎么做出权衡。 由于我们存储大量数据,因此如何数据分区分发到多个数据库?是否应该尝试将用户所有数据存储在同一数据库?它会导致什么问题?...如何处理发大量或关注很多人热门用户? 由于用户时间轴包含最新,为了获取最新是否需要优化数据存取方式? 我们应该在多少层引入缓存以加快处理速度? 哪些组件需要更好负载平衡?

96220

使用Puppeteer提升社交媒体数据分析精度和效果

图片导语社交媒体是互联网上最受欢迎平台之一,它们包含了大量用户生成内容,文本、图片、视频、评论等。这些内容对于分析用户行为、舆情、市场趋势等有着重要价值。但是,如何从社交媒体上获取这些数据呢?...一种常用方法是使用网络爬虫,即一种自动化地从网页上提取数据程序。概述在本文中,我们介绍如何使用Puppeteer这个强大Node.js库来进行社交媒体数据抓取和分析。...Puppeteer是一个可以控制Chrome或Chromium浏览器API,它可以实现以下功能:生成网页截图或PDF文件模拟用户操作,点击、输入、滚动等捕获网页上元素,文本、图片、链接等监听网页上事件...,绕过反爬虫机制,验证码、登录验证等可以灵活地定制爬虫逻辑,根据不同社交媒体平台和数据需求进行调整正文在本节中,我们详细介绍如何使用Puppeteer进行社交媒体数据抓取和分析步骤。...-55之间 console.log(`正面词:${analysis.positive}`); // 正面词表示文中正面情感词汇 console.log(`负面词:${analysis.negative

26520

最新NLP研究 | Twitter上情绪如何预测股价走势(附代码)

这里有两个带有cashtags负面和正面例子,分别代表苹果、谷歌和其他少数公司。 ?...最终分析中包含最多cashtags是(前12名): ? 在这79天时间里,100只股票cashtags平均数为6446条,即每只股票/cashtags每天有81条。...VADER更注重大写字母识别,还能识别俚语、感叹号和最常见表情符号。情绪得分从极负(-1)(+1),中性为0。比如: ?...虽然考虑了特征工程,但周末创建股票价格是人为,可能会扭曲结果。考虑对周一股市走势影响,或许周五周日应该以某种方式组合在一起。...在模拟中,最终P/L取决于周期长度。在某些情况下,交易期越长,利润就会变成亏损,反之亦然。 6、模拟中没有考虑交易成本。至少在最终利润相当微薄情况下,交易成本可以利润变成亏损。

7.2K41

社交媒体与邮件营销结合实现1+12效果,你会玩吗?

新品分享网站Product Hunt就是一个典型范例,他们邮件时事通讯和分享着同一种“语言”。如上图所示,这个品牌亲民而又热情,它使用了大量表情符号,并发布了宠物猫GIF动图。...而在Twitter上,他们发布了一条更长带有深入解释Thread,然后在邮件中提供了该链接(如下图)。 Notion发布Thread包含了12条带有自定义图片。...通过这样,你顾客可以直接在底下进行回复,而那些希望获得积极反馈和邮件订阅者立即看到社媒用户对你品牌认可度: 内容循环利用也在另一方面发挥着作用,你可以在邮件更新中讲述一个深入故事...你可以参考下图中社会化客户关系管理平台Intercom所发布帖子,他们还喜欢在文中添加自定义图片: 在你Instagram个人资料中添加一个链接是非常值得,你也可以运用Stories...通过这种方式,用户只需简单地点击一下就可以访问你着陆页面。在某些情况下,更好做法是利用社媒平台自带工具来进行这类促销(FacebookCTA按钮)。

2.6K01

一种基于机器学习自动化鱼叉式网络钓鱼思路

攻击者会花时间了解攻击目标,包括姓名、邮箱地址、社交媒体账号或者任何在网上参与过内容等。...二、 自动化鱼叉式钓鱼攻击 Twitter、Facebook等社交媒体平台包含大量个人隐私信息、开放平台API接口,而且内容多有字数限制(短文)、语言规范、常用短地址服务等特点,决定了其容易被攻击者利用并学习构造虚假信息...② 自动化鱼叉钓鱼 选取攻击目标后,攻击者利用SNAP_R递归神经网络模型抽取目标感兴趣话题以及该目标发送或者回复情况以便于产生钓鱼内容。...除介词等停止词之外,最频繁出现内容都可以用于构造内容,内容会选择用户经常发送或转推推时间进行发送。...图5 SNAP_R递归神经网络 为了评估该网络钓鱼攻击效果,在文中插入下载负载网址链接并使用goo.gl短连接跳转服务,如果攻击目标点击该链接时,goo.gl会记录时间戳、UA等信息(详见图5)。

1.3K10

国内外顶尖高校联合发布首个「新冠NLP数据集」METS-CoV|NeurIPS 2022

在进行数据预处理时,研究者首先删除了非英语、转以及包含URL(它们通常是第三方消息重述,不能直接反映用户意图和态度),然后,使用症状关键词列表来筛选与医学相关。...为了在数据集中包括更多医学实体,研究者从模型标注文中筛选了 4,000 条包含药物或疫苗实体,由标注人员进行人工校验并加入数据集中。...最终,METS-CoV-TSA数据集中一共包含5,278条。 数据集统计信息 大多数长度都小于80个token。其中,长度为50左右占比最高。...METS-CoV中长度分布情况 总数为10,000条, 一共标注了19,057个实体,平均每个文中包含了1.91个实体。...对于dotGCN,当长度在2040之间时,F1值会有一定程度波动,之后,F1值会随着长度增加而提高。

43020

值得在Twitter上关注十位大数据专家

任何人都可以轻松在自己或者其它通信方式中加入“大数据”或者其它相关技术术语,但这并不意味着这些家伙真当得起“专家”名头——这正如我可以在文中讨论美味糕点制作方法,但这并不代表我本人是位技艺出众大厨...“每一位都能帮助大家更清晰地勾勒出大数据宏观框架,同时又不至于被层出热门消息搞得应接不暇,”Asay指出。Adrian通常以Hadoop、NoSQL以及微软等为主要话题。...她还会在文中提到大数据领域特定供应商,例如Cloudera,并分享她本人在Gartner研究工作中了解报告信息,例如:2015年,便于25%大型企业配备“首席数据官”职位。...他除了关注以上重点内容之外,也经常涉及网络上流传广播各类大数据指导性消息。各位求职者们请格外注意:KDNuggets网站还地定期发布与数据技术工作岗位相关最新情报。...如果大家对于如何大数据转化为实实在在业务绩效——换言之、变成金钱——感兴趣,那么Borba可绝对不能错过。

1.3K100

资源 | 25个深度学习开源数据集,have fun !

Open Images是一个包含近900万个图像URL数据集。这些图像已经用数千个类别的图像级标签边框进行了注释。...最终数据集具有以下6个特征: 极性 ID 日期 问题 用户名 文本 大小:80 MB(压缩) 记录数量:160,000条 SOTA...这个数据集包含任何音频,只是派生功能。示例音频可以通过使用哥伦比亚大学提供code从7digital等服务中获取。 大小:280 GB 记录数量:PS - 它一百万首歌曲!...Twitter Sentiment Analysis 仇恨型演讲以种族主义和性别歧视为形式言论已成为特上麻烦事,重要这类推与其他分开。...在这个实际问题中,我们同时提供正常和仇恨型特数据。你作为数据科学家任务是确定哪些是仇恨型,哪些不是。

95450

特朗普特:谁还不是个“快乐源泉”了? | Alfred数据室

我们获取了特朗普自2009年5月4日2019年12月22日所发43981条,给大家挖掘一下这个“快乐源泉”。 一、一个特重度依赖者 特朗普有多么喜欢发特呢?...我们对2019年以来特朗普每天发时间进行了统计: 可以清楚地看到,特朗普是一个喜欢早起boy,每天早上6点就起床发,7点9点这段早餐时间是发高峰期。...(即“假新闻”,出现在612条文中)。 这些被特朗普在文中提到媒体,哪些媒体被怼得最多呢?...除了Fox News(福克斯新闻频道)是站自己媒体之外,NBC(全国广播公司)是被特朗普在文中怼得最多媒体,高达1003条,也就是每发100条,就有超过两条是关于NCB。...然而在这背后也可以看到,他看起来在特口无遮拦、无所怼,实际上却粗中有细,套路满满。 引用: [1] David Robinson. (2016, Aug 09).

44810
领券