文章/答案/技术大牛

发布

SSCI：FireAnt的社交媒体数据应用（上）

文章来源：企鹅号 - 传媒1号

来源：IEEE Transactions on Professional Communication

本文共3950字，阅读需约8分钟

1号按

FireAnt是一个为新手和专业计算机用户设计的免费、独立、多平台的社交媒体数据分析工具。它可以用于收集和分析数据，并将社交媒体数据可视化为时间序列图、地理位置图和网络图。它还可以使用传统的语料库工具、统计软件包和自定义脚本导出结果以进行进一步处理。本文将展示如何使用FireAnt收集与特定公司相关的社交媒体数据，分析数据，并对数据进行可视化处理。

Facebook、Instagram、Twitter和Reddit等社交媒体的数据近年来受到学术界和主流媒体的日益关注。在学术界，计算语言学家（如Agaval等）和其他人试图研究在Twitter平台上发布的推文中的积极、消极和中立的情绪，并开发自然语言处理系统，实现自动分类。语言学家、社会科学家和通信专家也在分析社交媒体话语。

例如，Y.Huang等人使用来自Twitter的带有78亿条地理位置标记的推文语料库来识别美国的地区语言差异。奥克曼（Hochman）和施瓦茨（Schwartz）使用Instagram数据反映社会文化特征和趋势的变化。博特里（Bortree）和塞尔策（Seltzer）分析了Facebook上环保倡导组织的简介，以了解这是否有助于该组织与访客之间的互动。这些研究的结果为社交媒体如何传播及其传播如何影响用户、机构以及整个社会提供了有价值的见解。

在主流媒体中，我们发现电视和其他新闻网络正越来越多地报道和利用社交媒体平台上发布的信息。这一趋势极大地增加了社交媒体传播的重要性、扩大了社交媒体的传播范围和影响力。社交媒体传播也对政治话语产生了深刻的影响。例如，人们普遍认为，唐纳德·特朗普（Donald·Trump）成功竞选美国总统至少部分有他自己利用Twitter平台发表政治主张的影响。

对收集社交媒体数据感兴趣的研究人员可以购买商业社交媒体数据收集许可证，例如DataSift和Gnip提供的许可证。这些服务商将提供有价值的数据，包括访问历史数据以及使用“fire-hose”实时收集来自某个源的所有可用数据。然而，所涉及的成本可能很高，并且难以计算，因为成本取决于所涉及的搜索的性质和搜索量。因此，商业社交媒体数据收集服务更多为在大公司和资金充足的大型学术机构中工作的人群所使用。

另一种方法是研究人员使用Python或R语言等编程语言开发他们自己的数据收集工具。然而，许多技术和专业通信研究人员可能缺乏必要的编程知识。聘请计算机程序员开发自定义工具也是一种选择。但麻烦的是，资金用完之后很难维护工具，特别是当工具开发还没有完全文档化的时候。

研究人员在分析和可视化社交媒体数据时也面临着类似的问题。这些数据文件通常非常大，在传统的文字处理器、电子表格工具或文本编辑器中都不能打开，因此需要专门的数据处理软件。很多商业智能（BI）应用程序都能完成这项任务，Tableau和Power BI是最常用的两个。研究人员也可以选择出资创建自定义数据分析和可视化工具，或者自己编程。然而，这些选择同样倾向于在大公司和资金雄厚的大学工作的人群。在实践中，许多专业技术传播研究者在利用社交媒体数据时都面临着巨大的障碍。

为了解决有关社交媒体数据收集、分析和可视化的许多问题，我与英国兰卡斯特大学的克莱尔·哈达克（Claire Hardaker）合作开发了FireAnt，这是ESRC资助的关于Twitter强奸威胁和网络厌女症话语项目的一部分。在本文中，我将首先解释FireAnt的主要特征和功能。然后我将展示如何使用该工具来收集与特定用户、公司或机构相关的社交媒体数据；分析这些数据以识别跨越时间、空间和用户组的语言模式；并使用传统语料库方法将这些语言模式可视化。

FireAnt的主要特征

FireAnt是一个可以在所有主要的操作系统（Window，Macintosh和Linux）上运行的免费、独立的程序，可在http://www.laurenceanthony.net/software/fireant/下载。FireAnt不需要在用户的计算机上安装，其可执行文件可以简单地存储在计算机或便携式设备（例如USB驱动器）上的适当位置并直接启动，所以FireAnt即使在安装了安全杀毒软件的系统上也能运行。

FireAnt能够导入逗号分隔值（CSV）、选项卡分隔值（TSV）、Excel XLSX、JSON和BSON格式的数据以及存储在SQLite数据库中的数据。它还可以直接从Twitter平台收集JSON格式的数据，然后可以将这些数据导入以进行进一步的处理和分析。

用户可以查看、筛选和分析加载到FireAnt中的数据，然后导出为原始数据。根据所加载的数据类型，软件还可以以时间序列图、地理位置图或网络图的形式进行数据可视化。下表是FireAnt的主要特征。

▲图片来源：Laurence Anthony

社交媒体数据收集功能

认证：Twitter的数据可以直接在FireAnt界面收集和保存以便使用。点击“Collect Twitter Data”文件菜单选项即可。

首先，用户需要授权数据收集应用工具收集他们个人账号的Twitter数据，需要以下步骤：

1、单击“Authorize”按钮，在Twitter的内嵌网页插件中加载授权网页。

2、登陆Twitter，等待回到PIN码授权页面。

3、将PIN码复制粘贴到授权窗口下的输入框中。

4、点击“生成密钥文件”按钮，完成授权设置。

用户完成授权后，程序会在FireAnt创建的位置自动创建一个密钥文件，存储各种授权细节信息。FireAnt启动时会读取这一文件，所以用户只需要通过一次授权过程。值得注意的是，FireAnt无法读取用户的ID和密码，所以信息是完全安全的。FireAnt利用的只是授权过程自动生成的密钥文件。

抽样或筛选数据：FireAnt可以使用数据收集应用工具，对推文数据随机抽样或基于不同的搜索条件（如话题标签、账号或用户名、用户位置）采集整体数据。用户可以在用户界面为数据收集过程设置准确的开始和结束时间。在使用这一工具收集数据前，用户需要先选择一个目标文件夹保存数据，然后单击“Sample/Filtered Search”选项。下一步，用户可以激活或禁用各种参数选项，输入搜索条件，然后单击“Start”开始数据收集过程（见下图）。然而Twitter API限制会阻碍FireAnt抽样或筛选历史数据。

▲图片来源：Laurence Anthony

用户发帖历史：FireAnt还可以收集个人账号持有者过去发布的推文数据。要使用这个功能，在选择存储数据的目标文件夹之后，选择“User tweet history”选项。然后，用户可以激活或禁用参数选项，输入帐户ID或用户名，然后单击“Start”开始数据收集过程。数据收集过程的前几个结果将显示在右侧窗口中，用户能够立即了解将要收集的数据的类型和数量。同样需要注意的是，由于Twitter API限制，FireAnt只能收集3000条以下用户推文。

数据分析和可视化功能

数据导入：存储在CSV、TSV（TXT）、Excel XLSX文件中的表格数据以及存储为JSON和BSON文件的分层（树状）数据可以通过“Open Data File（s）”文件菜单选项直接加载到FireAnt数据分析工具中。在数据分层的情况下，FireAnt将提供一个选择窗口，可以选择将树中不同位置的数据类别在FireAnt主界面“扁平化”为二维图像。现有的单表SQLite数据库DB文件（例如从FireAnt导出数据时使用的文件）也可以通过“导入数据库”文件菜单选项直接加载到工具中。

数据查看：一旦将数据集（或单表数据库）加载到FireAnt中，数据集的列就会显示在程序的右上窗口中。为了处理庞大的数据库，FireAnt会将数据集的行表示为一组页面。每个页面的行数可以由用户设置，并且用户可以通过导航按钮查看数据的第一页、上一页和下一页。任何列数据都可以通过点击列标题来排序。

▲图片来源：Laurence Anthony

数据筛选：可以使用出现在工具左侧窗口中的一组上下文敏感筛选器来定位用户感兴趣的数据集的行。目前可用的有默认筛选器、日期筛选器、计数筛选器和群组筛选器。所选筛选器的筛选结果将立即显示在FireAnt界面中，用户可以大概了解数据特性（如单词和短语出现频率、发布日期和用户位置等）。

筛选器可以并行链接或分层排列，以便外层筛选器的结果可以反馈给子筛选器，从而将结果缩小到用户所需的结果。通过单击筛选窗口中的“Apply”按钮，可以在FireAnt的右下角窗口中直接查看筛选后的数据集。同样，为了处理庞大的数据库，FireAnt将筛选后的数据集呈现为一组页面，这些页面与主数据集表查看和导航的方式相同。

数据分析和导出：已加载、未筛选的数据集可以作为SQLite（DB）数据库从FireAnt导出，以便以后使用“导出数据库”文件菜单选项进行存储和快速加载。与使用FireAnt支持的各种其他数据格式相比，此选项可以显著提高加载数据所需的时间。筛选后的数据可以查看、分析并以各种形式导出。一种选择是查看和分析原始筛选数据作为纯文本文件。对于在语料库语言学领域工作的人来说，这通常是最理想的形式，他们希望将纯文本数据导入专用的语料库分析工具包，如AntConc。要激活此选项，用户应该选择“导出原始筛选数据（Export Raw Filtered Data）”文件菜单选项，然后从筛选数据集中选择他们希望保存在单独的弹出式界面中的列。

如果筛选后的数据包括包含时间戳数据的列，则另一个选项是以时间序列图的形式查看、分析和导出数据。在分析社交媒体交互时，这些数据的可视化对于观察社交网络成员之间的活动模式十分有效，例如时间序列图中的尖峰可以显示少数人活动时间的峰值（见下图）。

▲图片来源：Laurence Anthony

类似地，如果筛选的数据包括包含地理位置数据的列，有一个选项是以地理位置地图的形式查看、分析和导出数据，这样每个社交媒体帖子都会显示为地图上的点。同样，这些可视化对于揭示本地社交网络成员之间的活动模式以及世界各地的活动模式也是有用的。这些地图还可以揭示语言使用的区域差异，并且当与时间序列图结合时，显示与空间和历时变化相关的效果。

FireAnt中提供的另一个数据分析和导出选项是将关系表示为网络图，其中节点表示特定的列值，连接节点的边（线）表示列之间的特定关系，边（线）的长度表示列这种特性的能力或价值。FireAnt提供了预览网络图的功能。为了进行更详细的分析，它还提供将DOT图形描述语言中的网络图形数据导出为.dv文件的功能，可以将其直接加载到Gephi等专用的网络图形可视化工具中。

1号结语

目前，大多数社交媒体分析都是使用Python和R等编程语言编写的自定义计算机脚本进行的。尽管这些脚本的功能非常强大，但是对于那些没有强大计算机编程背景或聘请软件工程师或数据科学家的资源的人来说十分困难。尽管存在某些局限性，但是FireAnt无疑是解决这一问题的最佳答案。本期推送介绍了FireAnt的特征和相关功能的使用方法，在下期的推送中，我们将介绍FireAnt实际应用的案例及其未来的发展前景。

译者

孙敏

上海外国语大学广播电视学专业在读学生

本文下篇将于下周同一时间上线，

欢迎学术er到时关注！

把传媒1号设星标

第一时间了解传媒1号的最新动态

按照如下步骤

把1号设置为星标

发表于: 2018-12-042018-12-04 21:10:28
原文链接：https://kuaibao.qq.com/s/20181204B1LTOE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

SSCI：FireAnt的社交媒体数据应用（上）

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐