我正在寻找一种学习适应大型数据集的方法。我是一名大学生,所以我做的每一件事都是“不错”的规模和复杂性。本学期我和一位教授一起做了一个研究项目,我不得不可视化一个有点大(根据我的经验)的数据集之间的关系。这是一个15 MB的CSV文件。
我的大部分数据处理都是用Python语言编写的,使用GNUPlot进行可视化。
有没有任何关于这个主题的可访问的书籍或网站?使用Python的加分,比依赖gnuplot的更“基本”的可视化系统更多的加分。我想是开罗之类的地方吧。
从数据挖掘,到处理,再到可视化,我正在寻找一些东西。
编辑:我更多的是在寻找一些能教会我“大创意”的东西。我可以自己写代码,但是寻找人们用来处理大型数据集的技术。我的意思是,我的15MB足够小,我可以把我需要的所有东西都放到内存中,然后开始处理。人们如何可视化5 GB的数据集?
发布于 2011-05-06 02:04:42
我想说最基本的技能是,在数学和统计学方面有很好的基础。这可以帮助您从各种过滤数据的技术中进行评估和选择,并在保持其完整性的同时减少其体积和维度。你最不想做的事情就是做一些漂亮的东西,展示一些并不真实的模式或关系。
专业数学
要解决某些类型的问题,您需要学习一些数学知识,以了解特定的算法是如何工作的,以及它们将对您的数据产生什么影响。有各种算法用于聚类数据、降维、自然语言处理等。根据您希望分析的数据类型,您可能永远不会使用其中的许多算法,但如果您需要帮助,Internet (和Stack Exchange站点)上有丰富的资源。
对于数据挖掘技术的介绍性概述,Witten的Data Mining很好。我有第一版,它用简单的语言解释了一些概念,并加入了一些数学知识。我推荐它,因为它提供了一个很好的概述,而且它并不太贵--随着您深入该领域的阅读,您会注意到许多书都相当昂贵。唯一的缺点是有许多专门使用WEKA的页面,WEKA是一个Java数据挖掘包,由于您使用的是Python (但它是开放源码的,所以您可以从源代码中收集一些想法),因此WEKA可能没有太大的帮助。我还发现Introduction to Machine Learning提供了一个很好的概述,价格也很合理,而且有更多的数学知识。
工具
为了在一台机器上创建自己发明的可视化效果,我认为应该从以下基础开始: Python、Numpy、Scipy、Matplotlib,以及您有经验的优秀图形库,如PIL或Pycairo。有了这些,你就可以计算数字,将它们绘制在图形上,并通过自定义绘图例程来美化事物。
当您想要创建移动的、交互式的可视化效果时,像基于Java的Processing库这样的工具可以很容易地实现这一点。如果您不想编写in Python,甚至可以通过Jython编写处理草图。
如果您需要的话,还有更多的工具,比如OpenCV (computer vision, machine learning)、Orange (data mining, analysis, viz)和NLTK (natural language, text analysis)。
演示原则和技术
像Edward Tufte这样的领域专家的书籍和Information Graphics这样的参考资料可以帮助您很好地概述创建可视化并有效地呈现它们的方法。
查找Viz示例的资源
像Flowing Data,Infosthetics,Visual Complexity和Information is Beautiful这样的网站展示了网络上最新的有趣的可视化效果。你也可以在互联网上浏览visualization sites的many compiled lists。从这些作为种子开始,我相信你会找到很多有用的网站和鼓舞人心的例子。
(这本来是一个评论,但后来变得太长了)
发布于 2011-05-05 07:42:01
查看信息是美丽的。这不是一本技术书籍,但它可能会给你一些可视化数据的想法。
也许可以看看Principles of Data Mining的前三章,它讲述了在数据挖掘环境中可视化数据的一些概念,我发现其中的一些部分在大学期间很有用。
希望这能有所帮助
发布于 2011-05-05 09:08:14
如果您正在寻找可视化而不是数据挖掘和分析,Edward Tufte的The Visual Display of Quantitative被认为是该领域最好的书籍之一。
https://stackoverflow.com/questions/5890935
复制相似问题