首页
学习
活动
专区
工具
TVP
发布

华章科技

专栏作者
2207
文章
2248385
阅读量
126
订阅数
终于有人把搜索引擎讲明白了
全世界每年产生1EB到2EB (1EB≈1018B)信息,相当于地球上每个人每年大概产生250MB信息。其中,纸质信息仅占所有信息的0.03%。静态网页有上百亿,动态及隐藏网页至少是静态网页的500倍。Tom Landauer认为人的大脑只能存储约200MB信息,一生只能接触约6GB信息。
IT阅读排行榜
2021-03-29
1.8K0
长期豪赌人工智能,Alphabet是怎样一步一步偷偷改变世界的?
导读:搜索引擎、Android、DeepMind……Alphabet希望通过理解数据与现实世界事件之间的关系来改变整个世界。他们正通过自动驾驶汽车、生物技术、家庭自动化和互联互通技术,挑战人工智能的极限。
IT阅读排行榜
2020-08-11
5180
原始数据哪里找?这些网站要用好!200个国内外数据网站大全
导读:资料搜集是个相当繁琐与累的工作,也是数据分析入门的基本,良好的信息资料搜集能力有利于我们快速了解基本情况,为后续的调研及一手资料的获得打下较好的基础。
IT阅读排行榜
2020-03-05
6.4K0
移动互联网时代,你的个人信息正通过这12种方式泄露
导读:法律保护我们的隐私,但是智能手机会记录来电和短信的日志信息,并且包括检测位置、移动、方向、亮度和附近其他手机的设备。为了更好地为我们服务,许多这些设备都会收集有关我们最细小的偏好和日常生活习惯的信息。
IT阅读排行榜
2020-02-20
9700
手把手教你用Python搭建一个AI智能问答系统
导读:智能问答系统是自然语言处理的一个重要分支。今天我们将利用分词处理以及搜索引擎搭建一个智能问答系统。 本文经授权转自公众号CSDN(ID:CSDNnews)
IT阅读排行榜
2019-11-15
4K0
90后技术宅研发Magi一夜爆红,新一代知识化结构搜索新时代来了?
导读:11 月 7 日,微信群里突然炸了,大家似乎都在讨论一个叫做 Magi 的搜索引擎,据说搜索结果和现在的搜索引擎很不一样,能够输出以结构化知识呈现的结果。
IT阅读排行榜
2019-11-13
2.1K0
「最有用」的特殊大数据:一文看懂文本信息系统的概念框架及功能
目前,我们正处在一个以大数据与人工智能技术为核心的新的工业革命时代,其主要特征是大量各种可利用的数据可以视为一种特殊的生产资料,经过高效的智能数据分析与挖掘以及机器学习等人工智能技术处理后,这些数据可以产生巨大价值,创造智能。
IT阅读排行榜
2019-07-17
7990
什么是网络爬虫?有什么用?怎么爬?终于有人讲明白了
导读:网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。
IT阅读排行榜
2019-04-25
2.5K0
入门中文NLP必备干货:5分钟看懂“结巴”分词(Jieba)
导读:近年来,随着NLP技术的日益成熟,开源实现的分词工具越来越多,如Ansj、盘古分词等。在本文中,我们选取了Jieba进行介绍和案例展示,主要基于以下考虑:
IT阅读排行榜
2019-04-09
6.2K0
细思极恐!大数据和机器学习揭示十二星座的真实面目
原文链接:http://bbs.pinggu.org/thread-5905227-1-1.html
IT阅读排行榜
2018-08-16
3910
一图全解10个影响人类社会的算法
总之,随着我们在越来越多的事情上依赖算法,假如没有算法,社会就不能工作。因此,了解算法是什么,算法能做什么变得十分重要。
IT阅读排行榜
2018-08-16
7650
约会大数据:亚洲男人约个会怎么就这么难
据网易数读报道,作为世界移民大熔炉的美国是最适合研究这个问题的国家。通过在线约会网站OkCupid的数据,可以看到不论在2009年还是2014年,亚裔女性的受欢迎度都很高,而且是唯一一个所有种族的男性都认为魅力值高于平均水平的族裔。相比之下,黑人女性则完全低于平均值,甚至在黑人男性的眼中也是如此。
IT阅读排行榜
2018-08-16
9830
干货 | 那些你不知道的爬虫反爬虫套路
崔广宇,携程酒店研发部开发经理,与去哪儿艺龙的反爬虫同事是好基友。携程技术中心“非著名”段子手。
IT阅读排行榜
2018-08-16
9731
干货:如何构建用户画像
用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如:
IT阅读排行榜
2018-08-16
1.8K0
关于.NET玩爬虫这些事
从搜索引擎开始,爬虫应该就出现了,爬的对象当然也就是网页URL,在很长一段时间内,爬虫所做的事情就是分析URL、下载WebServer返回的HTML、分析HTML内容、构建HTTP请求的模拟、在爬虫过程中存储有用的信息等等,而伴随着App的发展以及CS系统通讯方式的HTTP化,对服务接口特别是HTTP RESTFul接口的爬虫也开始流行。
IT阅读排行榜
2018-08-16
8730
端午出行大数据:去这几个地方,你就只能看人人人……
赶在端午节假期到来之前,马蜂窝(联合搜狗)、驴妈妈、途牛、同程等国内的几大旅游网站都发布了基于各自平台大数据的端午节出行报告,数据叔整理了一下这些报告中的重点内容,希望能对你的出行提供一些参考。当然,数据叔目测很多小伙伴早已规划好自己的行程,订好了机票火车票,那么你就看看你的目的地是否上了热门榜单,提前做个心理准备吧……
IT阅读排行榜
2018-08-16
3030
都想逃离北上广,那么谁能告诉我去哪儿玩?
作者:尧异,前36氪关注旅游行业的作者、分析师,现是苦逼创业狗一条,Travel-X联合创始人,y@travel-x.cn。
IT阅读排行榜
2018-08-15
7450
干货 ▏如何构建用户画像
用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如:
IT阅读排行榜
2018-08-14
1K0
给网站数据分析师的五个建议
通常网站管理者都想通过网站分析来得到一定的效果,但不知道怎么做才好。实际上能否灵活的使用网站分析很大程度上取决于你如何利用网站分析。这里给大家介绍一下网站分析师应该注意的五点内容。
IT阅读排行榜
2018-08-14
6130
数据产品的前世今生
我看到过很多讨论数据产品的文章,但大家基本没有统一的认识,对概念的理解也不太认同,所以这里想简单写写自己的观点,主要内容也是不会在其它网文看到的一家之谈。
IT阅读排行榜
2018-08-14
9390
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档