说明:这种方式是为了快速体验或者数据量较小的情况,不适合数据量大的生产环境
环境准备:
相关下载地址:
链接: https://pan.baidu.com/s/1Tut2CcKoJ9-G-HBq8zexMQ 提取码: v75v
开始安装
<configuration> <property> <name>hbase.rootdir</name> <value>/data/hbase</value> </property> <property> <name>hbase.zookeeper.property.dataDir</name> <value>/data/zookeeper</value> </property> </configuration>
说明:hbase.rootdir目录是用来存放HBase的相关信息的,默认值是/tmp/hbase-${user.name}/hbase; hbase.zookeeper.property.dataDir目录是用来存放zookeeper(HBase内置了zookeeper)的相关信息的,默认值是/tmp/hbase-${user.name}/zookeeper 3. 启动
./bin/start-hbase.sh
wget https://mirrors.cnnic.cn/apache/lucene/solr/7.7.2/solr-7.7.2-src.tgz tar -zxvf solr-7.7.2-src.tgz ./bin/solr start -force //启动
添加完记得重启start 换位 restart
wget http://archive.apache.org/dist/nutch/2.2.1/apache-nutch-2.2.1-src.tar.gz tar zxf apache-nutch-2.2.1-src.tar.gz
conf/nutch-site.xml <property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> <description>Default class for storing data</description> </property> ivy/ivy.xml <!-- Uncomment this to use HBase as Gora backend. --> <dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" /> conf/gora.properties gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
ant runtime
这里特别慢,可以自己百度优化一下ivy速度,也可以就这样下载,遇到失败的,可以自己把包下载下来放到报错的路径
成功后:生成两个目录 runtime和build,下面的配置文件修改都是改的 runtime/local下面的文件
#在你想存储的目录 mkdir /data/urls vim seed.txt #添加要抓取的url http://www.dxy.cn/
#注释掉这一行 # skip URLs containing certain characters as probable queries, etc. #-[?*!@=] # accept anything else #注释掉这行 #+. +^http:\/\/heart\.dxy\.cn\/article\/[0-9]+$
<property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property>
7.通过solr或者 hbase查看结果