nutch1.3 command

博客分类：

nutch

抓取 bin/nutch crawl urls -dir <dir> -depth <int> -topN <int> -threads <int> >& <dir>/<file> .log steps in 1.读取urls目录下的站点添加到 crawldb里 bin/nutch inject <dir>/crawldb urls 2.创建一个segments,存放到目录下 bin/nutch generate <dir>/crawldb ...

2011-09-02 17:15
浏览 1277
评论(0)
分类:开源软件

Nutch: 读取 nutch抓取内容

博客分类：

nutch

nutch

package org.apache.nutch; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.DataOutputBuffer; import org.apache.hadoop.io.Seque ...

2011-09-02 13:50
浏览 1316
评论(0)
分类:开源软件

hadoop IO(一)

博客分类：

hadoop

Hadoop

1.数据完整性：在数据第一次引入时系统计算校验和(checksum),在数据通过一段不可靠的通道进行传输时再次计算校验和，如果所得的校验和和原来的校验和一致则代表数据完整 2.HDFS数据完整性 hdfs 对写入的数据计算校验 ...

2011-08-31 22:52
浏览 1435
评论(0)
分类:开源软件

HDFS学习(二)

博客分类：

hadoop

hadoop

HDFS 数据流: 1.文件读取：客户端通过调用FileSystem 对象的open()方法来打开希望读取的文件，对于hdfs来说，这个对象是分布式文件系统的一个实例。 DistributedFileSystem 通过rpc来调用namenode，以确定文件起始块的位置，对于每一个块，namenode返回存有该块副本的 datanode地址。datanode根据他们与客户端的距离来排序。 DistributedFileSystem 类返回一个FSDataInputStream 对象给客户端并读取数据，FSDataInputStream 类转而封装 DFSIn ...

2011-08-30 21:26
浏览 1292
评论(0)
分类:开源软件

zookeeper 3.3.2 安装

博客分类：

zookeeper

zookeeper

zookeeper 3.3.2 安装 1.下载zookeeper-3.3.2.tar.gz 安装包 2.tar -zvxf zookeeper-3.3.2.tar.gz 到指定目录 3.修改conf/zoo_sample.cfg 配置文件将zoo_sample.cfg 的名字改为 zoo.cfg mv zoo_sample.cfg zoo.cfg 4.配置zoo.cfg 如图： dataLogD ...

2011-08-30 17:08
浏览 2253
评论(0)
分类:开源软件

linux nc命令<netcat>

博客分类：

linux

linux

nc是一个强大的网络工具，可以诊断,发现在linux下面使用网络时的一些问题，被誉为网络安全界的‘瑞士军刀’，透过使用TCP或UDP协议的网络连接去读写数据。它被设计成一个稳定的后门工具，能够直接由其它程序和脚本轻松驱动。同时，它也是一个功能强大的网络调试和探测工具，能够建立需要的几乎所有类型的网络连接接语法：nc [-hlnruz][-g<网关...>] [-G<指向器数目>][-i<延迟秒数>][-o<输出文件>][-p<通信端口>][-s< 来源位址>][-v...][-w&l ...

2011-08-30 16:34
浏览 1562
评论(0)
分类:开源软件

hdfs 学习（一）

博客分类：

hadoop

Hadoop

HDFS概念： 1.数据块：每个磁盘都有默认的数据块的大小,这是磁盘进行读写的最小单位。构建与单个磁盘上的文件系统通过磁盘块来管理该文件系统中的块，该文件系统块的大小可以是磁盘块的整数倍 HDFS也有块� ...

2011-08-29 23:41
浏览 1811
评论(3)
分类:开源软件

solr3.3 中文IK分词 (IKAnalyzer3.2.8 bin.zip) --亲测

博客分类：

solr

solr IK分词

solr3.3 中文IK分词(IKAnalyzer3.2.8 bin.zip)(亲测) 1.IK下载地址 http://code.google.com/p/ik-analyzer/downloads/detail? name=IKAnalyzer3.2.8%20bin.zip&can=2&q=a 2.解压到本地目录 suse@server0:/server/bin> unzip IKAnalyzer3.2.8 bin.zip 3.将jar包放入solr工程下 suse@server0:/server ...

2011-08-26 09:12
浏览 2158
评论(0)
分类:企业架构

hbase

博客分类：

hbase
hadoop

hbase 理解 1.简介： HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 2.HBase和RDBMS的关系 RDBMS(Relation DabaBase Management System-关系数� ...

2011-08-23 23:05
浏览 2556
评论(0)
分类:企业架构

nutch1.3 +hadoop 分布式部署(亲测)

博客分类：

nutch
hadoop

hadoop solr nutch

nutch1.3 +hadoop 分布式部署(亲测) 1.确保hadoop正常启动 2.下载nutch1.3 安装包解压到指定路径 3.抓取 nutch1.3 有两个conf 一个在NUTCH_HOME/conf ,另一个在rumtime/local/conf runtime/local/conf 为 local(本地抓取的配置文件所用) NUTCH_HOME/conf 为分布式抓取所用下面我们着重讲解分布式抓取 4.分布式抓取： rutime/deply/bin/nutch下执行分布式抓取命令(分布式抓取一定是在这个下面，local为本地抓取所用 ...

2011-08-22 16:46
浏览 4650
评论(8)
分类:企业架构

linux suse 设置 IP

博客分类：

linux

suse linux ip eth0 network

linux suse 11.4 ip 设置在suse操作系统中每个网卡都有一个配置文件，在/etc/sysconfig/network/目录下。用root登录,编辑ifcfg-eth0-你的网卡的物理地址的那个文件：把BOOTPROTO的赋值改成成static，也就是BOOTPROTO=static 然后增加如下内容： IPADDR=192.168.1.110 NETMASK=255.255.255.0 NETWORK=192.168.1.0 BROADCAST=192.168.1.255 配置完后要让它生效，就输入/etc/init.d/network restart就可 ...

2011-08-18 16:11
浏览 1419
评论(0)
分类:操作系统

linux suse 调整分区

博客分类：

linux

linux suse yast

linux suse 需求：将 /home下的容量调整一部分给根分区 / 1.通过root用户进入系统,进入yast 将/home分区的大小调小 2.此时会出来一块未被分区的空间，此时将这块未备分区的空间作为独立分区创建 3.将该新创建的独立分区作为一个挂载点挂在 / 根分区的一个文件夹下例如 /server 将新的分区挂在到 /server下此时也就是这个/server 的容量为新分区的容量

2011-08-18 16:07
浏览 3090
评论(0)
分类:操作系统

hadoop 基本文件操作命令

博客分类：

hadoop

hadoop hdfs copyfromlocal

1.将本地文件拷贝到 hdfs 文件系统中 bin/hadoop fs -copyFromLocal /server/bin/nutch/urls/url.txt urls 2.将hdfs中的文件拷贝到本地路径 bin/hadoop fs -copyToLocal urls(hdfs文件) /opt/index (本地路径) 2.查看hdfs文件系统内文件列表 bin/hadoop dfs -ls 3.删除hdfs文件系统中的文件 bin/hadoop dfs -rmr urls 4.进入hdfs 目录 bin/hadoop fs -ls /user/ad ...

2011-08-18 16:01
浏览 2165
评论(1)
分类:企业架构

hadoop 可能遇到的错误

博客分类：

hadoop

hadoop

1.question 2011-08-15 13:07:42,558 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: server0/192.168.2.10:9000. Already tried 5 time(s). 2011-08-15 13:07:42,558 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: server0/192.168.2.10:9000. Already tried 5 time(s). ...

2011-08-18 15:50
浏览 5830
评论(0)
分类:企业架构

hadoop集群配置

博客分类：

hadoop

hadoop mapreduce namenode suse

hadoop部署：登录用户：suse HOSTNAME:server0 4台机器： 192.168.2.10 server0(namenode) 192.168.2.11 server1(datanode) 192.168.2.12 server2(datanode) 192.168.2.13 server3(datanode) 1.首先强调的是确保各个机器节点之间(任意两台机器之间可以ping IP/主机名可以ping通) ping IP ping 主机名 2.修改server0的 /etc/hosts 配置文件 vi /etc/hosts 在 lo ...

2011-08-18 15:19
浏览 2348
评论(0)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch1.3 command

Nutch: 读取 nutch抓取内容

hadoop IO(一)

HDFS学习(二)

zookeeper 3.3.2 安装

linux nc命令<netcat>

hdfs 学习（一）

solr3.3 中文IK分词 (IKAnalyzer3.2.8 bin.zip) --亲测

hbase

nutch1.3 +hadoop 分布式部署(亲测)

linux suse 设置 IP

linux suse 调整分区

hadoop 基本文件操作命令

hadoop 可能遇到的错误

hadoop集群配置

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>