`
文章列表

nutch1.3 command

抓取  bin/nutch  crawl urls -dir <dir> -depth <int> -topN <int> -threads <int> >& <dir>/<file> .log  steps in  1.读取urls目录下的站点添加到 crawldb里  bin/nutch  inject <dir>/crawldb urls  2.创建一个segments,存放到 目录下  bin/nutch  generate <dir>/crawldb ...
package org.apache.nutch; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.DataOutputBuffer; import org.apache.hadoop.io.Seque ...

hadoop IO(一)

1.数据完整性: 在数据第一次引入时系统计算校验和(checksum),在数据通过一段不可靠的 通道进行传输时再次计算校验和,如果所得 的 校验和 和原来的校验和一致则代表数据完整 2.HDFS数据完整性 hdfs 对写入 的数据计算校验 ...

HDFS学习(二)

HDFS 数据流: 1.文件读取: 客户端通过调用FileSystem 对象的open()方法来打开希望读取的文件,对于hdfs来说,这个对象是分布式文件系统的一个实例。 DistributedFileSystem 通过rpc来调用namenode,以确定文件起始块的位置,对于每一个块,namenode返回存有该块副本的 datanode地址。datanode根据他们与客户端的距离来排序。 DistributedFileSystem 类返回一个FSDataInputStream 对象给客户端并读取数据,FSDataInputStream 类转而封装 DFSIn ...
zookeeper 3.3.2 安装 1.下载zookeeper-3.3.2.tar.gz 安装包 2.tar -zvxf zookeeper-3.3.2.tar.gz 到指定目录 3.修改conf/zoo_sample.cfg 配置文件   将zoo_sample.cfg 的名字改为 zoo.cfg   mv zoo_sample.cfg    zoo.cfg   4.配置zoo.cfg   如图:       dataLogD ...
  nc是一个强大的网络工具,可以诊断,发现在linux下面使用网络时的一些问题,被誉为网络安全界的‘瑞士军刀’,透过使用TCP或UDP协议的网络连接去读写数据。它被设计成一个稳定的后门工具,能够直接由其它程序和脚本轻松驱动。同时,它也是一个功能强大的网络调试和探测工具,能够建立需要的几乎所有类型的网络连接接语       法:nc [-hlnruz][-g<网关...>] [-G<指向器数目>][-i<延迟秒数>][-o<输出文件>][-p<通信端口>][-s< 来源位址>][-v...][-w&l ...
HDFS概念: 1.数据块:每个磁盘都有默认的数据块的大小,这是磁盘进行读写的最小单位。构建与单个磁盘上的文件系统通过磁盘块来管理该文 件系统中的块,该文件系统块的大小可以是磁盘块的整数倍 HDFS也有块 ...
  solr3.3 中文IK分词(IKAnalyzer3.2.8 bin.zip)(亲测)   1.IK下载地址   http://code.google.com/p/ik-analyzer/downloads/detail?    name=IKAnalyzer3.2.8%20bin.zip&can=2&q=a   2.解压到本地目录      suse@server0:/server/bin> unzip  IKAnalyzer3.2.8 bin.zip   3.将jar包放入solr工程下      suse@server0:/server ...

hbase

hbase 理解 1.简介: HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 2.HBase和RDBMS的关系 RDBMS(Relation DabaBase Management System-关系数 ...
nutch1.3 +hadoop 分布式部署(亲测) 1.确保hadoop正常启动 2.下载nutch1.3 安装包 解压到指定路径 3.抓取    nutch1.3 有两个conf 一个在NUTCH_HOME/conf ,另一个在rumtime/local/conf       runtime/local/conf 为 local(本地抓取的配置文件所用)    NUTCH_HOME/conf 为分布式抓取所用    下面我们着重讲解 分布式抓取 4.分布式抓取:   rutime/deply/bin/nutch下执行分布式抓取命令(分布式抓取一定是在这个下面,local为本地抓取所用 ...
linux suse 11.4 ip 设置 在suse操作系统中每个网卡都有一个配置文件,在/etc/sysconfig/network/目录下。用root登录,编辑ifcfg-eth0-你的网卡的物理地址的那个文件: 把BOOTPROTO的赋值改成成static,也就是BOOTPROTO=static 然后增加如下内容: IPADDR=192.168.1.110 NETMASK=255.255.255.0 NETWORK=192.168.1.0 BROADCAST=192.168.1.255 配置完后 要让它生效,就输入/etc/init.d/network restart就可 ...
linux suse 需求:将 /home下的 容量调整一部分 给 根分区 / 1.通过root用户进入系统,进入yast 将/home分区的 大小调小 2.此时会出来一块未被分区的空间,此时将这块未备分区的空间作为独立分区创建 3.将该新创建的独立分区 作为一个挂载点 挂在 / 根分区的一个文件夹下 例如 /server    将新的分区 挂在到 /server下 此时也就是 这个/server 的容量为 新分区的容量
1.将本地文件拷贝到 hdfs 文件系统中 bin/hadoop fs -copyFromLocal /server/bin/nutch/urls/url.txt   urls 2.将hdfs中的文件拷贝到本地路径 bin/hadoop fs -copyToLocal  urls(hdfs文件)  /opt/index (本地路径) 2.查看hdfs文件系统内文件列表 bin/hadoop dfs -ls 3.删除hdfs文件系统中的文件 bin/hadoop dfs -rmr urls 4.进入hdfs 目录 bin/hadoop fs -ls /user/ad ...
1.question   2011-08-15 13:07:42,558 INFO org.apache.hadoop.ipc.Client: Retrying      connect to server: server0/192.168.2.10:9000. Already tried 5 time(s).   2011-08-15 13:07:42,558 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: server0/192.168.2.10:9000. Already tried 5 time(s). ...
hadoop部署: 登录用户:suse HOSTNAME:server0 4台机器: 192.168.2.10  server0(namenode) 192.168.2.11  server1(datanode) 192.168.2.12  server2(datanode) 192.168.2.13  server3(datanode) 1.首先强调的是 确保各个机器节点之间(任意两台机器之间可以ping IP/主机名 可以ping通)   ping  IP   ping  主机名   2.修改server0的 /etc/hosts 配置文件   vi /etc/hosts  在 lo ...
Global site tag (gtag.js) - Google Analytics