Skip to content

qiuwenxiang/bigdata_assembly

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

41 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

大数据开发中常用组件封装

  • zookeeper
  • duddo
    • 服务提供方Provider ,消费方Consumer,在Registry上注册服务,当本地方法一样调用,
  • es
    • 倒排索引 (反向索引)
      • 正向索引,从id找内容,此id下,某关键词出现X次等等
      • 反向索引,从内容找id, 分词后 key为关键词,value为所出现的文档
    • java-es
      • 判断index,type,document是否存在,根据id查询,根据id插入或更新,分页查询scroll
    • spark-es
    • spring-es
      • 配置-注入-使用
    • hive-es
      • udf建立外部表
  • mysql
  • redis
    • spring-redis
    • java-redis
  • kafka
    • 依赖PageCache 避免在服务端jvm内部缓存数据,
    • Sendfile 直接在内核中完成交换,不通过用户的buffer区,顺序读写达到很大吞吐
    • Partition 消息分区,均衡
    • Replication:冗余备份 为1为本身
    • Producer ack机制
      • java-kafka
      • spark-kafka
      • strom-kafka
  • netty
    • 异步io模型, 阻塞IO→非租塞seletor模型→线程复用→异步io
  • spark
    • spark-sql
    • spark-streaming
      • 基于kafka direct方式,保存offset进zk,获取leader,更新,实现 恰好一次
  • flume
    • flume-ng
      • 自定义sink
      • 自定义source
      • 自定义filter
  • hadoop
    • hdfs
    • hive
    • hbase
      • 基于rowkey的精确查询,以及小段扫描查询,即由LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) + Cache决定
  • sqoop
    • hive 与 mysql、postgresql 导数
    • 常被运用于拼接指令,提交shell执行
  • strom
    • blot sport nibus 实时
    • kafkaspout.nextTuple
    • 异或运算
      • 与(&) 0 & 0 = 0 1 & 0 = 0 0 & 1 = 0 1 & 1 = 1
      • 或(|) 0 | 0 = 0 1 | 0 = 1 0 | 1 = 1 1 | 1 = 1
      • 异或(^) 0 ^ 0 = 0 1 ^ 0 = 1 0 ^ 1 = 1 1 ^ 1 = 0
        • 异或自己=把自己置0

About

大数据开发常用组件的封装

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published