twitter · Yaliang · Dec 22, 2017 · dvryaboy · Dec 29, 2017
diff --git a/hive/pom.xml b/hive/pom.xml
@@ -29,6 +29,10 @@
       <groupId>com.twitter.elephantbird</groupId>
       <artifactId>elephant-bird-core</artifactId>
     </dependency>
+    <dependency>
+      <groupId>com.hadoop.gplcompression</groupId>
+      <artifactId>hadoop-lzo</artifactId>
+    </dependency>
     <dependency>
       <groupId>org.apache.hadoop</groupId>
       <artifactId>hadoop-client</artifactId>

diff --git a/hive/src/main/java/com/twitter/elephantbird/mapred/input/HiveMultiInputFormat.java b/hive/src/main/java/com/twitter/elephantbird/mapred/input/HiveMultiInputFormat.java
@@ -3,6 +3,9 @@
 import com.twitter.elephantbird.mapreduce.input.MultiInputFormat;
 import com.twitter.elephantbird.mapreduce.io.BinaryWritable;
 import com.twitter.elephantbird.util.TypeRef;
+
+import org.apache.hadoop.fs.FileSystem;
+import org.apache.hadoop.fs.Path;
 import org.apache.hadoop.hive.conf.HiveConf;
 import org.apache.hadoop.hive.ql.exec.Utilities;
 import org.apache.hadoop.hive.ql.plan.PartitionDesc;
@@ -23,6 +26,9 @@
 import java.util.Map;
 import java.util.Properties;
 
+import static com.hadoop.compression.lzo.LzoIndex.LZO_INDEX_SUFFIX;
+import static com.hadoop.compression.lzo.LzoInputFormatCommon.isLzoFile;
+
 /**
  * Hive-specific wrapper around {@link MultiInputFormat}. This is necessary to set the
  * {@link TypeRef} because Hive does not support InputFormat constructor arguments.
@@ -88,4 +94,18 @@ public RecordReader<LongWritable, BinaryWritable> getRecordReader(InputSplit spl
     initialize((FileSplit) split, job);
     return super.getRecordReader(split, job, reporter);
   }
+
+  @Override
+  public boolean isSplitable(FileSystem fs, Path filename) {
+    if (isLzoFile(filename.toString())) {
+      Path indexFile = filename.suffix(LZO_INDEX_SUFFIX);
+      try {
+        return fs.exists(indexFile);
+      }
+      catch (IOException e) {
+        return false;
+      }
+    }
+    return super.isSplitable(fs, filename);
+  }
 }