天行自息

希望多多指导，qq 86497564 。

连接预排序和预分区过的数据

Map-side joins 是最有效的技术，前面的两种 map-side 策略都要求其中有一个数据集可被加载到内存。但是，如果两个数据集都很大且无法”瘦身”而无法做到这一点时，该怎么办?在这种情况下，如果满足以下条件，则可以使用复合的 map-side join:

下图显示了一个排序的和分区的文件的例子，这些文件可以用于复合连接。

应用场景:
想要在排序的、分区的数据上执行一个 map-side join。解决方案:
使用 MapReduce 自带的 CompositeInputFormat。CompositeInputFormat 功能相当强大，并且支持内连接和外连接。

2018-10-30 1

#hadoop #java

热度 ( 1 )