第1086章_简单写作1000章节_julie7_博看读书(www.bokandushu.com)

“当然是大毛。”马什科夫非常肯定地说道：“目前，大毛正在研制醉仙剑的S-300pmU3防控系统就具备不错的反导能力，不过，我更看好安泰设计局的S-300V，这种防空导弹在经过给劲之后，也具有拦截导弹的能力，而且还能拦截射”

看图说话，初升的阳光，更像是落日的一幕。

不过这些都不是重点，喀尔木斯特丹决定今天再次勇敢地踏出步伐。

hive是一个基于hadoop的数据仓库工具，允许用户使用类似SqL的查询语言（hiveqL）来处理和分析大规模的数据。hive支持多种执行引擎，包括mapReduce（mR）、tez和Spark。这些执行引擎之间有以下几个区别：

mapReduce (mR)：mapReduce是hadoop最早的执行引擎，它将作业划分为多个map和reduce阶段，并在磁盘上进行中间结果的存储。mR执行引擎适用于批处理，对于复杂的查询可能需要较长的执行时间。

tez：tez是一个更加高级且优化的执行引擎，它通过将多个mapReduce任务连接成一个有向无环图（dAG）来提高查询性能。相比于mR，tez可以更好地处理复杂查询，减少了磁盘I\/o，提高了执行效率。

Spark：Spark是一个快速、通用且可扩展的集群计算系统，也可以作为hive的执行引擎。与mR和tez不同，Spark使用内存计算来加速查询处理，大大提高了性能。它还提供了广泛的ApI和丰富的功能，如流处理、机器学习等。

总结来说，mR是hive最原始的执行引擎，适合批处理；tez是一个优化的执行引擎，能够提高查询性能；而Spark则更为快速和灵活，适用于复杂的查询和广泛的数据处理任务。选择合适的执行引擎取决于你的数据处理需求和性能要求。

选择hive的执行引擎可以根据以下几个因素来考虑：

查询性能：如果你对查询性能有较高的要求，特别是对于复杂查询或大规模数据集的处理，那么tez和Spark是更好的选择。它们使用了优化的执行策略和内存计算，可以大幅提高查询速度。

数据量和数据类型：如果你处理的数据量比较小或者数据类型比较简单，mapReduce引擎已经足够满足需求。mapReduce在大规模数据上表现良好，但是对于复杂的查询可能需要更长的执行时间。

集群环境：如果你的hadoop集群已经配置了tez或Spark，那么直接使用这些引擎可能更加方便。同时，你还需要考虑集群的资源管理器（如YARN）是否支持相应的黄色引擎。

功能和生态系统：除了查询性能外，你还可以考虑引擎的功能和生态系统。Spark具有广泛的ApI和丰富的功能，适用于更多的数据处理任务，例如流处理、机器学习等。如果你需要更多的灵活性和扩展性，Spark可能是更好的选择。

综上所述，选择hive的执行引擎应该综合考虑查询性能、数据量和类型、集群环境以及功能需求。在实际应用中，你也可以根据具体的场景进行测试和比较，找到最适合你业务需求的执行引擎。

?　?发布发布101

?　(本章完)