什么是rdd,rdd有哪几种创造方式
RDD是Resilient Distributed Dataset的缩写,是Apache Spark中最基本的数据抽象,代表一个不可变、可分区、可并行操作的数据集合。
RDD有三种创建方式:
从已有的数据集合(如数组、列表)或外部数据源(如HDFS、Hive、Cassandra等)创建。通过对现有的RDD进行转换操作(如map、filter、join等)得到一个新的RDD。通过并行化一个已有的集合来创建RDD,可以使用SparkContext的parallelize方法将一个已有的集合转化为RDD。