您现在的位置是：首页 > 后端

当前栏目

spark将dataframe按照比例分割为2份方法

方法 Spark 分割 dataframe 按照比例

2023-09-14 09:11:46 时间

import pyspark

# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession


def split2df(prod_df, ratio=0.8):
    # Calculate count of each dataframe rows
    length = int(prod_df.count() * ratio)

    # Create a copy of original dataframe
    copy_df = prod_df

    # Iterate for each dataframe
    temp_df = copy_df.limit(length)

    # Truncate the `copy_df` to remove
    # the contents fetched for `temp_df`
    copy_df = copy_df.subtract(temp_df)

    length2 = prod_df.count() - length
    temp_df2 = copy_df.limit(length2)

    copy_df2 = copy_df.subtract(temp_df2)

    return temp_df, temp_df2

# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()

# Column names for the dataframe
columns = ["Brand", "Product"]

# Row data for the dataframe
data = [
    ("HP", "Laptop"),
    ("Lenovo", "Mouse"),
    ("Dell", "Keyboard"),
    ("Samsung", "Monitor"),
    ("MSI", "Graphics Card"),
    ("Asus", "Motherboard"),
    ("Gigabyte", "Motherboard"),
    ("Zebronics", "Cabinet"),
    ("Adata", "RAM"),
    ("Transcend", "SSD"),
    ("Kingston", "HDD"),
    ("Toshiba", "DVD Writer")
]

# Create the dataframe using the above values
prod_df = spark.createDataFrame(data=data,
                                schema=columns)


# View the dataframe
prod_df.show()
df1, df2 = split2df(prod_df)
df1.show(truncate=False)
df2.show(truncate=False)

分割结果：

+---------+----------+
|Brand |Product |
+---------+----------+
|Transcend|SSD |
|Toshiba |DVD Writer|
|Kingston |HDD |
+---------+----------+

参考：

https://www.geeksforgeeks.org/pyspark-split-dataframe-into-equal-number-of-rows/

猜你喜欢

工具Redis快速实现压力测试的自带工具尝鲜（redis自带压测）
Spark MLlib线性回归代码实现及结果展示详解编程语言
HTML--标签简写及说明【文章版权归属(菜鸟教程)】
22届考研模拟卷(公共数学二)汇总
Async/EnableAsync注解异步方法的使用
配置Redis请求优先级，优化性能（redis配置请求优先级）
【Linux 内核内存管理】物理页释放 ( 物理页释放 __free_pages 函数 )
驱动系统掌握：Linux内核I2C驱动开发技能（linux内核i2c）
H10N3禽流感为何会感染人？会“人传人”吗？
巅峰对话：5大顶级风投，最青睐什么医疗项目？
Rainbond的 Gateway API 插件制作实践
文件锁定：Linux文件保护的要素（linux文件锁）
使用CMD实现本地MySQL连接（cmd连接本地mysql）
openssl生成证书linux,Linux下使用openssl生成证书「建议收藏」
MySQL Error number: MY-010301; Symbol: ER_AUTH_CANT_WRITE_PRIVKEY; SQLSTATE: HY000 报错故障修复远程处理
MSSQL中不再重复获得随机数（mssql 随机数不同）

相关主题

方法和传递
挂载的2种方法
JS获取节点方法
C#-4 方法
字符串方法
timer使用方法

zl程序教程

当前栏目

spark将dataframe按照比例分割为2份方法

相关文章