zl程序教程

您现在的位置是:首页 >  工具

当前栏目

数学建模学习笔记(九)数据预处理

2023-09-14 09:01:37 时间

一些数据预处理的基本思路与步骤:
1、删除无关变量
2、检查重复值
3、检查缺失值
4、特殊处理(例如删除不相关评论…)

附pandas和numpy的部分处理代码:

import pandas as pd
import numpy as np
df=pd.read_csv('pacifier.tsv', sep='\t', header=0)
df= df.drop('product_id',axis=1)
df= df.drop('review_id',axis=1)
df= df.drop('customer_id',axis=1)
df= df.drop('marketplace',axis=1)
df= df.drop('product_title',axis=1)
df= df.drop('product_category',axis=1)
df= df.drop('product_parent',axis=1)

#丢弃缺失数值
df=df.replace(to_replace='?',value=np.nan)
df = df.dropna(how='any')

print(df.shape)
writer = pd.ExcelWriter('naizui.xlsx')
#df = df.to_csv("weibolu.tsv",index=0)
df = df.to_excel(writer)
writer.save()