zl程序教程

您现在的位置是:首页 >  工具

当前栏目

Excel自动化之使用 Pandas 比较不同 Excel 文件中的列值

Excel文件pandas自动化 比较 不同 使用 列值
2023-09-11 14:18:47 时间

用于列匹配的 Pandas

通常,我们可能希望将不同 Excel 文件中的列值相互比较,以搜索匹配和/或相似性。使用 Python 中的 Pandas 库,这很容易。为了演示这是如何实现的,本教程将重点介绍一个简单的遗传示例。不需要遗传知识!

考虑以下情况;我有一些未知的 DNA 序列样本(由字母 A、T、G 和 C 组成的简单字符串。对于这些未知的 DNA 序列中的每一个,我分配一个唯一标识符。为了简单起见,第一个未知序列将被标识为 1 ,第二个为 2,依此类推,如下图所示。

在这里插入图片描述

在这个有点人为的例子中,我想将我的未知序列与已知的参考序列进行比较。

简而言之,我的问题是,任何“Unknown_sample_no”是否与我的“Reference_sequences_ID”匹配?如果有,它们与哪个序列匹配。

在这里插入图片描述

要开始回答这个问题,我首先导入 pandas 模块,并将我的相应文件读取为 csv 文件。注意:我在 Excel 中将这些文件保存为逗号分隔值文件(csv 文件),并使用read_csv()函数解析它们。这不是绝对必要的,而是我更喜欢的工作习惯。您也可以使用原生.xlsx扩展名保留您的 Excel 文件,并使用pandas.read_excel()函数在此处保存一个步骤。