Milvus针对向量数据做归一化处理
数据 处理 向量 针对 归一化
2023-09-11 14:14:26 时间
milvus归一化数据证明参考:
https://zhuanlan.zhihu.com/p/88117781
python处理归一化参考:
https://www.cnblogs.com/lvdongjie/p/11349701.html
官方文档sklearn参考:
https://scikit-learn.org/stable/
https://www.sklearncn.cn/40/
归一化
归一化 是 缩放单个样本以具有单位范数 的过程。如果你计划使用二次形式(如点积或任何其他核函数)来量化任何样本间的相似度,则此过程将非常有用。
这个观点基于 向量空间模型(Vector Space Model) ,经常在文本分类和内容聚类中使用.
函数 normalize 提供了一个快速简单的方法在类似数组的数据集上执行操作,使用 l1 或 l2 范式:
from sklearn import preprocessing
>>> X = [[ 1., -1., 2.],
... [ 2., 0., 0.],
... [ 0., 1., -1.]]
>>> X_normalized = preprocessing.normalize(X, norm='l2')
>>> X_normalized
array([[ 0.40..., -0.40..., 0.81...],
[ 1. ..., 0. ..., 0. ...],
[ 0. ..., 0.70..., -0.70...]])
preprocessing 预处理模块提供的 Normalizer 工具类使用 Transformer API 实现了相同的操作(即使在这种情况下, fit 方法是无用的:该类是无状态的,因为该操作独立对待样本).
因此这个类适用于 sklearn.pipeline.Pipeline 的早期步骤:
>>> normalizer = preprocessing.Normalizer().fit(X) # fit does nothing
>>> normalizer
Normalizer(copy=True, norm='l2')
在这之后归一化实例可以被使用在样本向量中,像任何其他转换器一样:
>>> normalizer.transform(X)
array([[ 0.40..., -0.40..., 0.81...],
[ 1. ..., 0. ..., 0. ...],
[ 0. ..., 0.70..., -0.70...]])
>>> normalizer.transform([[-1., 1., 0.]])
array([[-0.70..., 0.70..., 0. ...]])
稀疏(数据)输入
函数 normalize 以及类 Normalizer 接收 来自scipy.sparse的密集类数组数据和稀疏矩阵 作为输入。
对于稀疏输入,在被提交给高效Cython例程前,数据被 转化为压缩的稀疏行形式 (参见 scipy.sparse.csr_matrix )。为了避免不必要的内存复制,推荐在上游选择CSR表示。
相关文章
- (尚034)Vue_案例_数据存储优化(代码优化!!!)
- paddlepaddle pipeline 部署milvus操作,当输入数据过大,调用服务端模型返回为空,是因为超时了
- 自然语言处理数据集(NLP Datasets)
- c#基础之异常处理及自定义异常 从SQLServer转储数据到MySQL
- Google Earth Engine ——ERA5-Land Monthly Averaged by Hour of Day - ECMWF Climate Reanalysis数据集
- Google Earth Engine ——数据全解析专辑(PML_V2: Coupled Evapotranspiration and Gross Primary Product)
- landsat 卫星影像的常见问题(去云、是否进行几何和大气校正以及数据产品的处理级别)
- 最值得关注的大数据公司盘点
- LinkedIn前数据专家解读日志与实时流处理
- 【干货】林漳希:新兴中的数据科学与工程
- 分析3000份技术面试数据:这几大指标比你毕业于哪所学校更要紧
- 你还在手动对数据进行校验,快来使用validation吧
- oracle表连接——处理连接过程中另外一张表没有相关数据不显示问题
- 【JAVA问题解决方案】01.EasyExcel导出数据超过Excel单表上限解决方案
- 《R数据可视化手册》一3.7 绘制堆积条形图
- Python数据处理Tips正确的处理数据冲突和样本选取方法
- 数据校验
- 大数据学习——hive基本操作
- flink 处理实时数据的三重保障
- mindspore.ops.Pow()等算子不能处理float64类型的数据
- SpringBoot之处理JSON数据举例
- CYQ.Data 轻量数据层之路 优雅V1.4 辅助工具(十)
- excel中如何让每n行显示同一个数据
- 大数据融入农网建设
- 关于Cocos2d-x中数据的存储提取和类型转换
- 【大数据Hadoop】HDFS-HA模式下ZKFC(DFSZKFailoverController)高可用主备切换机制
- SQL学习之使用常用函数处理数据