zl程序教程

您现在的位置是:首页 >  其他

当前栏目

确定类别的内容挖掘的算法

2023-04-18 12:59:25 时间

我刮了几个网站的食谱,我真的不想尝试创建某种算法,将食谱分为不同的类别。我想不能完全完美,但最佳实践是什么。我是否会首先在数据库中创建静态类别,然后使用静态关键字创建另一个表,其中包含关于类别的外键,然后检查包含关键字之一的刮擦文本,或者正确的方法是什么?确定类别的内容挖掘的算法

Peter Pik

对于您描述的每个不同版本的问题,正确的做法都不相同。你能否更详细地说明输入的内容,以及期望的输出应该是什么样子。即有多少类别(或变量),配方是什么样的,配方属于多于一个类别等。有可能你还不知道这些问题的答案,如果是这样,你必须首先定义你的问题为了找到解决办法。 –

可以说我早餐,午餐,晚餐,沙拉,面包,小吃,饮料和甜点。一个配方包含一个标题,指导和成分。我不确定一个食谱是否应该可以分成几个类别。这取决于是否最简单。我不想从一个简单的起点开始,我可以进一步发展。 –

回答

在我看来,你要找的是一种分类算法,它通过预定义食谱或食谱属性定义类(读取类别)。

你可以实现这一点的一种方式是创建一个生活在所有食谱的指导,食谱甚至标题中的大字典。然后,您定义静态数量的类别(此方法不适用于可变数量的类别),并定义字典中的每个单词可预测包含该单词的食谱属于该类别。

你可以通过让100个食谱手动告诉算法,他们属于哪个类别,这样你的算法将创建这些食谱的词的权重(例如,包含单词“水果”的沙漠食谱)将增加包含单词“水果”这个词的未来食谱被归类为沙漠食谱的机会

然后,当您的算法已针对这100个食谱进行校准时(显然数字100可能大于或小于通常越大越好),您可以通过将已知配方插入算法来测试您的算法,并查看算法的正确性。您可以通过让算法学习他的结果来升级算法,但只要您满意你的算法的准确性ithm,你应该没问题。

Glubus

在这种情况下,您是否有任何数据库结构看起来像样的例子或类似案例的链接? –

那么您需要一套您定义的类别,以及您选择的一组(大)字。每个单词需要能够对每个类别进行引用,因此要么为类别创建1个表格,要么为1个单词创建1个表格,并且将1个表格与一个单词属于某个类别的值链接在一起,*或* make 1大表,每个类别都有一个列,这样一行就定义了一个单词,将它存储在列中的每个类别中。我会自己选择第一个选项,因为很多单词的重量都是0,这意味着您可以通过截断这些记录来减少数据量。 –

确定类别的内容挖掘的算法