期刊名称:应用科学与研究学者学报
文章类型:研究
收到的日期:2018年7月6日
接受日期:2018年7月27日
发表日期:2018年8月9日
引用:Al-Hatali A, Soosaimanickam A (2018) A Comparative Study of the Efficient Data Mining Algorithm to find the most influence factor on price variation in Oman Fish Markets.高效数据挖掘算法的比较研究。应用科学学报Vol . 1, Issu: 5(10-18)。
版权:al - hatali A等人这是一篇在知识共享署名许可条款下发布的开放获取的文章,允许在任何媒体上不受限制的使用、发布和复制,前提是注明原作者和来源。
摘要
渔业被认为是阿曼最古老的职业之一,对国家经济特别是创造就业机会作出了贡献;那里的许多人,完全依赖它作为收入和生活的来源。现在的客户需要一个好的应用程序来帮助他们克服鱼价上涨的问题。本研究旨在利用数据挖掘算法,通过研究数据的历史,帮助预测阿曼鱼类市场价格上涨背后的原因,这将有助于做出正确的决策。该研究考虑了阿曼苏丹国的鱼类市场,在每个市场中选择了29个市场和15种鱼类。利用数据挖掘算法J48算法、Decision Stump算法和Random Tree算法对数据进行分类,找出影响鱼价的最主要因素。选择合适的算法进行应用开发,性能良好。这个应用模型将帮助客户找到关于阿曼鱼市价格的不同细节。
关键词
阿曼鱼市场,因子分析,属性选择,信息增益,魏卡软件和分类算法。
摘要
渔业被认为是阿曼最古老的职业之一,对国家经济特别是创造就业机会作出了贡献;那里的许多人,完全依赖它作为收入和生活的来源。现在的客户需要一个好的应用程序来帮助他们克服鱼价上涨的问题。本研究旨在利用数据挖掘算法,通过研究数据的历史,帮助预测阿曼鱼类市场价格上涨背后的原因,这将有助于做出正确的决策。该研究考虑了阿曼苏丹国的鱼类市场,在每个市场中选择了29个市场和15种鱼类。利用数据挖掘算法J48算法、Decision Stump算法和Random Tree算法对数据进行分类,找出影响鱼价的最主要因素。选择合适的算法进行应用开发,性能良好。这个应用模型将帮助客户找到关于阿曼鱼市价格的不同细节。
关键词
阿曼鱼市场,因子分析,属性选择,信息增益,魏卡软件和分类算法。
介绍
在过去的47年里,阿曼渔业已经巨大地增长。2006年,据报道渔业产出已上升至28万吨[1]。这表明渔业部门仍然比任何其他动物粮食部门更快地增长。2011年和2016年之间的平均增长率为12.1%[2]。对渔业产品的需求继续增加,以满足消费者的需求,反映了发达国家和发展中国家的鱼类和贝类饮食益处的需求。
市场上的鱼类价格变化,使阿曼客户遭受换鱼价格的遭受。分析研究将选择对鱼类价格产生影响的最大影响因素。Weka软件已被用于对本研究相关的因素进行分类和评估。数据挖掘是一组方法,用于从各种商业域的大型数据库中提取隐藏和有用的信息。用于识别有趣的模式和相关性并从数据仓库中获益,使用因子分析和信息增益方法[3]。因子分析揭示了大量数据项之间的有趣关联和/或相关关系。因子分析显示了在给定数据集中常用的属性值条件[4]。
存储在农业和渔业数据库中的数据通常会增加价格,通常需要通过应用因子分析,信息增益等数据挖掘技术来利用此数据(图1)。
图1:2011年全鱼产量[2016 [4]。
利用所发现的知识,可以对鱼类属性进行分类和分析,找出影响鱼类价格的因素之间的关系和变化情况。本研究的目的是应用数据的分类(分析)模型和基于数据的准确性进行比较不同的分类算法,然后找到三个实验的信息增益和理解熵的概念来开发一个应用程序,该应用程序可以减少提高价格的问题。
阿曼苏丹国的鱼市
阿曼政府一直在努力改善粮食安全和生产,这些安全和生产受到农业,园艺,水产养殖和海洋捕捞的投资,因为该国寻找可持续解决方案以支持不断增长的人口和提升出口。仅在渔业中,政府旨在从2015年的每年257,172吨提高到2020年的48万吨。阿曼消费者不仅经历了苏丹国市场中的鱼类短缺,而且价格上涨。阿曼是每年每人约28公斤的大型消费鱼类。由于来自邻国和旅游设施的人口增长和需求不断增长,鱼类价格一直在上升。
渔业被认为是阿曼最古老的职业之一,对国家经济特别是创造就业机会作出了贡献;许多人,完全取决于它作为收入和生活来源[5,6]。很明显,这一领域取得了重大改进,2011年至2016年的平均增长率增长了12.1%;2016年增加到2011年的280万吨,而2011年的158万吨,如图2所示[2]所示。此外,它被认为是有效促进GDP的增长的重要经济部门之一。根据NCSIO在2016年,与2015年渔业的总GDP增长了18.4%,因为如图2所示[2]。
图2:农业和渔业部门的国内生产价值[4]。
此外,社会方面对很大一部分公民和居民赖以生存的渔业部门产生了重要影响,每天的价格波动对渔业部门产生了直接影响。显然,同一种鱼在同一时间不同地点的价格是不同的。其原因可以归结为影响鱼类价格的几个因素,例如供求关系、气候、石油、燃料、天然气等[7,8]。
文献综述
如今,研究界更加关注与分析因素有关的主题,因此原因可能归因于政府和机构经济增长的积极贡献。有不同的方法用于研究因素(特征分析),其中一些研究论文在这里突出显示。
参考文献[9]的研究文件侧重于经济领域,它使用因子分析模型:分类树(推车)。这些数据被收集在20个国家,结果显示了国家的经济等级(科威特,德国,冰岛,比利时,丹麦,台湾,卡塔尔,爱尔兰,瑞典,卢森堡,奥地利,新加坡,挪威,荷兰,香港,文莱,美国,瑞士,加拿大和澳大利亚)。渔业和农业有五篇论文,在那里他们使用不同的数据挖掘算法进行因子分析。根据T Saisujana [10],对具有二进制和多个不平衡类的九种不同数据集的比较研究,并与其他成帧算法相关。结果表明,该方法提供了高分类准确性,具有具有较少特征的特征子集。它们基于对称误差统计数据进行比较这些模型,例如根均方错误(RMSE),平均值误差(MAE)和平均绝对百分比误差(MAPE),在产生算法性能的情况下,误差越小。
在金融区域中,不同的算法已经用于特征选择,例如[11],呈现了分类模型的比较研究。作者使用了有关车辆服务的信息,并在200多个汽车经销商处进行了有关车辆服务的信息和车辆销售。他得出结论,决策树模型提供比其他模型更好的结果,特别是RMSE,MAPE和MAE的值。
在农业区,不同算法已被用于因子分析,例如[12],检查了影响伊朗农业部门纳米技术发展的因素。本研究中使用的方法涉及描述性和定量研究的组合,包括使用因子和描述性分析作为数据处理方法。研究人群包括西亚扎拜疆省纳米技术领域的研究人员(n = 74)。通过采访受访者收集并通过使用因子分析技术分析来收集的数据。根据受访者的看法,通过研究,教育和信息等因素来解释大约50%的共同方差,其中大多数是由研究因素(19.43%)解释的。
结果表明,装袋模型在减少误差方面有明显的改善,决策树模型的结果优于其他模型。
方法
许多客户和供应商在不知道影响定价的原因或因素的情况下对鱼市场的不同价格波动面临着许多问题。与此同时,他们希望在拟议的方法中找到一个解决方案,这可能会发现鱼类价格最大的因素,以避免任何损失并尽可能满足他们的需求。
本研究的重点是对数据挖掘分类算法中常用的模型进行比较分析。选择性能良好的数据挖掘算法来构建一个应用程序。
提出申请模型
该模型的主要思想是建立一个应用程序,这些应用程序将帮助客户尽可能减少价格上涨的问题。除了测量这些数据挖掘算法的效率,以便选择最佳算法来构建建议的应用程序。如图3所示,有五个主要阶段,其中数据收集,数据预处理,分类过程,评估和分析,以及最终开发应用程序。首先,2015年11月至2016年11月期间,从阿曼全部的29个市场手动收集数据,价格为15条鱼类。其次,在数据预处理中,完成数据清洁以组织要在分类过程中使用的数据。第三,Weka分类器用于执行分类过程。第四,在评估过程中,已经基于所使用的模型上的RMSE(均方误差)的结果进行分析研究,这是J48算法,决策树桩和随机树。最后,已经选择了具有较少RMSE的算法来开发应用程序。
图3:提出的模型。
使用的工具(Weka软件)
对于本研究,选择Weka(Waikato Inveuredication)软件为实现。Weka是一家在新西兰威卡托大学开发的Java中写的一系列机器学习软件套件。Weka是GNU通用公共许可证下的免费软件[13]。Weka是机器学习算法的集合(分类,聚类和回归),可以直接应用于数据。Weka Gui Chooser由资源管理器,实验者,知识流,工作台和简单CLI等不同的应用组成。
为实验选择Weka的原因是,与原始算法相比,因子分析或特征选择算法以及尤其是信息增益几乎相当地实现。这些实现存在于工具的分类和回归能力下。出于研究目的,Weka 3.8如下图4所示使用。
图4:Weka Gui Chooser。
分类算法
在Weka软件工具中有不同的分类算法。在这一节中,简要介绍三种算法的细节和比较,以及哪种算法比其他算法具有更高的精度和更少的误差。所选择的算法有J48、Random tree和Decision Stump: J48算法是一种预测性的机器学习模型,它根据可用数据的不同属性值来决定一个新样本的目标值为J48 Decision tree[14]。J48是ID3的扩展。J48的其他特性包括对缺失值的解释、决策树的修剪、连续的属性值范围、规则的派生等。在WEKA数据挖掘工具中,J48是一个开源的Java实现的C4.5算法。WEKA工具提供了许多与树修剪相关的选项。决策树的内部节点表示不同的属性,节点之间的分支告诉我们这些属性在实验结果中可能具有的值,而终端节点告诉我们因变量的最终值。该算法生成生成该数据特定身份的规则。目标是逐步推广决策树,直到它获得灵活性和准确性的平衡。
随机树是一个监督分类器;它是一个合奏学习算法,可以生成大量的个人学习者。它采用袋装思想来构建用于构建决策树的随机数据集。在标准树中,每个节点都使用所有变量中的最佳分割拆分[15]。它使用这种产生的分裂选择,因此诱导合理平衡的树木,其中脊值的一个全局设置在所有叶子上工作,从而简化了优化过程[16]。决策树桩算法:它是由一个单级决策树组成的机器学习模型。也就是说,它是一个具有一个内部节点(根)的决策树,其立即连接到终端节点(其叶子)。决策树桩基于仅为单个输入特征的值进行预测[15]。
算法之间的比较
为了进行比较,第一个实验在Weka上进行了10倍交叉验证,训练集和分割百分比(66%)。第一步是使用Random Tree、Decision stump和j48分类算法找到鱼类数据集的Confusion Matrix[17-28]。下一步,实验计算分类准确率和平均绝对误差(Table 1)。
表1:混乱矩阵。
仿真结果表明,J48决策树算法对24572个实例的正确分类率最高(99%),决策树桩算法对24572个实例的正确分类率最低(19%)。随机树算法的结果与J48算法相近,位居第二。如图4所示,J48用更少的时间对所有三个测试选项进行分类,平均0.027秒。此外,Decision Stump对所有测试选项的平均时间为0.053秒,而Random Tree对24572个实例的平均时间为0.157秒(表2)。
表2:精度和平均绝对误差。
J48算法和随机树算法在折叠交叉验证中都给出了99%的准确率。事实上,准确率最高的是J48 Decision Tree分类器,其次是Random Tree算法和Decision stump Tree classifier(图5)。
图5:准确性比较。
J48算法对所有测试选项的平均绝对误差为0.0001 %,随机树算法对所有测试选项的平均绝对误差为0.00023%。但是,Decision stump算法对所有测试选项的平均绝对误差平均值为0.1392%,其误差高于其他算法(图6)。
图6:错误的比较。
结果和讨论
已经执行并测试了三个实验,以查找每个因素的正确分类的实例和信息增益值的百分比。首先,由J48算法分类的整个数据集,并计算数据库中每个因素的信息增益。其次,分割数据依赖于年季度。最后,每个位置的分割数据,每个位置都有信息增益计算。除以数据集的目的是检查选择学习的四个因素的熵结果的有效性。
实验A.
整个数据集的准确率为99%在10倍交叉验证和溢出百分比(66%)。另一方面,在训练集中,整个数据集的准确率为100%(表3)。
表3:通过类加权平均水平的详细准确性A.
根据第2.7849的属性选择显示排名归属于第2.7849在第一个属性名称中显示的铅等级并支架第一排名,第二属性是0.2016的位置,价格和数量采用第三和第四等级位置,0.0348和0.0144分别(图7)。
图7:IG用于整个数据。
实验B.
第一季度实验的准确度百分比为100%。第二季度的实验的准确性百分比为100%。第二季度实验的准确性百分比为97%。第二季度的实验的准确性百分比为96%(表4)。
表4:实验B级加权平均水平的详细准确性。
实验二的结果显示,时间因素在地理位置、价格和数量等因素中排名较高。结果与第一次实验的结果几乎相似。下面的图8显示了所有季度的平均排名属性值。
图8:IG表示按时间划分数据集。
实验C.
对于实验三,结果表明,时间具有高排名的其他因素,这些因素是位置,价格和数量。价格占第二级等级,数量采用第三级职位(表5)。
表5:对实验C类加权平均水平的详细准确性C.
结果与第一实验的结果相同。下图9显示了所有位置的平均排名属性值:
图9:通过位置分隔数据集。
作为模型成功的衡量标准,分类率在折叠交叉验证10测试样品上使用。为了构成决策树模型,使用了J48算法,其中它们的运作是高精度,误差较少。
比较分析
自本研究的目标是找到阿曼市场鱼价格变异背后的因素。为实现目标,J48算法用于检查数据的准确性,我们通过使用该算法相应地对数据进行分类来实现我们的目标。我们发现J4算法与属性选择之间存在关系,称为信息增益方法并提供相同的结果。之前的比较表明,J48算法的分类精度率最高为99.92%。通过使用Weka环境来测试三个实验。每个属性的信息增益显示时间对鱼类价格直接影响,并随着时间的推移而变化。渔民或客户捕获或购买鱼的位置是鱼类价格的第二次影响。数量对鱼价格的影响较小。图10显示了按属性选择算法测试之前的排序属性。通过该算法证明了每个因素的顺序以及它如何影响鱼类价格。
图10:J48决策树。
影响鱼类价格变化的主要因素是表6所示的时间,原因是通过在人造池塘中饲养鱼类需要捕捞或增加鱼类生产的时间表。这里,当时缺乏鱼类的鱼价格的价值,反之亦然(表6)。第二个因素是鱼类价格在市场捕捞市场的捕捞场所的可能性方面的地方,我们注意到市场价格上涨和渔场下降。
表6:三个实验的信息获取。
第三个因素是数量,数量越高,数量越小,需求越高,鱼价格越高。
应用模型
所提出的应用模型包含四个部分。第一部分与用于查找大多数受影响因素的信息增益计算有关,这些因素对阿曼苏丹苏丹苏丹苏丹的特定位置有直接影响的鱼类价格。第二部分是在不同地点找到特定的鱼类类型,并找到它在那一天是否可用。第三部分包含一个简单的报告,该报告计算特定区域中每种鱼类类型的平均值和价格总和。最后,最后一部分有助于在特定位置找到特定的鱼类类型,并帮助客户找到适合他的需求和要求的鱼类价格。
本研究中使用了15种鱼类。每种鱼类类型具有特定的价格和数量细节,依赖于下图11所示的时间和位置。
图11:鱼类类型有具体细节。
本节可帮助客户找到对价格影响的哪些因素,并在特定位置进行一些时间。代码已被编写以计算每个因素的熵,并提供结果在图12中出现的文本框。
图12:熵为位置。
第三部分,帮助客户键入价格和位置,他/她想在该位置找到有关不同鱼类类型的详细信息,如下图13所示。
图13:地点和价格选择。
最后一部分是一个简单的报告,包含了阿曼29个地点的价格总和、最大、最小和平均价格的详细信息(图14)。
图14:鱼类报告详情。
结论
分类算法J48已根据构建应用模型的不同测试结果选择。该测试已经完成了属性选择,并且在百分比下计算加权平均值。虽然交叉验证和分割百分比显示出巨大的差异,但培训和交叉验证集几乎产生了大致相似的结果。
基于J48算法生成的决策树,得出影响鱼类价格的最重要因素仅为时间因素(Time)。这是由于不同季节的鱼的价格和可能存在的一种特定的鱼类四季。在一个季节中,鱼的供应量越多,其价格就越低,而鱼的供应量越少,价格就越高。
旨在支持因子分析思想的应用模型,这可能影响特定区域的鱼类价格差异。该申请还提供有关不同领域的鱼类的信息,并根据需要的价格和数量。
承认
这项研究得到了阿曼苏丹国研究委员会(TRC)的资助。
阿尔瓦坦报纸(2017年)2017年第一季度苏丹国鱼类生产增加了6.1%。经济文章。[ref]
H t t p: / / w w w。恋爱。G。o m / p a g e s / p a g e C r e a t o。aspx吗?lang = AR&DId =我= 0 cid = 0明目MSId = 800746[ref]
Pandya JP,Morena Rd(2017)在不同应用领域使用的关联规则挖掘算法调查。85:1430-1436。[ref]
Rajak A和Gupta MK(2012)协会规则挖掘:各个领域的应用。PP:3-7。[ref]
http://timesofoman.com/article/31777/AMAN/FARM-渔业 - 阿曼的经济。[ref]
http://timesofoman.com/article/112688。[ref]
Salim Q(2010)在外部因素的阿曼苏丹国分析中经营批发鱼市场。“冰岛:Unu-Fishies培训计划。PP:1-44。[ref]
Maribeth PA, Layza IAE, Jane RAK, Keene RFG, Jocel DR(2016)影响菲律宾Surigao Del Sur北部鱼类市场价格的因素。环境生态学报7:34-41。[ref]
Bai A, Hira S, Deshpande PS(2015):因子分析在国家经济排名评价中的应用。[ref]
Nalluri MSR,Sujana Ts,Reddy Kh,Swaminathan V(2017)使用人工鱼类群优化和SVM分类器进行高效的特点选择。计算技术的网络和进步国际会议(Netact)PP:20-22。[ref]
Villacampa O(2015)决策特征选择和分类方法:比较分析。[ref]
Hosseini SJF和eghtedari N(2013)鉴定伊朗农业部门纳米技术发展的确认因素分析。非洲J农业res第8卷:1401-1404。[ref]
Jagtap SB和Kodge BG(2013)基于WEKA的人口普查数据挖掘和数据分析。康奈尔大学图书馆:1-6页。[ref]
维基百科贡献者(2015)-C4.5_algorithm,‖维基百科,自由百科。Wikimedia基金会。[ref]
维基百科贡献者(2014)random_tree,‖维基百科,免费百科全书。Wikimedia基金会。[ref]
Andy L(2012)R包随机森林的文档。[ref]
Koller D和Sahami M(1996)朝着最佳特征选择。第十三国际机器学习会议的诉讼程序。PP:284-292。[ref]
Almuallim H和Dietterich TG(1994)在许多无关的功能存在下学习布尔概念。人工智能69:279-305。[ref]
HACER Y,Aykut E,Halil E,Hamit,E(2015)通过袋装集合模型优化月原油价格预测精度。J经济学int金融7:127-136。[ref]
Hall M,Frank E,Holmes G,Pfahringer B,Reutemann P等人。(2009)WEKA数据挖掘软件。ACM SIGKDD探索时事通讯11:10。[ref]
Hall M,Frank E,Holmes G,Pfahringer B,Reutemann P等人。(2009)WEKA数据挖掘软件。ACM SIGKDD探索时事通讯11:10。[ref]
景H,胜YN,莹哦,泽Sy,歌曲CB(2013)在渔业生产领域数据挖掘的应用进展。J Agri SCI Technol 15:176-182。[ref]
Vasantha M和Bharathy vs(2010)评估基于树的监督分类的属性选择方法 - 用乳房图像图像进行案例研究。国际J计算机应用8:35-38。[ref]
陈爱,张建,徐L(2016)对中国大规模伤亡致命道路交通崩溃的因子分析。机械工程的进步8:1-11。[ref]
Kumbhare TA和Chobe SV(2014)关联规则挖掘算法综述。计算机科学信息技术5:927-930。[ref]
http://en.wikipedia.org/wiki/factor_analysis.[ref]
http://en.wikipedia.org/wiki/weka_(machine_learni ng)[ref]
Duch W, Winiarski T, Biesiada J, Kachel A (2003) Feature的排序、选择和离散化。人工神经网络(ICANN)和神经信息处理(ICONIP)。251 - 254页。[ref]