请选择 进入手机版 | 继续访问电脑版
您现在的位置:测序中国-基因行业新媒体 门户 973项目 查看内容

PNAS:改善大数据集分析的准确性

时间:2014-3-25 11:36  来源:生物360 ( )
摘要:日前,来自哈佛医学院等机构的研究人员发现,整合了交叉验证的一种数据集分析技术可能有能力识别出从生物信息学到语言学等领域的多维数据集的模式。 对大数据集的自动分析可能识别出数据的模式,但是无法评估发现的 ......

PNAS:改善大数据集分析的准确性

日前,来自哈佛医学院等机构的研究人员发现,整合了交叉验证的一种数据集分析技术可能有能力识别出从生物信息学到语言学等领域的多维数据集的模式。

对大数据集的自动分析可能识别出数据的模式,但是无法评估发现的模式的显著性,这可能导致无意义的结果。

研究人员发展了一种数据分析方法,它包括了一个交叉验证步骤,从而识别出最显著的模式,这种方法称为通过准确性最大化的知识发现(KODAMA)。一个迭代过程评估了对数据的可能的分类,从而对尽可能多的数据点进行归类,并且通过合并类似的数据类,削减可能的数据类的数量。最后,定义了一个相异度矩阵从而评估数据点之间的关系。

研究人员把通过准确性最大化的知识发现(KODAMA)应用到了几个数据集上,包括淋巴瘤遗传学、代谢组学和上溯到 1900 年的美国国情咨文的语言学特征。

对于国情咨文,研究人员表示通过准确性最大化的知识发现(KODAMA)揭示出了在罗纳德•里根总统任期期间的一种转变,诸如“劳动”、“生产”和“开支”等词汇的频率减少,而诸如“父母”、“子女”和“改革”等词汇的频率增加。

研究人员表示,这些结果提示通过准确性最大化的知识发现(KODAMA)可能有能力从有噪声或复杂的数据集中提取出有意义的模式。

原文检索:

Stefano Cacciatore, Claudio Luchinat, and Leonardo Tenori. Knowledge discovery by accuracy maximization. PNAS, March 24, 2014; doi:10.1073/pnas.1220873111

我要分享到:
相关评论

大猴子

欢迎关注“二代测序”公众号,可以带着走的行业新闻,搜索“二代测序”或者“nextgenerationseq”关注

2014-3-26 23:33  引用

waterstill

通过准确性最大化的知识发现(KODAMA)可能有能力从有噪声或复杂的数据集中提取出有意义的模式。

2014-3-26 07:25  引用
作者简介
作者:slytjiaofei
作者未设置个人签名……
主页 私信 关注
关于我们
加入我们
客服邮箱:info@seq.cn | 官方微信:seq114 | 测序君微信:seqChina
友情链接:广东威尔医院  联合医生集团  智慧医博会  肽度时界  91360智慧病理网  易科学  小桔灯  生物帮  生物360  奇点网  动脉网 
© 2015 seq.cn, All Rights Reserved. 测序中国 版权所有 工信部备案号:京ICP备1201832. 旧网站入口
返回顶部