不过15位长的情况下确实还是能够在内存里面做到的,如果是只统计覆盖,不统计具体数目的话,内存还十分够用。。
----------------------------------
msmouse@ir.hit.edu.cn
msmouse@gmail.com
2009/9/27 Huangj <redspid@163.com>
看了这个问题的回复,都不是十分靠谱,其实一个简单的办法就可以轻松搞定。
分而治之...
在2009-09-21,"Michael Zeng" <galaxy2004@gmail.com> 写道: 嗬嗬, 原来是搞生物的,有一个长度为4.8G的字符串,其中只有四种字母ATGC。按照排列组合数,这四个字母组成的长度为15字符串总共有1`073`741`824种可能性。我想统计一下,这个大字符串中是否包含了所有的长度为15的可能的字串。如果没有包含全部,那么有哪些字串的出现次数为零。"中国制造",讲述中国60年往事
为此,我想需要建立一个很大的表,然后从那个超大的字符串中逐个取出长度为15的字串,然后在表中统计其出现次数。这样可以得到结果。我的问题是,这样大的表格,用散列写好还是用二维数组写比较好?或者有什么别的方式实现更可行一些。谢谢各位~-- Yours Sincerely Zeng Hong
没有评论:
发表评论