python 文件内容操作,如一个文件100万条数据,查询相同行数

其中一条记录是1,2,3,5,6,7,49,5,6 ,我有固定字符串是,1,2,3 请如何得到1,2,3,在文件里存在所有条数

使用open函数逐行读取文件,依次对比,如包含要求字符串,则数量累加1,读取完成后可统计出行数,代码如下:

n = 0
for line in open('filename','r'):
    if '固定字符串' in line:
        n += 1

print(n)

说明:

使用 for line in open这种方式可以提高代码效率,如需要更复杂统计,例如重复行,则可以使用hash函数,把行hash值存入列表,再做统计。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2012-12-19
100万条,还是不是很大。建议用C语言。把100万条加载到内存里,然后字符串依次比较,也是很快的。具体是先read到内存里,然后把每个回车统计一下,建立一个行首字符的索引。

正常的做法是做索引的。在生成记录时,自动将关键词索引造出来。查询时,只查询索引就可以了。

这样,即使是几千万条记录,查询也是很快。1,2,3就是一个关键词。
第2个回答  推荐于2016-10-12
我总感觉你这标题和内部描述不是一个问题,
不知道理解的对不对,执行如下代码(python2.X)
foid=open('文件名',‘r’) #打开你的文件;
fov=open('结果',‘w’) #考虑到结果可能比较多,写入文件比较好;
n=0
for line in foid:
if not line.find('1,2,3')==-1: #用find查找这一行中是否有目标字符串;
n=n+1 #如果有该字符串,计数
fov.write(line) #保存有这个字符串的那一行数据,如果结果不多可以直接print line
foid.close()
fov.close()
print n

这样就找出所以包含'1,2,3'这个字符串的数据了,n是含有这个字符串的行数,如果在循环内部执行print n,可以得到这个字符串都在第几行出现过本回答被提问者采纳
第3个回答  2012-12-19
文件过大,考虑数据库。当作字符处理很占内存的。

1、str.count
2、你可以用sqlite来加载这个文件。用select的方式去查总数
第4个回答  2012-12-19
CONDSTR = '1,2,3'

def match(ln, condstr=CONDSTR):
''' 指定的串是否在行中 '''
return condstr in ln

cnt = 0
with open(thesrcfile, 'rt') as handle:
for ln in handle:
if match(ln):
cnt += 1追问

Warning: 'with' will become a reserved keyword in Python 2.6
File "W:\templet_ws\PythonTest\PyTest\readtxt1.py", line 11
with open('e:\log.txt','rt')as handle:
^
SyntaxError: invalid syntax
貌似不支持。。。

本回答被网友采纳
相似回答