Erstellen einer effizienteren Schleife für die SNP -FrequenzPython

Python-Programme
Anonymous
 Erstellen einer effizienteren Schleife für die SNP -Frequenz

Post by Anonymous »

Ich versuche, die Häufigkeit von SNPs alle 100.000 Basisstandorte zu zählen. Ich verwende eine VCF -Datei, die ich bereits vorbereitet habe, und mein Professor hat mir gezeigt, dass ich Code wie unten verwendet habe: < /p>
inputfile=open("bcftools_snps.txt", 'r')
X=0
for line in inputfile:
A=line.split()
if float(A[1]) < 100000:
X=X+1
print("0-100000=", X)
< /code>
Und bisher habe ich dies mit einer neuen Variablen für 200.000-300.000 usw. und so weiter gemacht. Das Problem ist, dass es 7 Millionen Platzierungen gibt, was bedeutet, dass ich 700 Variablen definieren muss, die für ein Chromosom nur schrecklich langsam klingen. Gibt es eine effizientere Möglichkeit, dies zu tun? Wenn Sie ein Genom zusammenstellen, werden die Unterschiede zwischen Zusammenbau und dem Genom derselben Spezies, die Sie bei der Sequenzierung Ihres Untersuchungsgenoms verwendet haben) im Wesentlichen aufgelistet. SNPs sind einzelne Nukleotidpolymorphismen; Wenn es eine andere Basis im Chromosom als die Referenz gibt, wird es markiert. Dies sind Mutationen und große Indikatoren für die genomische Evolution, daher die Bedeutung der Zählung ihrer Häufigkeit (und der Häufigkeit in bestimmten Regionen des Genoms).

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post