Finden Sie alle Muster in einer Multifasta-Datei, auch überlappende Motive

Finden Sie alle Muster in einer Multifasta-Datei, auch überlappende Motive ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Finden Sie alle Muster in einer Multifasta-Datei, auch überlappende Motive

Report
Quote

Post by Anonymous » 16 Jan 2026, 23:05

Ich habe eine Multifasta-Datei, sie sieht so aus:

Code: Select all

>NP_001002156.1
MKTAVDRRKLDLLYSRYKDPQDENKIGVDGIQQFCDDLMLDPASVSVLIVAWKFRAATQCEFSRQEFLDG
MTDLGCDSPEKLKSLLPRLEQELKDSGKFRDFYRFTFSFAKSPGQKCLDLEMAVAYWNLILSGRFKFLGL
WNTFLLEHHKKSIPKDTWNLLLDFGNMIADDMSNYAEEGAWPVLIDDFVEFARPIVTAENLQTL
>NP_957070.2
MAKDAGLKETNGEIKLFINQSPGKAAGVLQLLTVHPASITTVKQILPKTLTVTGAHVLPHMVVSTPQRPT
IPVLLTSPHTPTAQTQQESSPWSSGHCRRADKSGKGLRHFSMKVCEKVQKKVVTSYNEVADELVQEFSSA
DHSSISPNDAVSSCHVYDQKNIRRRVYDALNVLMAMNIISKDKKEIKWIGFPTNSAQECEDLKAERQRRQ
ERIKQKQSQLQELIVQQIAFKNLVQRNREVEQQSKRSPSANTIIQLPFIIINTSKKTIIDCSISNDKFEY
LFNFDSMFEIHDDVEVLKRLGLALGLESGRCSAEQMKIATSLVSKALQPYVTEMAQGSVNQPMDFSHVAA
ERRASSSTSSRVETPTSLMEEDEEDEEEDYEEEDD
>NP_123456.1
MALLLLLGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
...

Obwohl es ein großartiges Python-Skript gibt, um Motivsuchen in einer Multifasta-Datei durchzuführen (https://www.biostars.org/p/14305/), würde es bei Verwendung des Musters „[KHR]{3}“ nur eine Motivliste und viele leere Ergebnisse zurückgeben:

Code: Select all

>NP_001002156.1
:['RRK']
>NP_001002156.1
:[]
>NP_001002156.1
:['HHK']
>NP_957070.2
:[]
>NP_957070.2
:['RRR']
...

und einige Motive (HKK) wurden in der gleichen Reihenfolge durchgesickert.

Hier habe ich ein weiteres Python-Skript gefunden:

Code: Select all

#coding:utf-8
import re
pattern = "[KHR]{3}"
with open('seq.fasta') as fh:
fh.readline()
seq = ""
for line in fh:
seq += line.strip()
rgx = re.compile(pattern)
result = rgx.search(seq)
patternfound = result.group()
span = result.span()
leftpos = span[0]-10
if leftpos < 0:
leftpos = 0
print(seq[leftpos:span[0]].lower() + patternfound + seq[span[1]:span[1]+10].lower())

Es gibt das erste übereinstimmende Motiv zurück, das in einem Kontext gefunden wurde (10 Aminosäuren vorwärts nach dem übereinstimmenden Motiv
und 10 Aminosäuren rückwärts vor dem übereinstimmenden Motiv) für nur eine Fasta-Sequenz (die erste), für die erste Fasta-
Sequenz NP_001002156.1 unter Verwendung des Skripts das zurückgegebene Ergebnis:

Code: Select all

mktavdRRKldllysrykd

aber es hat keinen Dateikopf „>NP_001002156.1“ und andere 2 Motive im Kontext wurden alle weggelassen:

Code: Select all

glwntfllehHHKksipkdtwnl
lwntfllehhHKKsipkdtwnll

Hier möchte ich, dass das gewünschte Skript ein passendes Motiv mit seiner Position im Kontext jeder Fasta-
Sequenz in der Multifasta-Datei zurückgibt und die Ergebnisse wie folgt darstellt:

Code: Select all

>NP_001002156.1_matchnumber_1_(7~9)
mktavdrRRKldllysrykd
>NP_001002156.1_matchnumber_2_(148~150)
glwntfllehHHKksipkdtwnl
>NP_001002156.1_matchnumber_3_(149~151)
lwntfllehhHKKsipkdtwnll
>NP_957070.2_matchnumber_1_(163~165)
chvydqknirRRRvydalnvlma
>NP_123456.1
no match found

Hinweis:Die Position des übereinstimmenden Musters ist nicht die Position des Kontexts.

Könnte mir jemand helfen? Vielen Dank im Voraus.

1768601140

Anonymous

Ich habe eine Multifasta-Datei, sie sieht so aus: 

[code]>NP_001002156.1
MKTAVDRRKLDLLYSRYKDPQDENKIGVDGIQQFCDDLMLDPASVSVLIVAWKFRAATQCEFSRQEFLDG
MTDLGCDSPEKLKSLLPRLEQELKDSGKFRDFYRFTFSFAKSPGQKCLDLEMAVAYWNLILSGRFKFLGL
WNTFLLEHHKKSIPKDTWNLLLDFGNMIADDMSNYAEEGAWPVLIDDFVEFARPIVTAENLQTL
>NP_957070.2
MAKDAGLKETNGEIKLFINQSPGKAAGVLQLLTVHPASITTVKQILPKTLTVTGAHVLPHMVVSTPQRPT
IPVLLTSPHTPTAQTQQESSPWSSGHCRRADKSGKGLRHFSMKVCEKVQKKVVTSYNEVADELVQEFSSA
DHSSISPNDAVSSCHVYDQKNIRRRVYDALNVLMAMNIISKDKKEIKWIGFPTNSAQECEDLKAERQRRQ
ERIKQKQSQLQELIVQQIAFKNLVQRNREVEQQSKRSPSANTIIQLPFIIINTSKKTIIDCSISNDKFEY
LFNFDSMFEIHDDVEVLKRLGLALGLESGRCSAEQMKIATSLVSKALQPYVTEMAQGSVNQPMDFSHVAA
ERRASSSTSSRVETPTSLMEEDEEDEEEDYEEEDD
>NP_123456.1
MALLLLLGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG
...
[/code]

Obwohl es ein großartiges Python-Skript gibt, um Motivsuchen in einer Multifasta-Datei durchzuführen (https://www.biostars.org/p/14305/), würde es bei Verwendung des Musters „[KHR]{3}“ nur eine Motivliste und viele leere Ergebnisse zurückgeben:

[code]>NP_001002156.1
:['RRK']
>NP_001002156.1
:[]
>NP_001002156.1
:['HHK']
>NP_957070.2
:[]
>NP_957070.2
:['RRR']
...
[/code]

und einige Motive (HKK) wurden in der gleichen Reihenfolge durchgesickert.

Hier habe ich ein weiteres Python-Skript gefunden:

[code]#coding:utf-8
import re
pattern = "[KHR]{3}"
with open('seq.fasta') as fh:
fh.readline()
seq = ""
for line in fh:
seq += line.strip()
rgx = re.compile(pattern)
result = rgx.search(seq)
patternfound = result.group()
span = result.span()
leftpos = span[0]-10
if leftpos < 0:
leftpos = 0
print(seq[leftpos:span[0]].lower() + patternfound + seq[span[1]:span[1]+10].lower())
[/code]

Es gibt das erste übereinstimmende Motiv zurück, das in einem Kontext gefunden wurde (10 Aminosäuren vorwärts nach dem übereinstimmenden Motiv
und 10 Aminosäuren rückwärts vor dem übereinstimmenden Motiv) für nur eine Fasta-Sequenz (die erste), für die erste Fasta-
Sequenz NP_001002156.1 unter Verwendung des Skripts das zurückgegebene Ergebnis: 

[code]mktavdRRKldllysrykd
[/code]

aber es hat keinen Dateikopf „>NP_001002156.1“ und andere 2 Motive im Kontext wurden alle weggelassen:

[code]glwntfllehHHKksipkdtwnl
lwntfllehhHKKsipkdtwnll
[/code]

Hier möchte ich, dass das gewünschte Skript ein passendes Motiv mit seiner Position im Kontext jeder Fasta-
Sequenz in der Multifasta-Datei zurückgibt und die Ergebnisse wie folgt darstellt:

[code]>NP_001002156.1_matchnumber_1_(7~9)
mktavdrRRKldllysrykd
>NP_001002156.1_matchnumber_2_(148~150)
glwntfllehHHKksipkdtwnl
>NP_001002156.1_matchnumber_3_(149~151)
lwntfllehhHKKsipkdtwnll
>NP_957070.2_matchnumber_1_(163~165)
chvydqknirRRRvydalnvlma
>NP_123456.1
no match found
[/code]

Hinweis:Die Position des übereinstimmenden Musters ist nicht die Position des Kontexts.

Könnte mir jemand helfen? Vielen Dank im Voraus.

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Wie man überlappende überlappende Reiskörner in einem Bild mit OpenCV genau segmentiert

Last post by Anonymous « 22 Mar 2025, 06:19
Posted in Python

by Anonymous » 22 Mar 2025, 06:19 » in Python

Ich arbeite an einer Bildverarbeitungsaufgabe mit OpenCV Python, in der ich einzelne Reiskörner aus einem Bild segmentieren muss. Die Herausforderung besteht darin, dass sich viele Körner miteinander...

0 Replies

57 Views

Last post by Anonymous
22 Mar 2025, 06:19
Überlappende Informationen über überlappende Informationen auf der Seite, wenn der Browser die Größe der Änderung der Än

Last post by Anonymous « 18 Aug 2025, 10:52
Posted in CSS

by Anonymous » 18 Aug 2025, 10:52 » in CSS

Ich versuche, einen festen Sidebar -NAV in React zu erstellen, aber er überlappt meine Seiten. Alle meine Informationen befinden sich unter der Navigationsleiste, wenn ich meinen Browser ändern kann....

0 Replies

53 Views

Last post by Anonymous
18 Aug 2025, 10:52
Wählen Sie in Polaren alle Spalten aus, die mit einem Muster enden, und fügen Sie neue Spalten ohne Muster hinzu

Last post by Anonymous « 30 Oct 2025, 14:02
Posted in Python

by Anonymous » 30 Oct 2025, 14:02 » in Python

Ich habe den folgenden Datenrahmen:
import polars as pl
import numpy as np

df = pl.DataFrame({
nrs : ,
names_A0 : ,
random_A0 : np.random.rand(5),
A_A2 : ,
})
digit = 0

Für jede Spalte...

0 Replies

31 Views

Last post by Anonymous
30 Oct 2025, 14:02
Finden Sie überlappende Zeilen in Spark/Python

Last post by Guest « 16 Jan 2025, 11:53
Posted in Python

by Guest » 16 Jan 2025, 11:53 » in Python

Ich arbeite mit PySpark zusammen, um die folgende Routine zu schreiben, ohne einen rekursiven Ansatz zu verwenden. Das Problem mit dem rekursiven Ansatz besteht darin, dass meine Daten zu groß sind...

0 Replies

28 Views

Last post by Guest
16 Jan 2025, 11:53
Effizient überlappende Zeitbereiche in Python finden

Last post by Anonymous « 10 Apr 2025, 08:07
Posted in Python

by Anonymous » 10 Apr 2025, 08:07 » in Python

Ich habe eine Liste von Zeitbereichen, die als Tupel von DateTime -Objekten dargestellt werden:
time_ranges =

Ich muss alle überlappenden Zeitbereiche in dieser Liste effizient finden. Zwei...

0 Replies

16 Views

Last post by Anonymous
10 Apr 2025, 08:07

Return to “Python”