معلومة

رقم نسخة BLAST المحلي لكل ضربة

رقم نسخة BLAST المحلي لكل ضربة


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لقد قمت بإنشاء سلسلة من قواعد بيانات BLAST المحلية باستخدام makeblastdb لبيانات metagenomic وأنا أبحث عن وجود جين معين. بينما يمكنني إجراء تحليل بلاست العادي بالنظر إلى القيم الإلكترونية ، والهوية٪ ، وما إلى ذلك ، لم أتمكن من معرفة كيفية تحديد عدد المرات التي يوجد فيها تسلسل معين في قاعدة البيانات.

لذلك: بالنظر إلى قاعدة بيانات بلاست لبيانات ميتاجينومية حيث قد يوجد جين معين عدة مرات ، كيف يمكنني تحديد رقم نسخة ضرب بلاست معين؟

شكرا لك مقدما.


  • حدد "نتيجة" (بناءً على بعض التقييم النهائي والنتيجة وما إلى ذلك)
  • احصل على الإخراج بتنسيق جدولي
  • عدد مرات الوصول لكل استعلام - يتم تقديمه عادةً في الرأس ؛ إذا كنت تريد البحث عن بعض النتائج المحددة (بناءً على بعض القطع ، فيمكنك تحليل الملف ومعرفة ذلك)

ملف مثال (رأس):

# BLASTN 2.2.27+ # Query: TCONS_00036712 gene = XLOC_017996 # Database:… / nt_db / nt # الحقول: معرف الاستعلام ، معرف الموضوع ، الهوية٪ ، طول المحاذاة ، عدم التطابق ، تفتح الفجوة ، q. ابدأ ، ف. النهاية ، س. ابدأ ، s. النهاية ، التقييم ، تم العثور على نتيجة البت # 1014

إذا كنت تريد تحليل العنوان للبحث عن عدد مرات الدخول ، فيمكنك تشغيل هذا الأمر في المحطة (إذا كان لديك awk - هناك افتراضيًا في نظام Linux والأنظمة الأخرى القائمة على نظام unix. بالنسبة لنظام التشغيل windows ، قم بتثبيت gnuwin32).

awk -v OFS = " t" '/ ^ # Query / {q = $ 3 FS $ 4} / ^ #. * تم العثور على النتائج / {h [q] = $ 2} END {لـ (i in h) {print i، h [i]}} 'blastoutput.txt

للحصول على عدد النتائج لمعيار معين (على سبيل المثال ، قمت للتو بتعريف bitscore [العمود الثاني عشر] ليكون> ​​400)

awk -F " t" '! / ^ # / && $ 12> 400 {a [$ 1] ++} END {لـ (i in a) {print i، a [i]}}' blastoutput.txt

إن بلاست ليس البرنامج الصحيح لاستخدامه في تحليلات الميتاجينوميات لتحديد عدد القراءات التي تحدد منطقة معينة من الجينوم ، حيث تم تحسينه للزيارات الفردية بدلاً من عدد كبير من الزيارات المختلفة.

من المحتمل أن يتسبب العدد الهائل من الزيارات داخل قاعدة بيانات metagenomics (التي تحتوي على كمية كبيرة من البيانات الزائدة عن الحاجة) في تحجيم غير فعال واستخدام عالي للذاكرة عندما يكون اكتشاف جميع الزيارات المحتملة مطلوبًا.

إذا كان عدد النتائج المطلوبة منخفضًا ، فمن الممكن أن تعيد هذه النتائج ، ولكن إذا كنت تبحث عن> 1000 نتيجة ، فمن المحتمل أن يوصى باستخدام برنامج مصمم الخرائط مثل BWA أو Bowtie. تم تصميمها لغرض صريح وهو تعيين القراءات (مثل من تجربة RNASeq) على الجينوم.


الاقتباس: Kerfeld CA ، Scott KM (2011) استخدام بلاست لتدريس مفاهيم "القيمة الإلكترونية". بلوس بيول 9 (2): e1001014. https://doi.org/10.1371/journal.pbio.1001014

محرر المسلسل: شيريل أ. كيرفيلد ، جامعة كاليفورنيا بيركلي / جي جي آي ، الولايات المتحدة الأمريكية

نشرت: 1 فبراير 2011

حقوق النشر: © 2011 كيرفيلد ، سكوت. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ بأي وسيلة ، بشرط ذكر المؤلف الأصلي والمصدر.

التمويل: يتم دعم أنشطة تطوير المناهج الدراسية لـ CAK و KMS جزئيًا من خلال منحة تحدي التعليم العالي التابعة لوزارة الزراعة الأمريكية ، MOE-2008-02036 ، بالإضافة إلى NSF MCB-0643713 إلى KMS. عمل CAK في JGI تحت رعاية مكتب العلوم والبحوث البيولوجية والبيئية التابع لوزارة الطاقة الأمريكية ، ومن قبل مختبر لورانس بيركلي الوطني التابع لجامعة كاليفورنيا بموجب العقد رقم DE-AC02-05CH11231 ، لورانس ليفرمور ناشيونال المختبر بموجب العقد رقم DE-AC52-07NA27344 ، ولم يكن للممولين أي دور في تصميم الدراسة أو جمع البيانات وتحليلها أو اتخاذ قرار بنشر المخطوطة أو إعدادها.

تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.

الاختصارات: أأ ، حمض أميني بلاست ، أداة البحث عن المحاذاة المحلية الأساسية NCBI ، المركز الوطني لمعلومات التكنولوجيا الحيوية nt ، نوكليوتيد


ما هي القيمة الإلكترونية؟

من الممارسات القياسية لتقييم التماثل الأساسي لتسلسل الجينات المحاذاة المحلية (على سبيل المثال ، NCBI & # 8217s BLAST) ، حيث تتم مطابقة تسلسل الإدخال (الاستعلام & # 8220 & # 8221) مع تسلسل معين (& # 8220hit & # 8221 ) في قاعدة بيانات التسلسلات. المقياس الأكثر شيوعًا لتحديد أهمية المحاذاة بين طلب البحث والنتيجة الخاصة به هو القيمة الإلكترونية. نظرًا لوجود هذه المعلمة في كل مكان ، إليك دليل موجز لشرح ماهيتها وكيفية استخدامها & # 8217s.

ما هي القيمة الإلكترونية؟
القيمة الإلكترونية (اختصار للقيمة المتوقعة) هي حساب لعدد التسلسلات في قاعدة البيانات التي يُتوقع ، بالصدفة في بحث عشوائي ، أن تتماشى مع الاستعلام بشكل متساوٍ أو أكثر أهمية من النتيجة التي تم العثور عليها. يعكس التكرار الذي ستجده مطابقًا أو أفضل تطابقًا في قاعدة البيانات لتسلسل الاستعلام الخاص بك. في الواقع ، القيمة الإلكترونية هي تقدير للضربة التي تم اختيارها بسبب ضوضاء الخلفية العشوائية.

ماذا تعني القيمة وما مدى القيم الإلكترونية الممكنة؟
تعني القيمة الإلكترونية 1.0 أنك تتوقع أن يتطابق تسلسل واحد في قاعدة البيانات مع الاستعلام أيضًا أو أفضل من النتيجة التي وجدتها. تعني القيمة الإلكترونية التي تبلغ 0.0 أن التسلسلات الصفرية يمكن / من المتوقع أن تتطابق أيضًا أو أفضل كلما اقتربت القيمة الإلكترونية من الصفر ، كلما كانت المطابقة أكثر أهمية (وأقل من الإيجابية الخاطئة المحتملة).

على الرغم من أن القيم الإلكترونية يمكن أن تتراوح من صفر إلى ما لا نهاية نظريًا ، فإن معظم القيم الإلكترونية ستكون رقمًا عشريًا بين 0 و 1 ، ممثلة بالتدوين العلمي (على سبيل المثال ، 1e-05 = 0.00001). لا تعتبر المطابقات فوق 1.0 في معظم الأحيان مهمة (الحد الافتراضي لـ blastn ، البحث الأكثر شمولاً NCBI BLAST ، هو 10.0). هذا لا يعني أنها ليست متسلسلة متماثلة محتملة ، فقط أن البحث العشوائي من المتوقع أن يعثر على عدة مرشحين أفضل.

ما الذي يدخل في حساب القيمة الإلكترونية؟
القيمة الإلكترونية = K * m * n * e (-* S)
K ، λ = الثوابت بناءً على مصفوفة التسجيل m ، n = أطوال التسلسلين S = درجة المحاذاة ، والتي يتم حسابها بناءً على المحاذاة الناتجة (تتضمن التطابقات ، عدم التطابق ، الفجوات ، إلخ).

لذلك ، تعتمد القيمة الإلكترونية في الغالب على طول التسلسلات وحجم قاعدة البيانات ودرجة المحاذاة المشتقة. يشير هذا إلى أن التسلسلات الأقصر ، خاصةً ذات التعقيد الأقل ، أقل احتمالًا لأن تتم مطابقتها بشكل كبير (وغالبًا ما يتم تصفيتها). علاوة على ذلك ، لا يمكن مقارنة القيم الإلكترونية المشتقة من عمليات البحث عبر قواعد البيانات ذات الأحجام المختلفة. تعد القيمة الإلكترونية 6e-32 من البحث في قاعدة بيانات صغيرة أقل أهمية من القيمة الإلكترونية 6e-32 من قاعدة بيانات كبيرة مع نمو قاعدة البيانات ، ويزداد احتمال وجود تسلسل متماثل حقًا جنبًا إلى جنب ، وبالتالي تقل احتمالية وجود إيجابية كاذبة.

هل القيمة الإلكترونية هي نفس القيمة الاحتمالية؟
لا ، القيمة الإلكترونية هي مقياس تردد ، في حين أن القيمة p هي مقياس احتمالية. على الرغم من أن كلا المقياسين يعكسان أهمية محاذاة نتيجة الاستعلام ، فإن القيمة الإلكترونية تمثل عدد المحاذاة الأفضل التي يُتوقع حدوثها بالصدفة ، بينما تمثل القيمة p احتمال حدوث المطابقة المعنية بالصدفة. (من الناحية الإحصائية ، القيمة الإلكترونية هي تصحيح اختبار متعدد للقيمة p.)

يستخدم NCBI القيمة الإلكترونية كمعيار لأنه يوفر قدرًا أكبر من الوضوح والتفصيل & # 8220 من الأسهل فهم الفرق بين ، على سبيل المثال ، القيمة الإلكترونية 5 و 10 من قيم p 0.993 و 0.99995. يمكن استخدامها ، ولكن كن على دراية بما تستخدمه ولماذا ، لأنها تمثل أشياء مختلفة.


الدورة التعليمية

مقدمة
يتم ترميز العديد من المسارات والأنظمة الكيميائية الحيوية في الطبيعة ، خاصةً في بدائيات النوى والفطريات ، بواسطة الجينات الموجودة فعليًا بالقرب من بعضها البعض على الكروموسوم ، في الأوبرونات أو عناقيد الجينات. تجمع MultiGeneBlast بين عمليات البحث الأساسية لأداة البحث عن المحاذاة المحلية (BLAST) للعديد من البروتينات المتوقعة وتعيين نتائجها على سقالات النيوكليوتيدات الأصلية. يمكن استخدام هذا إما للعثور على عوامل أو مجموعات جينية متماثلة مع عامل أو مجموعة جينية معروفة (مع وضع بحث التماثل) ، أو للعثور على مواضع جينومية جديدة تحتوي على مجموعة معينة من الجينات يحددها المستخدم (مع وضع البحث المعماري) . يمكن تشغيل MultiGeneBlast باستخدام واجهة مستخدم رسومية أو من سطر الأوامر. ستشرح الأقسام الأولى من هذا البرنامج التعليمي كيفية استخدام الأداة باستخدام واجهة المستخدم الرسومية. سيشرح القسم الأخير كيفية استخدامه من سطر الأوامر.


نظرة عامة: المدخلات وقواعد البيانات والمخرجات

يتكون إدخال بحث التماثل من ملفات إدخال نيوكليوتيدات GenBank أو EMBL جنبًا إلى جنب مع إحداثيات البداية والنهاية لمنطقة الاستعلام أو قائمة الجينات (علامات الموضع أو أرقام الانضمام) من الإدخال الذي سيشكل استعلام البحث. بالنسبة لبحث معماري ، يتكون الإدخال من ملف FASTA يحتوي على العديد من مدخلات تسلسل الأحماض الأمينية. عند إعداد بحث ، يمكن تحميل ملف إدخال عن طريق تحديد "فتح ملف الإدخال" في قائمة "ملف". قاعدة البيانات التي يتم البحث عنها بواسطة MultiGeneBlast هي نسخة خاصة من قاعدة بيانات بروتين NCBI Blast + العادية ، وتحتوي أيضًا على ملفات (* .cords.tar ، * .pinfo.tar ، * _all_descrs.txt) تحتوي على معلومات عن إدخال النيوكليوتيدات الأصل لكل منها البروتين وموقع الجين الخاص به على دخول النيوكليوتيدات هذا. يمكن تحميل قاعدة البيانات بالنقر فوق "تحديد قاعدة بيانات" في قائمة "ملف". سوف تشرح الفقرات التالية كيفية الحصول على ملفات الإدخال لبحثك ، وكذلك كيفية الحصول على قاعدة بيانات بحث مناسبة.


تحضير ملف الإدخال الخاص بك
استخدام ملف EMBL أو GenBank موجود على نظامك إذا كنت تريد إجراء بحث تجانس مع منطقة جينومية يحتويها ملف نيوكليوتيد EMBL أو GenBank على نظامك ، فلا داعي للتحضير ، طالما أن هذا الملف يحتوي على كل من تسلسل الحمض النووي للمنطقة والتعليقات التوضيحية لميزات CDS (مناطق الترميز). إذا كان تسلسل DNA أو تعليقات CDS مفقودة من الملف ، فيمكنك استخدام أحد الأوضاع البديلة للحصول على إصدار مناسب من ملفك ، كما هو مذكور أدناه.

تنزيل إدخال GenBank من اختيارك
إذا كانت المنطقة الجينومية التي تختارها موجودة في إدخال نوكليوتيد في قاعدة بيانات GenBank (كما هو الحال ، على سبيل المثال ، بالنسبة لمعظم تسلسلات الجينوم المنشورة إن لم يكن جميعها) ، فيمكنك البحث عن الإدخال بالنقر فوق "تنزيل إدخال GenBank" من قائمة تنزيل . إذا أردت بعد ذلك ، على سبيل المثال ، البحث عن متماثلات لأوبون menaquinone من Bacillus subtilis ، والتي تم استنساخها وتسلسلها ، فيمكنك إدخال menaquinone ككلمة رئيسية و “Bacillus subtilis” باعتبارها الكائن الأصلي ، وعدد من التطابقات ستظهر في نافذة البحث. بعد تحديد الإدخال الذي تختاره (والذي ، في هذه الحالة ، قد يكون أيضًا تسلسل جينوم B. subtilis الكامل) ، يمكنك تنزيله بالنقر فوق الزر "تنزيل".

إنشاء ملف EMBL من بيانات التسلسل غير المشروحة وجدول التعليقات التوضيحية (مستخدمون خبراء) إذا كانت لديك بيانات التسلسل الخاصة بك والتعليقات التوضيحية للجينات ، والتي لم يتم شرحها بتنسيق GenBank أو EMBL حتى الآن ، فقد تم توفير نص Python (format_embl.py) لإنشاء ملف EMBL من ملف Nucleotide FASTA يحتوي على تسلسل الجينوم الخاص بك أو contig وملف TXT يحتوي على مواضع وشروح الجينات. يوجد البرنامج النصي في المجلد format_embl .
يمكن استخدام البرنامج النصي على النحو التالي:
1. قم بإعداد ملف TXT محدد بعلامات جدولة - annotationtable.txt يحتوي على جدول يحتوي على معلومات عن كل exon / جين منظم في الأعمدة التالية: 1) اسم ملف contig FASTA أو تسلسل الجينوم ، 2) علامة موضع الجين (يجب أن تكون فريدة) ، 3) 5 exon أو gene start، 4) 3 exon or gene end، 5) gene noteation.
2. انسخ جدول الملاحظات والتعليمات وملفات FASTA الخاصة بتسلسل contig أو الجينوم إلى مجلد format_embl .
3. في سطر الأوامر ، اكتب python format_embl.py . لكي يعمل هذا الأمر ، يجب أن يكون لديك Python مثبتًا على جهاز الكمبيوتر الخاص بك. إذا كنت تستخدم نظام Windows ، فستحتاج أيضًا إلى إضافة دليل تثبيت Python إلى متغير بيئة PATH.
4. إذا انتهى البرنامج النصي بنجاح ، فسيتم إنشاء ملف EMBL لتسلسل الجينوم أو contig الخاص بك ، والذي يمكنك استخدامه كمدخل لـ MultiGeneBlast.
يتم توفير أمثلة لملفات TXT و FASTA مع تنزيل MultiGeneBlast وهي موجودة في الدليل format_embl .

تحضير ملف FASTA متعدد المدخلات لبحث معماري
يمكن بسهولة إجراء ملف FASTA متعدد المدخلات لاستخدامه كمدخلات للبحث عن بنية في أي محرر نصوص ، مثل Notepad (Windows) ، TextPad (Windows) ، Notepad ++ (Windows) ، TextEdit (Mac OS X) ، Aquamacs ( Mac OS X) أو Kate (Linux) أو gedit (Linux). يجب أن يبدأ كل إدخال لـ FASTA بسطر يحتوي على علامة ">" ، متبوعًا بالوصف في السطر أو الأسطر أدناه ، يمكنك بعد ذلك لصق تسلسل الحمض الأميني للجين الذي يهمك. يمكن العثور على تسلسلات البروتين بسهولة من خلال البحث عنها على بوابة NCBI Protein ثم النقر فوق رابط FASTA أسفل وصف الإدخال. عند الانتهاء من إنشاء ملف إدخال FASTA ، تقوم بحفظه كنوع ملف "All Files (*. *)" بالملحق .fasta . ومن ثم ، يجب تسمية اسم الملف الخاص بك بشيء مثل “yourfastafile.fasta”.


تجهيز قواعد بيانات البحث الخاصة بك
تتوفر عدة خيارات لتنزيل أو إنشاء قواعد بيانات MultiGeneBlast. بادئ ذي بدء ، تتوفر قاعدة بيانات MultiGeneBlast مع جميع الإدخالات من GenBank للتنزيل باستخدام واجهة المستخدم الرسومية أو من هذا الموقع. ثانيًا ، يمكنك إنشاء قاعدة بيانات MultiGeneBlast من الملفات المحلية الموجودة على جهاز الكمبيوتر الخاص بك. ثالثًا ، يمكنك تصميم قاعدة بيانات من إدخالات GenBank متعددة من خلال البحث عنها على خادم NCBI ، وبعد ذلك تقوم MultiGeneBlast بتنزيلها وإنشاء قاعدة بيانات. أخيرًا ، يمكن إنشاء قاعدة بيانات عن طريق تحديد مجموعة فرعية من أقسام GenBank ، وبعد ذلك تتصل MultiGeneBlast بخادم NCBI FTP وتنزيل هذه الأقسام وإنشاء قاعدة بيانات MultiGeneBlast للخروج منها.

تنزيل قاعدة بيانات MultiGeneBlast GenBank العامة للراحة ، تتوفر قاعدة بيانات MultiGeneBlast التي تحتوي على جميع تسلسلات الأحماض الأمينية من GenBank للتنزيل. يمكن تنزيل هذا ببساطة بالنقر فوق "تنزيل قاعدة بيانات MGB Genbank" في قائمة "تنزيل". بطبيعة الحال ، يتمتع استخدام قاعدة البيانات هذه بميزة تمكين البحث الشامل عن مساحة التسلسل المتاحة بالكامل ، ومع ذلك فإن لها عيبًا يتمثل في أن تشغيلها يستغرق وقتًا طويلاً ويحتاج إلى قدر كبير جدًا من ذاكرة النظام.

إنشاء قاعدة بيانات بحث من ملفات EMBL / GenBank المحلية
إذا كان لديك بيانات التسلسل الخاصة بك والتي تريد البحث فيها عن عوامل أو مجموعات جينية معينة ، فيمكنك بسهولة إنشاء قاعدة بيانات من ملفات التسلسل الخاصة بك. للقيام بذلك ، انقر فوق "إنشاء قاعدة بيانات من ملفات" في قائمة "قاعدة بيانات". في النافذة التي تظهر بعد ذلك ، يمكنك النقر فوق الزر "إضافة ملفات" لتحديد الملفات التي تريد إضافتها إلى اختيارك. بمجرد أن تكون راضيًا عن اختيارك ، انقر فوق الزر "إنشاء قاعدة بيانات" لإنشاء قاعدة البيانات الخاصة بك. إذا كنت ترغب في استخدام خوارزمية tblastn مباشرة على تسلسل النيوكليوتيدات الخام في بياناتك بدلاً من استخدام خوارزمية blastp للبحث عن التماثل في الجينات المشروحة ، يمكنك تحديد خانة الاختيار في الأسفل: إنشاء قاعدة بيانات نيوكليوتيد خام للبحث عن tblastn. . سيسمح لك هذا أيضًا بإضافة تسلسل FASTA للنيوكليوتيدات الخام. يتوفر الخيار نفسه أيضًا في نوافذ إنشاء قاعدة البيانات الأخرى.

إنشاء قاعدة بيانات بحث من إدخالات GenBank على خادم NCBI
في كثير من الأحيان ، لن تكون إدخالات GenBank التي ترغب في تصميم قاعدة البيانات الخاصة بك منها موجودة محليًا على جهاز الكمبيوتر الخاص بك. عند النقر فوق "إنشاء قاعدة بيانات من إدخالات GenBank عبر الإنترنت" في قائمة "قاعدة البيانات" ، ستظهر نافذة يمكنك من خلالها البحث عن إدخالات GenBank ونقل الإدخالات التي تهتم بها إلى التحديد الذي يتم عرضه أسفل النافذة. يمكنك الاستمرار في البحث عن الإدخالات وإضافتها حتى تشعر بالرضا عن اختيارك ، وبعد ذلك يمكنك النقر فوق الزر "تنزيل وإنشاء قاعدة بيانات" لجعل MultiGeneBlast تتصل بخادم NCBI ، وتنزيل الإدخالات وتجميعها في قاعدة بيانات.

إنشاء قاعدة بيانات بحث من مجموعة فرعية من أقسام GenBank
في بعض الحالات ، قد لا تناسب قاعدة بيانات GenBank MultiGeneBlast المنشأة مسبقًا احتياجاتك تمامًا ، بينما تريد البحث ضمن مساحة بحث عالمية نسبيًا. على سبيل المثال ، إذا كنت تعمل على البكتيريا ، فقد لا يكون لديك اهتمام كبير بإيجاد تماثلات بعيدة مع جينومات النبات. ومن ثم ، يسمح لك MultiGeneBlast بإنشاء قواعد بيانات من مجموعات فرعية محددة من أقسام GenBank. عند النقر فوق "إنشاء قاعدة بيانات من أقسام GenBank الفرعية" ، ستظهر نافذة تحديد يمكنك من خلالها تحديد الأقسام التي تهتم بها. بعد النقر فوق "إنشاء قاعدة بيانات" ، سيتصل MultiGeneBlast بدليل GenBank على خادم NCBI FTP ، قم بتنزيل الملف المقابل الملفات وإنشاء قاعدة بيانات.


إعداد تشغيل MultiGeneBlast الخاص بك
عندما تقوم بإنشاء أو تنزيل قاعدة البيانات الخاصة بك وإعداد ملف الإدخال الخاص بك ، فأنت على استعداد لبدء البحث. كبداية ، عليك تحديد نوع البحث الذي تريد القيام به عن طريق النقر فوق زر الاختيار المقابل. بعد ذلك ، يمكنك تحميل ملف الإدخال وقاعدة البيانات باستخدام الخيارات المقابلة في قائمة "ملف".
إذا كنت تقوم بإعداد بحث homology ، فهذا هو الوقت الذي تحدد فيه المنطقة من ملف الإدخال الذي سيشكل استعلام البحث الخاص بك. يمكنك تحديد المنطقة المختارة إما باستخدام أشرطة مقياس لموضع بداية النيوكليوتيدات وموضع نهاية النوكليوتيدات ، أو باستخدام أداة اختيار الجينات أدناه. عند استخدام مواضع الجينوم لتحديد منطقة الاستعلام الخاصة بك ، يمكنك البحث عنها عن طريق فحص إدخال GenBank الخاص بمدخلاتك عبر الإنترنت أو عن طريق فتح ملف الإدخال في محرر نصي. احرص على تحديد مواضع البداية والنهاية بدقة ، بحيث يكون بحثك محددًا ولن يستهلك موارد حسابية غير ضرورية. عندما تعرف أسماء الجينات أو علامات الموقع التي تغطي منطقة الاستعلام المقصودة ، فمن الأسهل غالبًا تحديد منطقة الاستعلام الخاصة بك عن طريق النقر فوق الزر "تحديد الجينات". سيؤدي هذا إلى فتح نافذة يمكنك من خلالها تحديد الجينات التي تختارها. يتيح لك الضغط على مفتاح Shift أثناء التحديد تحديد مجموعة كاملة من الجينات مرة واحدة ، ويسمح لك الضغط على مفتاح التحكم بدمج تحديدات متعددة. استخدام اختيار الجينات لتحديد استعلام البحث الخاص بك له ميزة أنه يمكنك "تخطي" الجينات الموجودة في منتصف مشغل أو مجموعة جينية ولكنها ذات أهمية أقل.
أخيرًا ، بعد إدخال اسم لدليل الإخراج الذي سيتم تخزين النتائج فيه (داخل مجلد تثبيت MultiGeneBlast) ، يمكنك تغيير الإعداد الافتراضي لعدد من معلمات البحث:

- عدد نوى وحدة المعالجة المركزية التي سيتم استخدامها: يمكنك تغيير عدد نوى المعالج في نظامك الذي تريد تخصيصه لوظيفة MultiGeneBlast. إذا كنت لا تزال ترغب في استخدام الكمبيوتر لأشياء أخرى أثناء التشغيل ، فمن المستحسن ترك معالج واحد على الأقل مجانًا.
- عدد ضربات الانفجار لكل جين سيتم تعيينه: يمكنك تحديد الحد الأقصى لعدد زيارات الانفجار لكل جين سيتم تعيينه إلى مناطق الجينوم الأصل. في معظم الحالات ، 250 كافية. ومع ذلك ، إذا كنت تريد أن تكون متأكدًا تمامًا من أن بحثك شامل ، فيمكنك تحديد 500 أو 1000. من ناحية أخرى ، إذا كنت مهتمًا فقط بأقرب متماثلات ، فقد يكون 50 كافيًا ، مما يقلل من وقت الحساب للتشغيل في معالجة.
- وزن الحفظ التخليقي في فرز الضربات: العامل الذي يحدد الوزن الذي يحتفظ به الحفظ التخليقي في فرز مجموعات الجينات المصابة. تعطي الدرجة 0.5 0.5 نقطة لكل زوج من الجينات المتجاورة مع تخليق محفوظ ، بينما يؤدي وجود متماثلات الجينات نفسها إلى نقطة واحدة لكل جين.
- الحد الأدنى من تغطية التسلسل لضربات بلاست: باستخدام هذا الخيار ، يمكنك تحديد حد أدنى للنسبة المئوية الدنيا لجين الاستعلام المتضمن في ضربة انفجار لضربة انفجار يجب أخذها في الاعتبار في التحليل.
- الحد الأدنى للهوية٪ من نتائج بلاست: باستخدام هذا الخيار ، يمكنك تحديد حد أدنى لهوية النسبة المئوية لضربة بلاست ليتم أخذها في الاعتبار في التحليل.
- الحد الأقصى للمسافة بين الجينات في الموضع: يسمح لك هذا بتحديد مدى التباعد بين الجينات ذات ضربة الانفجار التي يُسمح لها بحسابها كموقع جينومي واحد في النتائج. عيّن هذا إلى قيمة منخفضة إذا كنت تبحث عن معاملات مقترنة بإحكام أو قم بتعيينها على قيمة عالية إذا كنت تبحث عن مناطق جينومية عامة.
- عدد مواقع الدخول المراد عرضها: يحدد هذا الحد الأقصى لعدد صفحات الإخراج (50 زيارة لكل صفحة).
- محاذاة العضلات للمتجانسات مع الاستفسارات: عند تحديد هذا المربع ، سيتم إنشاء محاذاة العضلات لكل جين استعلام مع جميع المتماثلات المكتشفة. يمكن أن يكون هذا مرجعًا جيدًا لمعرفة التشابه بين الجينات على مستوى التسلسل ، ويمكن تحميله بسهولة في أداة مثل MEGA لإنشاء شجرة النشوء والتطور.


عند الانتهاء من إعداد التشغيل الخاص بك ، انقر فوق تشغيل MultiGeneBlast لبدء البحث. ستظهر نافذة ستطلعك بانتظام على الحالة الحالية لعملية البحث.


قراءة وتفسير المخرجات
عند انتهاء البحث ، سيتم فتح نافذة متصفح بها تصور لنتائج البحث ، مع نظرة عامة مصنفة على المناطق الجينومية التي تتطابق بشكل أفضل مع استعلامك. إذا لم تظهر أي نافذة متصفح ، فيمكنك أيضًا فتح الملف "displaypage1.xhtml "يدويًا في مجلد النتائج (داخل دليل MultiGeneBlast) باستخدام المستعرض الخاص بك.

لكل نتيجة ، سيعرض الناتج إجمالي نقاط MultiGeneBlast (المكونة من عدد مرات الوصول إلى BLAST المطابقة لمجموعة الحدود وعدد أزواج الجينات المتجاورة مع التزامن المحفوظ) بالإضافة إلى مجموع نقاط BLAST التراكمية. تمثل ألوان أسهم الجينات تماثل بلاست. إذا كانت جينات الاستعلام المتعددة متجانسة مع بعضها البعض ، يتم تجميعها مع جيناتها الضاربة في مجموعة تماثل واحدة بنفس اللون. تمثل أسهم الجينات البيضاء الجينات (المحيطة) دون أن يضرب Blast الاستعلام.
عند النقر فوق الجين ، ستظهر لوحة تقدم شرحًا توضيحيًا للجين وموقعه وتفاصيل أي انفجار عليه بواسطة جينات الاستعلام. أيضًا ، يتم توفير رابط يفتح علامة تبويب متصفح جديدة لإدخال هذا الجين كاستعلام في نموذج البحث عن جين واحد BlastP بحث من خادم NCBI.

لإلقاء نظرة فاحصة على أوجه التشابه بين مجموعة جينات الاستعلام ومجموعة الجينات الناتجة ، يمكن استخدام مربع التحديد في الأعلى. عند تحديد مجموعة جينية ، يتم عرض SVG مكبرة لمجموعة جينات الاستعلام مع مجموعة الجينات هذه في نافذة المتصفح. للرجوع إلى نتائج البحث الإجمالية ، انقر فوق الزر عرض الكل على اليمين. للتنقل بين صفحات النتائج مع المزيد من النتائج ، يمكن استخدام الروابط الموجودة أعلى نافذة الإخراج.


الاستنتاجات

كان تركيز هذا الإصدار الأولي من خادم الويب HMMER على السرعة وتقليل وقت الاستجابة. تستغرق معظم عمليات البحث 1-2 ثانية للبحث في أكبر قواعد البيانات المستهدفة. هدفنا على المدى الطويل هو تقليل أوقات البحث إلى أبعد من ذلك ، بحيث تتراوح أوقات البحث النموذجية بين 100 و 200 مللي ثانية ، وهو ما يعتبره المستخدمون البشريون بمثابة تفاعل في الوقت الفعلي تقريبًا. سيسمح هذا للمستخدمين باستكشاف مساحة تسلسل البروتين بشكل تفاعلي.

نخطط أيضًا لإضافة دعم لخوارزمية البحث الرابعة عن البروتين ، آلة ثقب ، في المستقبل القريب. يسمح هذا بإجراء عمليات بحث متكررة ، بدءًا من تسلسل استعلام واحد ، مماثل لـ PSI-BLAST (10).

نعتقد أن أهم مشكلة يجب معالجتها في المستقبل هي تصور نتائج البحث. كان الناتج المجدول بنمط الدُفعات مناسبًا في الأيام التي كانت فيها معظم عمليات البحث تسفر عن صفر أو مرة واحدة أو بضع مرات مشاهدة. اليوم ، مع تسلسل آلاف الجينوم ، تُرجع عمليات البحث النموذجية مئات وآلاف النتائج. غالبًا ما يتم حجب المطابقات الأكثر إفادة من خلال العديد من المطابقات مع التسلسلات الأقل وضوحًا في الكائنات التي يصعب الوصول إليها. الهدف الرئيسي في المستقبل بالنسبة لنا هو تطوير التصورات الرسومية التي تظهر النتائج المنظمة على أشجار النشوء والتطور. سيسمح هذا للمستخدمين بتصفح الكتل والكائنات الأكثر صلة مع إخفاء النتائج الأخرى مؤقتًا. من شأن مثل هذا النموذج أن يتآزر مع هدفنا المتمثل في تقليل أوقات البحث بترتيب آخر من حيث الحجم ، لأننا نستطيع تنظيم البحث وقواعد البيانات المستهدفة نفسها على طول خطوط التطور الوراثي. يمكن إجراء بحث أولي مقابل نسق "إطار" قياسي ، والذي يتكون من مجموعة فرعية من الكائنات الحية الممثلة المعروفة أو المميزة ، في عرض النتائج الأولية. لا يمكن إجراء عمليات البحث الأعمق اللاحقة ، والتي تم توسيعها لتشمل جميع التسلسلات ، إلا عندما يقوم المستخدم بالنقر لطلب نظرة أعمق على كليد معين. يوفر هذا النموذج أيضًا وصفة لإدارة النمو الأسي لقواعد بيانات التسلسل. من المتوقع أن تكون نسالة الإطار عبارة عن مجموعة متنامية ببطء من البروتينات المرجعية الكاملة ، في حين أن الانفجار الأسي لبيانات التسلسل الإضافية سيكون مخفيًا في الفروع الأصغر والأعلى دقة لتلك الشجرة.


رقم نسخة BLAST المحلي لكل ضربة - علم الأحياء

تصميم مسبار HiPR-FISH وتحليل الصور

تستخدم هذه المجموعة من الأكواد حزم مفتوحة المصدر ، بما في ذلك numpy و pandas و biopython و bioformats و javabridge و scikit-image و scikit-learn و scipy.

خطوط أنابيب تحليل الصور والبرامج النصية لتجارب HiPR-FISH

يتيح خط الأنابيب هذا تحليل الصور تلقائيًا لتجارب FISH متعددة الإرسال على المجتمعات الميكروبية. في معظم الحالات ، يكون خط الأنابيب الرئيسي هو سير عمل الثعبان. هناك أيضًا نصوص مستقلة مستخدمة لتحليلات محددة مقدمة في ورقتنا البحثية.

قبل تشغيل خط الأنابيب

  1. تثبيت Miniconda ،
  2. قم بتثبيت البيئة عن طريق تشغيل الأمر التالي
    conda env تخلق hiprfish python = 3.5
    كوندا تثبيت الباندا
    تثبيت Conda -c أناكوندا بيوبيثون
    كوندا تثبيت جافابريدج
    تثبيت conda -c bioconda python-bioformats

خط أنابيب تصميم المسبار لتجارب HiPR-FISH

نود أن نشكر Jakob Wirbel على مساعدتهم في اختبار خط أنابيب تصميم المسبار.

يتيح خط الأنابيب هذا تصميم مجموعات مسبار oligo المعقدة المستخدمة في تجارب FISH متعددة الإرسال على المجتمعات الميكروبية. خط الأنابيب الرئيسي هو سير عمل الثعبان. هناك نسختان من خط الأنابيب. تستخدم نسخة hiprfish-probe-design-الإجماع نهج الإجماع من خلال تصميم تحقيقات من تسلسل إجماع الأصناف لكل تصنيف. تصمم نسخة جزيء hiprfish-probe-design-design تحقيقات من كل جزيء 16S فردي من مجموعات بيانات تسلسل PacBio وتجميع جميع المجسات الفريدة للتقييم اللاحق. تقييم المسبار واختياره متطابقان في أي من الإصدارين.

يتطلب خط الأنابيب نسخة محلية من قاعدة بيانات 16SMicrobial من NCBI.


مناقشة

في هذا العمل قدمنا ​​OrthoFinder ، طريقة جديدة لاستدلال orthogroups. تركز طريقتنا على تعريف واضح لمجموعة تقويم العظام ، أي أن المجموعة المتعامدة تحتوي على جميع الجينات المنحدرة من جين واحد في آخر سلف مشترك للأنواع التي يتم تحليل جيناتها. يتجنب هذا التعريف الخلط بين الأصل المشترك ومعايير أخرى غير مكافئة ، مثل الحفظ الوظيفي. تم تصميم طريقتنا لمعالجة مشكلة الاستدلال المتعامد بدلاً من تصنيف العلاقات المتباينة التي تحدث بين الجينات الفردية داخل مجموعة تقويم العظام. يتم حل هذه العلاقات بشكل أفضل من خلال استنتاج مجموعات تقويم العظام أولاً باستخدام OrthoFinder ثم استخدام محاذاة تسلسل متعددة وطرق التطور في مجموعات تقويم العظام هذه.

السمتان الجديدتان الرئيسيتان لطريقتنا هما: (1) طريقة لإزالة انحياز طول الجين ومسافة النشوء والتطور تلقائيًا من درجات تشابه التسلسل و (2) طريقة جديدة لتحديد حدود تشابه التسلسل لمجموعة orthogroup. في الاختبارات التي تم إجراؤها على مجموعة البيانات المرجعية الوحيدة المتاحة للجمهور orthogroup (OrthoBench) ، تفوقت OrthoFinder على جميع طرق تعيين orthogroup الشائعة الاستخدام بنسبة تتراوح بين 8٪ و 33٪. علاوة على ذلك ، أظهرنا أن OrthoFinder قابلاً للتطوير وقويًا للجينات المفقودة النموذجية للجينومات غير المكتملة و من جديد تجميعات النسخ. البرنامج متاح مجانًا ويمكن أن يأخذ درجات BLAST المحسوبة مسبقًا كمدخلات مما يسهل الاختبار على أي معايير تم تطويرها حديثًا والتي تتوفر لها درجات BLAST المحسوبة مسبقًا.

نوضح أيضًا فائدة OrthoFinder من خلال توفير تصنيف جديد لجميع عوامل النسخ في جينومات النبات المتاحة والمتسلسلة بالكامل الموجودة في Phytozome V9. يجمع هذا التحليل 97.6٪ من 52744 عامل نسخ مفترض في مجموعات تقويم العظام. يحدد هذا التحليل الجديد ملايين العلاقات التي لم يتم الإبلاغ عنها من قبل ، مما يوفر رؤية جديدة للعلاقة وتطور عائلات جينات عامل النسخ في النباتات.

يدعم استنتاج أخصائيي تقويم العظام الكثير من الأبحاث البيولوجية الحديثة وهو من بين الخطوات الأولى في شرح وتحليل مشاريع تسلسل الجينوم والنسخة. نظرًا لأن تقنيات التسلسل أصبحت الآن ضمن ميزانيات معظم مجموعات البحث ، فإن موارد البيانات هذه تتزايد بسرعة. وبالتالي هناك حاجة لطريقة استدلال orthogroup تكون دقيقة وقوية وقابلة للتطوير ويمكن تشغيلها بسهولة بواسطة مجموعات بحثية مستقلة على موارد الحوسبة التقليدية. لا تتوفر العديد من طرق الاستدلال المتعامد للاستخدام العام ولكن يتم توفيرها كقواعد بيانات ثابتة (على سبيل المثال ، EggNog و TreeFam). وبالتالي ، فإن الأساليب الأكثر استخدامًا هي تلك التي تمكن الباحثين من تحليل موارد البيانات الخاصة بهم. مع وضع ذلك في الاعتبار ، تم تطوير OrthoFinder بهدف أن يكون سهل الاستخدام. يتم تنفيذ الطريقة كأمر واحد ، ولها الحد الأدنى من التبعيات وتتطلب كمدخلات فقط تسلسل البروتين الفردي ملفات FASTA لكل نوع يتم تجميعه. تقوم الخوارزمية بتنفيذ جميع العمليات الحسابية (بما في ذلك عمليات البحث بلاست وتجميع MCL) وإخراج المجموعات المتعامدة في كل من ملف نصي محدد بعلامة تبويب وبتنسيق مجتمع OrthoXML. الخوارزمية نفسها صغيرة وسريعة وفعالة للذاكرة ، مما يجعلها مناسبة للاستخدام على أجهزة كمبيوتر سطح المكتب التي تعمل بنظام Linux. يمكن العثور على مزيد من المعلومات حول الخوارزمية على [19] ويتوفر تطبيق مستقل للخوارزمية بموجب ترخيص GPLv3 على [20].


شكر وتقدير

ساهم جيريمي بوهلر وكريستوفر سوب (جامعة واشنطن ، سانت لويس) في تحسينات مهمة لتطبيقات Viterbi و Forward في HMMER2. ساهم Erik Lindahl (ستانفورد) في تنفيذ موجه SIMD الأول لـ HMMER2 ، لمعالجات PowerPC مع تعليمات VMX / Altivec. قام أليكس كوفنتري (كورنيل) ، وستيف جونسون (جامعة واشنطن ، وسانت لويس) ، وإيلون برتغالي (الجامعة العبرية) بعمل استكشافي أدى إلى مشروع HMMER3. ساهم Bjarne Knudsen (CLCbio ، الدنمارك) بالعديد من التحسينات والاقتراحات بناءً على تحليل دقيق لشفرة مصدر HMMER3. ساهمت Elena Rivas (Janelia Farm) بالعديد من التوضيحات والتحسينات على الكود المصدري في سياق إعادة تنفيذ جوهر HMMER3 لمتغيرات الانبعاث المستمرة لنمذجة أصوات الماوس. على الرغم من أن المساحة لا تسمح إلا بهذه الإقرارات الشخصية الموجزة ، إلا أن العديد من الآخرين قد ساهموا في تطوير HMMER3 ، كما أشكر هذا المجتمع الواسع من المطورين والمستخدمين. قدم جوران سيريك دعمًا بارعًا لموارد الحوسبة عالية الأداء الخاصة بـ Janelia Farm. قدمت هايدي هينينج ، نائبة المستشار العام لمعهد HHMI ، مساعدة قانونية لا تقدر بثمن في قضايا المصدر المفتوح. HMMER is a trademarked open source project supported by the Howard Hughes Medical Institute. I dedicate this paper to the memory of my colleague and friend Michael Farrar, principal software engineer on the HMMER3 project, who died unexpectedly in December 2010.


Local BLAST Copy Number per Hit - Biology

About FSA-BLAST

FSA-BLAST is a new version of the popular BLAST (Basic Local Alignment Search Tool) bioinformatics tool, used to search genomic databases containing either protein or nucleotide sequences. FSA stands for Faster Search Algorithm FSA-BLAST is twice as fast as NCBI-BLAST with no loss in accuracy. These speed gains are due to a range of improvements to the BLAST algorithm described in detail in recent scientific publications. The software is freely available for download and open source under the BSD license agreement.

The FSA-BLAST software is designed to be as similar as possible in usage to the NCBI-BLAST application. Results are output in an almost identical format. Most command line options are the same, and parameters such as word length, hit threshold, alignment dropoff and gapped alignment trigger are comparable to NCBI-BLAST. FSA-BLAST uses the exact same statistical analysis to evaluate E-values and normalized scores for alignments.

  • Protein vs protein (BLASTP) and nucleotide vs. nucleotide searches (BLASTN)
  • Query filtering using DUST and SEG low complexity filters
  • Reverse complement nucleotide searches
  • Karlin-Altschul alignment statistics
  • Control over a range of parameters including word length, hit threshold, multiple hit window size, ungapped and gapped dropoff, open and extend gap penalties, scoring matrix, match and mismatch penalties, number of reported/displayed alignments, and gapped alignment trigger score.
  • Protein collection clustering for faster BLASTP searches
  • XML and tabular output (New as of version 1.03)
  • Searches with multiple queries (New as of version 1.03)

Download and installing

FSA-BLAST is available for download as source code or precompiled binaries for x86 Linux and PowerMac G5 systems:

Decompress the above files using the following commands:

gzip -d fsablast105-source.tar.gz
tar -xf fsablast105-source.tar

To compile the software type:

Which will generate the following binaries:

Usage instructions

Before searching a collection, you will first need to format it using the formatdb tool provided with FSA-BLAST. Note that this tool is different from the formatdb application that comes with NCBI-BLAST which uses a different format. The tool will generate three files with extensions .data .sequences و .descriptions in the same directory as the collection. The following illustrates how to format a collection: ملاحظة: To format a collection for use with FSA-BLAST you will need the database to be in FASTA format. To convert a database from NCBI-BLAST format (with files extensions such as nhr, nin, nsq, phr, pin, and psq) back to FASTA format you will need to use the fastacmd tool that comes with the NCBI toolkit (in the /build directory).

Once the collection has been formatted you can search it with blast using a command such as follows: Which will produce output looking like: To view a complete list of BLAST parameters simple execute: To perform faster protein BLAST searches, you can cluster the collection using the العنقودية command: BLAST searches against the clustered database will then be faster. The amount of redundancy in the original collection will affect the speed increase obtained by clustering, although our experiments have shown a 22% speed increase when searching the GenBank NR database.

Also provided is a tool for converting a formatted collection back into FASTA format. The command:

will output the database to stdout in FASTA format.

أوراق

The following papers describe improvements to the BLAST algorithm used by FSA-BLAST to increase search speed without any loss in accuracy:

M. Cameron, H.E. Williams, and A. Cannane, ``Improved Gapped Alignment in BLAST'', IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1(3), 116-129, 2004. Download PDF

M. Cameron, H.E. Williams, and A. Cannane, ``A Deterministic Finite Automaton for Faster Protein Hit Detection in BLAST'', Journal of Computation Biology, 2005. To appear. تحميل PDF

M. Cameron and H.E. Williams, ``Comparing Compressed Sequences for Faster Nucleotide BLAST Searches'', manuscript in preparation.

M. Cameron, Y. Bernstein, H.E. Williams, ``Clustering Near-Identical Sequences for Fast Homology Search'', Proc. International Conference on Research in Computational Molecular Biology RECOMB. To appear. تحميل PDF

Y. Bernstein, M. Cameron, ``Fast Discovery of Similar Sequences in Large Genomic Collections'', Proc. European Conference on Information Retrieval ECIR. To appear. تحميل PDF


معلومات الكاتب

الانتماءات

Department of Microbiology and Molecular Genetics, Michigan State University, East Lansing, MI, 48824, USA

Taylor K. Dunivin & Ashley Shade

Environmental and Integrative Toxicological Sciences Doctoral Program, Michigan State University, East Lansing, MI, 48824, USA

Institute for Cyber-Enabled Research, Michigan State University, East Lansing, MI, 48824, USA

Program in Ecology, Evolutionary Biology and Behavior, Michigan State University, East Lansing, MI, 48824, USA

Department of Plant, Soil, and Microbial Sciences, Michigan State University, East Lansing, MI, 48824, USA

Plant Resilience Institute, Michigan State University, East Lansing, MI, 48834, USA



تعليقات:

  1. Humility

    في رأيي ، المعنى يتجلى من الرأس إلى أخمص القدمين ، قام المؤثر بضغط كل ما في وسعه ، وذلك بفضله!

  2. Samuka

    أعتقد أنك كنت مخطئا. أنا متأكد. نحن بحاجة إلى مناقشة. اكتب لي في رئيس الوزراء ، يتحدث إليك.



اكتب رسالة