معلومة

بيانات التعبير الجيني TCGA مفقودة المتطابقة الطبيعية


أحاول استخدام بوابة بيانات TCGA للحصول على بيانات التعبير الجيني للأنسجة السرطانية ، لكنني لست متأكدًا مما يعنيه "الورم المطابق الطبيعي".

ليس من الواضح بالنسبة لي ما إذا كانت القيم قد تمت مقارنتها بالفعل بنسيج تحكم (غير سرطاني) أو أن هناك عينة أخرى تعطي قيم الأنسجة السليمة. بافتراض أنها الأخيرة ، لا أرى هذه العينات في أي مكان.

هذه لقطة شاشة من الفلتر الخاص بي

http://www.clipular.com/c/5452873408184320.png ">


لم يتم تطبيع هذه القيم بالفعل لضوابط الأنسجة الطبيعية. لا يعني وضع علامة على الورم على أنه ورم طبيعي مطابق أن جميع المنصات المستخدمة بواسطة TCGA (التعبير ، CNV ، البروتين والميثيل) تحتوي على أنسجة طبيعية متوفرة - في معظم الحالات ، يتم شرح الأورام ذات القيم الطبيعية المتطابقة بسبب استدعاء الطفرة تم إجراء مقارنات الورم مقابل المقارنات العادية.

إذا كنت تبحث عن عناصر تحكم في الأنسجة العادية لنوع النظام الأساسي المحدد (RPPA في لقطة الشاشة) ، فستجدها تحمل علامة NT أو N. إذا كنت لا ترى أيًا من هذه الأوصاف ، فهذا يعني أن عينات الأنسجة الطبيعية لم تتم معالجتها باستخدام تلك المنصة.

لا يقوم TCGA بالكثير من تحليل الأنسجة الطبيعية لأي شيء آخر غير استدعاء الطفرات لأن المشروع يركز على تصنيف الأورام إلى مجموعات فرعية باستخدام أساليب غير خاضعة للرقابة ، في المقام الأول ، وبالتالي فإن جميع المقارنات التي يتم استخدامها بكثرة هي الورم مقابل الورم بعد التخصيص لأنواع فرعية.


يقوم مشروع TCGA بجمع الأورام الأولية والأعراف المتطابقة لكل مريض لكل مؤشر للسرطان ، وقد قام exome (WXS) بتوصيف هذه العينات ، والجينوم (WGS) يحدد مجموعة فرعية منها. في هذه الحالات ، يكون الورم الأساسي عبارة عن أنسجة يتم جمعها من الورم الرئيسي وعادة ما يكون الورم الطبيعي المتطابق عبارة عن عينات دم ، ولكن يمكن الحصول عليها من مسحة شدقية أو من مصدر آخر. كما يمكنك أن تتخيل ، سيكون من غير المنطقي فيما يتعلق بالتعبير اختبار التحكم المتطابق الذي ينشأ من نوع آخر من الأنسجة مثل الدم.

بالنسبة لبيانات التعبير ، تأتي غالبية البيانات من RNA-Seq والتنميط القائم على الصفيف لبيانات الورم الأولية ، وفي بعض الحالات التي تم فيها جمع الأنسجة الطبيعية المجاورة وتقديمها ، قامت TCGA أيضًا بتحديد هذه العينات. من المحتمل أن يكون هذا هو ما تراه باستخدام مرشح TN الخاص بك ، وعمومًا لماذا تواجه مشكلة في العثور على كميات مكافئة من المعايير المتطابقة مقارنة بعينات الورم الأولية لمشاريع التعبير.

بالمناسبة ، أطلقت الشركة التي أعمل بها مؤخرًا بوابة بيانات الجينوميات المجانية لمجتمع البحث تسمى GeenPool Reference. كجزء من ذلك ، قمنا بإيداع جميع TCGA RNA-Seq المتاح للجمهور. البيانات مع جميع البيانات الوصفية السريرية ذات الصلة متاحة بسهولة للتنقل واستخراج البيانات. ستتمكن بسهولة من معرفة كمية العينات والأزواج المتطابقة. إذا كنت مهتمًا ، يمكنك إلقاء نظرة على مشاريع البيانات المتاحة في مرجع GenePool هنا: http://www.stationxinc.com/reference-library

~ سانديب


اختيار عينات الأنسجة الطبيعية المرجعية الدقيقة لأبحاث السرطان باستخدام نهج التعلم العميق

غالبًا ما يتم استخدام عينات الأنسجة الطبيعية كعنصر تحكم لفهم آليات المرض ، ومع ذلك ، فإن جمع الأنسجة الطبيعية المتطابقة من المرضى أمر صعب في كثير من الحالات. في أبحاث السرطان ، على سبيل المثال ، لا توفر موارد السرطان المفتوحة مثل TCGA و TARGET عينات الأنسجة المتطابقة لكل نوع فرعي من السرطان أو السرطان. قام مشروع GTEx الأخير بتجميع عينات من الأفراد الأصحاء ، مما يوفر موردًا ممتازًا لهذا المجال ، ومع ذلك تظل جدوى استخدام عينات GTEx كمرجع دون إجابة.

أساليب

نقوم بتحليل بيانات RNA-Seq التي تتم معالجتها من نفس خط الأنابيب الحسابي وتقييم GTEx بشكل منهجي كمورد مرجعي محتمل. نحن نستخدم تلك السرطانات التي لها أنسجة طبيعية مجاورة في TCGA كمعيار للتقييم. لربط عينات الورم والعينات الطبيعية ، نستكشف أهم الجينات المتغيرة ، وخصائص مخفضة من تحليل المكون الرئيسي ، وميزات مشفرة من شبكة عصبية للتشفير التلقائي. نقوم أولاً بتقييم ما إذا كانت هذه الطرق يمكنها تحديد الأنسجة الأصلية الصحيحة من GTEx لسرطان معين ثم نسعى للإجابة عما إذا كانت توقيعات التعبير عن المرض متسقة بين تلك المشتقة من TCGA ومن GTEx.

نتائج

من بين 32 نوعًا من السرطانات TCGA ، يوجد 18 سرطانًا بها أقل من 10 عينات من الأنسجة الطبيعية المجاورة. من بين ثلاث طرق ، كان أداء التشفير التلقائي هو الأفضل في التنبؤ بالأنسجة الأصلية ، مع توقع 12 من 14 سرطانًا بشكل صحيح. سبب التصنيف الخاطئ لاثنين من أنواع السرطان هو أن أيا من العينات العادية المأخوذة من GTEx لا ترتبط جيدًا بأي عينات ورم في هذه السرطانات. يشير هذا إلى أن GTEx قد تطابق الأنسجة مع غالبية أنواع السرطان ، ولكن ليس كلها. أثناء استخدام المشفر التلقائي لتحديد العينات العادية المناسبة لإنشاء توقيع المرض ، وجدنا أن توقيعات المرض المشتقة من العينات العادية المختارة عبر أداة التشفير التلقائي من GTEx تتوافق مع تلك المستمدة من العينات المجاورة من TCGA في كثير من الحالات. ومن المثير للاهتمام ، أن اختيار أفضل 50 عينة مترابطة في الغالب بغض النظر عن نوع الأنسجة كان أداؤه جيدًا بشكل معقول أو أفضل في بعض أنواع السرطان.

الاستنتاجات

توضح النتائج التي توصلنا إليها أن العينات من GTEx يمكن أن تكون بمثابة عينات مرجعية طبيعية للسرطانات ، خاصة تلك التي لا تحتوي على عينات نسيج مجاورة متوفرة. النهج القائم على التعلم العميق يبشر باختيار عينات عادية مناسبة.


مقدمة

جينات التحكم الداخلي أو جينات التدبير المنزلي مهمة في الحصول على بيانات موثوقة وقابلة للتكرار من دراسات التعبير الجيني في السرطان (Eisenberg & amp Levanon ، 2013). يجب التعبير عن جينات الضبط الداخلي بكثرة وبشكل موحد عبر الورم والأنسجة الطبيعية وعبر ظروف تجريبية مختلفة (Janssens et al. ، 2004). سرطان منطقة الرأس والرقبة هو سادس أكثر أنواع السرطانات شيوعًا في جميع أنحاء العالم مع حدوث 550.000 حالة سنويًا (فيرلاي وآخرون ، 2010). تجادل الدراسات السابقة بعدم انتظام التعبير عن جينات الضبط الداخلي بناءً على الظروف التجريبية (De Jonge et al. ، 2007 Greer et al. ، 2010). على الرغم من وجود تقارير سابقة تصف المرجع أو جينات الضبط الداخلي في دراسات التعبير الجيني لسرطان الخلايا الحرشفية بالرأس والرقبة (Lallemant وآخرون ، 2009) ، فإن استخدام البيانات عالية الإنتاجية مثل المصفوفات الدقيقة و RNA-seq من الأورام و الأنسجة الطبيعية المتطابقة بعد تأكيد التعبير في مجموعة مستقلة من العينات ضئيلة في الأدبيات. بالإضافة إلى ذلك ، من الأهمية بمكان أن يظل التعبير عن جينات التحكم الداخلي دون تغيير عبر الظروف الزمنية والمكانية والتجريبية التي تأخذ في الاعتبار الجينات ذات النطاق الديناميكي الواسع للتعبير. لذلك ، إعادة النظر في صلاحية الجينات المستخدمة على نطاق واسع مثل ACTB, أنبوب، و جابده مطلوب جنبًا إلى جنب مع اكتشاف مجموعة الحد الأدنى من جينات التحكم الداخلي في دراسات التعبير الجيني HNSCC التي تستخدم بيانات التعبير من مجموعات المرضى من مناطق جغرافية مختلفة (Krishnan et al. ، 2015 ، 2016) واتحادات كبيرة مثل TCGA (شبكة أطلس جينوم السرطان ، 2015).

في هذه الدراسة ، قمنا بتحليل بيانات التعبير الجيني HNSCC من ثلاثة مصادر في بيت بيانات المصفوفة الدقيقة (كريشنان وآخرون ، 2015 ، 2016) (ن = 21) ، بيانات TCGA RNA-seq (شبكة أطلس جينوم السرطان ، 2015) (ن = 42) والبيانات الكمية في الوقت الفعلي PCR (qPCR) عن الجينات الفردية من الدراسات المنشورة سابقًا (Bär، Bär & amp Lehmann، 2009 Eisenberg & amp Levanon، 2013 Lallemant et al.، 2009 Martin، 2016 Vandesompele et al.، 2002) للتوصل إلى مجموعة من الجينات (مجموعة الاكتشاف) التي يتم التعبير عنها بثبات وقوة بأقل تباين عبر الورم: الأزواج الطبيعية. قمنا لاحقًا بالتحقق من صحة التعبير عن الاكتشاف الموجود في ورم إضافي: أزواج طبيعية (ن = 14) باستخدام qPCR وحصلت على الحد الأدنى من مجموعة من اثنين من جينات التدبير المنزلي من خلال مقارنة وترتيب تعبيرهما أثناء التحقق من الصحة.


نتائج

خريطة فيروسات الورم في 19 سرطانًا بشريًا

استخدمنا طريقتين تكميليتين لاكتشاف وقياس التعبير عن الفيروسات المعروفة والجديدة في الأورام (الشكل 1 أ ، الطرق). باختصار ، تمت تصفية مكتبات RNA-seq للمحتوى البشري ، وتم فحص التسلسلات المتبقية بحثًا عن تطابق مع مجموعة RefSeq الكاملة للجينومات الفيروسية (ن= 3590 باستثناء العاثيات). تم قياس كمية الرنا المرسال الفيروسي عن طريق حساب جزء القراءات الفيروسية (FVR) ، والتي تم تقديمها كأجزاء لكل مليون (جزء في المليون) من إجمالي حجم المكتبة. لتمكين الكشف عن السلالات المفقودة والفيروسات الجديدة ، نحن من جديد قراءات غير بشرية مجمعة في مقاطع متجاورة (contigs) تم شرحها مع السماح بتباعد تسلسل قوي. على أساس ذلك ، أضفنا جينومات فيروسية إضافية ، مثل أنواع الورم الحليمي المفقودة في RefSeq واثنين من الجينومات الجديدة المجمعة (الجدول التكميلي S1 والشكل التكميلي S1) ، للسماح بالقياس الكمي كما هو موضح أعلاه. تم استبعاد الحالات ذات تغطية القراءة الجينومية الفيروسية المقيدة بشكل غير طبيعي ، ربما بسبب آثار الحمض النووي المؤتلف (الطرق).

(أ) خط أنابيب التحليل. تمت مطابقة القراءات غير البشرية بقاعدة بيانات تضم 3590 جينومًا فيروسيًا لـ RefSeq ، والتي تم استكمالها بـ 12 جينومًا إضافيًا معروفًا و 2 جينومًا جديدًا جزئيًا تم اكتشافهما بواسطة من جديد تجميع القراءات الفيروسية. (ب) متضمن أنواع السرطان والإحصاءات. تُظهر الرسوم البيانية الشريطية جزءًا من الأورام ذات التعبير الفيروسي القوي (& gt10 جزء في المليون يقرأ الفيروس في المكتبة) بالإضافة إلى الاكتشافات الأضعف (2-10 جزء في المليون). (ج) الأعداد النسبية للأورام الإيجابية لفئات الفيروسات الرئيسية ، مع الكشف القوي والضعيف موضحة بشكل منفصل.

طبقنا خط الأنابيب الخاص بنا على مكتبات RNA-seq من 19 نوعًا من السرطانات ، بما في ذلك ما مجموعه 4433 ورمًا و 404 عناصر تحكم في الأنسجة الطبيعية تم تسلسل كل منها بمتوسط ​​عمق 151 مليون قراءة (الشكل 1 ب مكتبة إضافية وعينة من المعلومات في الجدول التكميلي S2) . حددنا 178 ورمًا باستخدام FVR (التعبير الفيروسي) و GT2 جزء من المليون ، لكن وجدنا أن معظم الحالات الإيجابية كانت لها مستويات أعلى بكثير (في المتوسط ​​168 وحتى 854 جزءًا في المليون ، النتائج الكاملة متاحة في البيانات التكميلية 1). من المتوقع ، أظهر CESC و LIHC أعلى نسبة من الأورام الإيجابية للفيروس (96.6٪ و 32.4٪ ، على التوالي ، و GT2 جزء من المليون) ، تليها سرطان الخلايا الحرشفية في الرأس والرقبة (HNSC ، 14.8٪ الشكل 1 ب). من جديد كشف التجميع عن فيروس الورم الحليمي البشري في أورام 15/18 CESC التي كانت سلبية في الأصل ، مما يدل على حساسية عالية للكشف عن الفيروسات المفقودة والجديدة. مقارنة مع حالة فيروس الورم الحليمي البشري كما هو محدد بواسطة فى الموقع أظهر التهجين في HNSC أن 8/8 عينة موجبة و 44/44 عينة سلبية تم تصنيفها بشكل صحيح بواسطة خط الأنابيب الخاص بنا.

شكلت فيروسات الورم المعروفة HPV و HBV الغالبية العظمى من الإشارات القوية و GT10 جزء في المليون. (90.5٪ شكل 1 ج). في المقابل ، يطابق في 2-10 مساءً. كان النطاق غالبًا بسبب HHVs المعروف أنها تصيب وتبقى كامنة في الخلايا الليمفاوية (47.6 ٪). يمكن أن يُعزى العديد من هذه الاكتشافات إلى الفيروس المضخم للخلايا (CMV / HHV5) و EBV في سرطان القولون الغدي (COAD) ، ربما بسبب تسلل الخلايا الليمفاوية (الشكل 2 أ). من المحتمل أيضًا أن يفسر تسلل الخلايا اللمفاوية التائية حالة واحدة من FVR HIV1 المنخفض في سرطان الغدة الشرجية (اقرأ). نستنتج أن الفيروسات التي تشارك بنشاط في تكوين الورم وصيانته غالبًا ، ولكن ليس دائمًا ، تظهر قيم FVR & gt10 جزء في المليون.

(أ) تم اكتشاف مستويات التعبير المشتقة من RNA-seq لـ 28 فيروسًا (المحور الرأسي) عند & gt2 جزء في المليون من إجمالي قراءات المكتبة في ورم واحد على الأقل ، عبر 178 ورمًا إيجابيًا للفيروسات من 19 نوعًا من السرطان (المحور الأفقي). تم تحديد الفيروسات فقط بسبب تشابه التسلسل مع السلالات ذات الصلة. (ب) بالإضافة إلى التعبير الجيني الفيروسي ، قد يكون للتكامل الفيروسي الجينومي عواقب وظيفية. تم تحديد جزء كبير من الأورام الإيجابية في أ يحمل تكاملات فيروسية (الصف العلوي) ، كما يتضح من نسخ اندماج الفيروس المضيف في تسلسل الحمض النووي الريبي المقترن. أظهرت بعض الجينات تكاملًا متكررًا في أورام متعددة (ستة صفوف سفلية). تم توزيع التكاملات بشكل شبه عشوائي عبر الجينوم (مخطط الكروموسوم السفلي) مع بعض المواقع المفضلة. يتم عرض جينات مختارة للنطاقات الخلوية ذات عمليات الدمج المتكررة (عدد الأورام بين قوسين). غير متوفر ، لا تتوفر بيانات نهائية مقترنة.

الأهم من ذلك ، نلاحظ عدم وجود تعبير فيروسي ذي صلة في العديد من السرطانات الخاضعة بخلاف ذلك لتكهنات منتظمة حول المسببات الفيروسية القوية ، بما في ذلك EBV في سرطان الثدي الغازي و CMV في الورم الأرومي الدبقي متعدد الأشكال 11،12. سمح لنا عمق التسلسل العميق في هذه العينات بتقدير الحدود العليا للتعبير الفيروسي بأمان: في أسوأ حالات الأورام ، تم التعبير عن CMV عند & lt0.05 جزء في المليون. في الورم الأرومي الدبقي متعدد الأشكال و EBV عند & lt0.09 جزء في المليون. في سرطان الثدي الغازية (ص= 0.01 ، التوزيع ذي الحدين). هذه النتائج ، بالاقتران مع عينات كبيرة (167 و 810 ورمًا ، على التوالي) ، تجادل بقوة ضد المسببات الفيروسية ، على الرغم من أنه لا يمكن استبعاد التورط النادر.

انتشار فيروس الورم الحليمي عبر السرطانات

تتوافق التكرارات الإجمالية لفيروس الورم الحليمي البشري بشكل وثيق مع المعرفة الحالية: أظهر CESC ارتباطًا بنسبة 96.6 ٪ مع فيروس الورم الحليمي البشري ، على غرار الدراسات الاستقصائية الكبيرة الأخيرة 13 (الشكل 2 أ). لم يتم العثور على فيروسات أخرى في CESC ، مما يدعم أن الاكتشافات كانت محددة للغاية. تم العثور على اثني عشر نوعًا من فيروس الورم الحليمي البشري ، جميعها موصوفة سابقًا على أنها مرتبطة ، في 84 من أورام عنق الرحم الإيجابية ، ومن المتوقع أن يكون فيروس الورم الحليمي البشري 16 و HPV18 هو السائد (65.5 ٪ و 13.1 ٪ من الحالات الإيجابية ، على التوالي). أظهر HNSC ارتباطًا بـ 14.1 ٪ من فيروس الورم الحليمي البشري ، مع 83.7 ٪ و 14.0 ٪ من الأورام الإيجابية المنسوبة إلى HPV16 و HPV33 ، على التوالي وهذا يختلف بشكل ملحوظ عن CESC ومتوافق مع البيانات السابقة 14. تضمنت الارتباطات الأقل شيوعًا والتي تمت ملاحظتها سابقًا HPV6b والأنواع عالية الخطورة في سرطان المثانة البولية (BLCA) ، و HPV16 في سرطان الخلايا الحرشفية بالرئة (LUSC) وسرطان الرحم البطاني الرحمي (UCEC). أظهر فيروس الورم الحليمي البشري عادةً تعبيرًا بارزًا ، مع قيم FVR تصل إلى 848 جزء في المليون. (& gt140.000 يقرأ) ولكن أكثر شيوعًا في 100-200 جزء في المليون. النطاق (الشكل 3 أ).

تظهر الرسوم البيانية مستويات التعبير الفيروسي (FVR) لـ 138 فيروس الورم الحليمي البشري إيجابي (أ) و 12 HBV إيجابية (ب) الأورام في 100 جزء في المليون. فترات.

كان هناك جدل حول الارتباط بين فيروس الورم الحليمي البشري وسرطان القولون والمستقيم ، مع انتشار يتراوح من 0 إلى 83٪ في دراسات مختلفة 15 ، 16. تم اقتراح التلوث كسبب محتمل للإيجابيات الكاذبة 16. لاحظنا تعبيرًا ضعيفًا (2-6.5 جزء في المليون) عن فيروس الورم الحليمي البشري 18 في 5 حالات (1.9٪) من COAD / READ ، والتي زادت إلى 12 حالة (4.5٪) مع تضمين 1-2 جزء في المليون. النطاق (البيانات التكميلية 1). كانت أنماط التعبير الجيني الفيروسي في هذه العينات مختلفة عن الأورام المعروفة التي يسببها فيروس الورم الحليمي البشري ، مع تعبير ثابت عن ه 1 أكثر دلالة على النسخ المتماثل النشط (الشكل التكميلي S2). لم نكتشف فيروس الورم الحليمي البشري 18 في أورام أخرى باستثناء CESC ، الذي يجادل ضد التلوث. فيروس الورم الحليمي البشري هو واحد من أنواع قليلة من فيروس الورم الحليمي البشري ذات الانتفاخ الغدي 17 ، ويمكن أن يصيب سرطان القولون والمستقيم الغدي. نستنتج أن التقارير السابقة عن فيروس الورم الحليمي البشري 18 في أورام القولون والمستقيم ربما تكون صحيحة. ومع ذلك ، ربما تم المبالغة في تقدير معدل الانتشار ، وتتحدث أنماط التعبير ومستوياته ضد المساهمة في التسرطن.

بصرف النظر عن عينات الكبد الطبيعية المتطابقة مع HBV المتوقع (الموضح أدناه) ، تم اختبار 2/404 فقط من عناصر التحكم في الأنسجة الطبيعية إيجابية في هذه الدراسة ، وكلاهما مصاب بفيروس الورم الحليمي (الشكل 2 أ): خزعة ثدي واحدة بمستويات منخفضة (3.1 جزء في المليون) من فيروس الثؤلول ، HPV2 ، الذي يعبر عن الجينات المبكرة والمتأخرة التي تشير إلى الإنتاج النشط للجزيئات الفيروسية ، وعينة كلية طبيعية مع HPV18 (12.9 جزء في المليون) ، مع تعبير جيني فيروسي مشابه لفيروس الورم الحليمي البشري في COAD / READ بما يتوافق مع العدوى الفيروسية المنتجة (الشكل التكميلي S1) . S2) ولكن أيضًا مع وجود دليل على اندماج الفيروس المضيف (الشكل 2 ب ، تتم مناقشة الاندماجات أدناه). تشير هذه الحالات إلى حالات استوائية جديدة لفيروس الورم الحليمي البشري ، ولكن هناك حاجة إلى مزيد من العمل.

انتشار فيروس التهاب الكبد

كما هو متوقع ، تم اكتشاف HBV في سرطان الخلايا الكبدية (الشكل 2 أ): 11/34 (32.3 ٪) من أورام LIHC عبرت عن HBV حتى 854 جزء في المليون ، ولكن بشكل أكثر شيوعًا في 2-100 جزء في المليون. النطاق (الشكل 3 ب). في الحالات الإيجابية ، اكتشفنا باستمرار HBV في ضوابط الكبد الطبيعية المتطابقة (5/5). عبّر ورم واحد عن فيروس التهاب الكبد الوبائي ولكن بمستويات منخفضة (0.8 مساءً بيانات تكميلية 1) ، من المحتمل أن يفسر ذلك بالطبيعة غير المتعددة الأدينيلات لجينوم HCV 18. لم يتم الكشف عن فيروسات أخرى في LIHC. يعد الالتهاب / تليف الكبد محفزًا رئيسيًا لتكوين الورم الناجم عن التهاب الكبد B ، ولكنه تعبير عن الجين الفيروسي X (HBx) يساهم أيضًا بـ 19. باتساق، HBx كان الجين الفيروسي المعبر عنه في الغالب (الشكل التكميلي S3).

بالإضافة إلى LIHC ، وجدنا ورمًا أوليًا واحدًا واضحًا لسرطان الخلايا الكلوية (KIRC) مع تعبير معتدل (28.9 جزء في المليون) من النمط الوراثي HBV الشائع C (الشكل 2 أ ، الجدول التكميلي S3). ومع ذلك ، على الرغم من التعبير عن الجينات الفيروسية بشكل مشابه لأورام LIHC الإيجابية لـ HBV (الشكل التكميلي S3) وكان ملف تعريف mRNA للورم مشابهًا لعينات KIRC الأخرى ، فقد كشف التحليل الإضافي عن تحريض ضعيف ولكنه ثابت لجينات علامة LIHC في هذه العينة (الشكل التكميلي S3). 4 س). هذا يدعم أن التلوث منخفض الدرجة باستخدام LIHC RNA يمكن أن يفسر هذا الاكتشاف.

حالات نادرة وتتابعات فيروسية جديدة

يصيب فيروس BK التورامي (BKV) الكلى والمسالك البولية ، ويُشار إليه على أنه أحد فيروسات الورم البشري بسبب مستضد الورم السرطاني الكبير (بطاقة شعار) الجين. هناك تقارير متناقضة عن BKV في سرطان المثانة ، تتراوح من التردد العالي إلى عدم وجود ارتباط أو عدم وجوده بطاقة شعار التعبير 20. اكتشفنا BKV المعبر عنه بكثرة (318 مساءً) في أورام 1/96 BLCA ، مع التعبير السائد عن الطول الكامل الكبير بطاقة شعار (الشكل التكميلي S5) وكذلك دليل على اندماج الفيروس المضيف (الشكل 2 ب ، الاندماج تناقش أدناه). هذا يعطي دعمًا إضافيًا لدور المسببات المرضية لـ BKV في حالات نادرة من سرطان المثانة.

تم اكتشاف HHV1 ، الذي يسبب عادة آفات الهربس المخاطي الظهاري 21 ، عند ارتفاع FVR (338 جزء في المليون) في ورم HNSC واحد (الشكل 2 أ). لم يتم وصف HHV1 في الأورام ، على الرغم من إظهار عيارات الأجسام المضادة HHV1 المرتفعة في مرضى HNSC 22. يمكن أن يعكس ارتفاع مرنا HHV1 في هذا الورم الفيروس المعاد تنشيطه الذي يصيب الظهارة المجاورة بدلاً من أنسجة الورم.

تسبب الفيروسات المعوية مجموعة من الأمراض بما في ذلك التهاب المعدة والأمعاء. من جديد اكتشف التجميع في COAD فيروسًا معويًا جديدًا ، تم الكشف عنه من خلال تحليل مفصل باعتباره مؤتلفًا لسلالات Coxsackievirus A19 و A22 (الشكل التكميلي S1).يتم دعم وجود الفيروس في أنسجة الورم من خلال FVR العالي (67.0 جزء في المليون) والتروبيم الواسع لفيروسات كوكساكي 21.

على الرغم من أن تحليلنا تضمن مطابقة غير متحيزة مع 3065 جينومًا فيروسيًا غير بشري ، إلا أن عددًا قليلاً فقط من الإصابات تضمنت فيروسات من غير المحتمل أن تصيب البشر (7/4837 عينة ، الشكل 2 أ). أظهر أحد ورم COAD تعبيرًا قويًا (456 مساءً) عن الفيروس القهقري من النوع C ، والذي تم اكتشافه أيضًا عند مستويات منخفضة (3.1 و 3.8 مساءً) في ورم COAD آخر وخزعة كلية طبيعية. يشابه الفيروس القهقري من النوع C بشكل كبير XMRV ، والذي ارتبط خطأً بالمرض بسبب التلوث من سلالات خلايا الفئران الشائعة 23. من جديد اكتشف التجميع فيروسًا جديدًا يشبه الفسيفساء (الشكل التكميلي S1) في COAD ، وتم العثور على آثار لفيروس فسيفساء الطماطم (3.6 جزء في المليون) في ورم سرطان بطانة الرحم. من غير المحتمل أن تكون هذه الفيروسات واثنين من اكتشافات غير بشرية أخرى (الشكل 2 أ) من مسببات الأمراض السرطانية ، مما يشير إلى التلوث أو التعرض البيئي في موقع الورم.

تحليل اندماج الفيروس المضيف

يُعتقد أن التكامل الجينومي لفيروس الورم الحليمي البشري يحدث نتيجة لعدم استقرار الكروموسومات الناجم عن فيروس الورم الحليمي البشري ، وقد تم وصف عمليات التكامل في أو بالقرب من جينات الورم المعروفة ، أحيانًا بالتزامن مع تغيير رقم النسخ المحلي والتعبير المتغير للجينات المستهدفة 24،25،26 . تعتبر عمليات التكامل المرتبطة بنشاط الجين المتغير مهمة بالمثل في عملية تكوين الأورام المستحثة بفيروس التهاب الكبد B 8. استخدمنا إجراءً صارمًا لاكتشاف عمليات الدمج كما يتضح من نصوص اندماج الفيروس المضيف في تسلسل الحمض النووي الريبي ، مع الأخذ في الاعتبار نقاط التوقف المدعومة من أزواج متسلسلة متنافرة متعددة حيث تتجمع القراءات البشرية داخل منطقة محدودة (الطرق). لقد تحققنا من صحة منهجيتنا باستخدام بيانات تسلسل الجينوم الكامل من تسعة أورام HNSC إيجابية لفيروس الورم الحليمي البشري ، ووجدنا أن ثمانية من تسعة تكاملات مشتقة من RNA-seq حظيت بدعم من أزواج رفيقة متنافرة في مكتبات تسلسل الجينوم الكامل (الجدول التكميلي S4).

بتأكيد البيانات السابقة 25 ، لاحظنا تردد تكامل عالي لـ HPV18 (100٪) وتردد أقل لـ HPV16 (58.5٪ الشكل 2 ب ، البيانات التكميلية 2). وبالمثل ، فإن معظم أورام HBV الإيجابية والضوابط النسيجية الطبيعية لها تكامل فيروسي 8 (76.5٪) ، وكل حالات HHV تفتقر إلى التكامل (الشكل 2 ب). انتشر تكامل كل من فيروس الورم الحليمي البشري وفيروس الالتهاب الكبدي الوبائي على نطاق واسع عبر الجينوم ، مع عدد قليل من النقاط الساخنة للتكامل المتكرر (الشكل 2 ب). كشف التحليل الإضافي في HNSC أن التوزيع الموضعي غير عشوائي مع تفضيل قوي للتكامل بالقرب من نقاط توقف رقم نسخ الحمض النووي. جزء كبير من مجموعات التكامل (41.8 ٪) متحد المركز (& lt10 كيلو بايت ، بالقرب من دقة تعيين رقم النسخ) بحد قطعة ، مما يدعم أن عمليات الدمج يمكن أن يكون لها تأثير واسع النطاق على عدم الاستقرار الجيني المحلي في HNSC (الشكل 4 ، ص& lt1e − 8 ، اختبار التوزيع العشوائي).

تمت مقارنة مائة وعشر مجموعات تكامل HPV (31 تكاملًا فريدًا) بنقاط توقف رقم النسخ المحددة باستخدام بيانات مصفوفة مجهرية Affymetrix SNP6 مجزأة من TCGA. تم حساب المسافة إلى أقرب نقطة توقف لكل مجموعة ، وتم اختبار التوزيع الملحوظ من أجل تحديد مكان غير عشوائي من خلال المقارنة مع نموذج تكامل عشوائي موحد (ص& lt1e − 8 بناءً على عمليات عشوائية 1e − 8 100 معروضة). تجمعات التكامل (41.8٪) كانت ضمن 10 كيلو بايت ، في حين أن التوقع العشوائي كان & lt0.5٪. عشرة كيلو قواعد قريبة من دقة رسم خرائط SNP6 (متوسط ​​تباعد المسبار

من الجدير بالذكر أنه من بين ستة جينات ذات عمليات تكامل متكررة ، كانت جميعها جينات سرطانية معروفة أو أهداف متكررة موصوفة سابقًا (الشكل 2 ب يتم عرض مواقع الاندماج التفصيلية في الجدول التكميلي S5). ال MYC المنطقة على الكروموسوم 8q24.21 هي موقع معروف للتكامل المتكرر لفيروس الورم الحليمي البشري في CESC 24 ، ولاحظنا باستمرار سبعة أورام بنقاط توقف في PVT1 و LOC727677 / RP11-382A18.1 RNAs الطويلة غير المشفرة (lncRNAs) ، المصب والمصب MYC، على التوالى. بالرغم ان ERBB2/HER2 كانت المساهمة في سرطان عنق الرحم مثيرة للجدل ، ومن المعروف أن بروتين HPV16 E6 يمكنه تثبيت ErbB2 (المرجع 27). HPV16 ، ولكن ليس HPV18 ، مدمج في ERBB2 في اثنين من ورم CESC ، مما يدعم أن فيروس الورم الحليمي البشري قد يكون له دور مزدوج في تنشيط ERBB2 وتثبيته في مجموعة فرعية من العينات. شوهدت تكاملات متكررة لفيروس الورم الحليمي البشري (أربعة أورام) في RAD51 Paralogue RAD51B (RAD51L1/REC2) على الكروموسوم 14q24.1 ، في حالة واحدة في إطار مع فيروس الورم الحليمي البشري ه 6 الجين (الشكل التكميلي S6). 14q24 هي منطقة هشة معروفة وموقع تكامل ضعيف المفضل 26 ، ولكن التكامل المتكرر على وجه التحديد في RAD51B لم يتم وصفه. يزيد تثبيط بروتين الورم الأرومي الشبكي (RB) من موت الخلايا المبرمج الناجم عن RAD51B ويتفاعل البروتينان 28 ، مما يشير إلى أن تعطيل RAD51B عن طريق تكامل فيروس الورم الحليمي البشري يمكن أن يعمل بشكل تآزري مع فيروس الورم الحليمي البشري ه 7 الجين الذي يعطل RB. وبالمثل ، يعتبر 13q22 موقعًا هشًا مفضلًا بشكل ضعيف 26 حيث لاحظنا تكرارًا عاليًا نسبيًا للتكامل (ستة أورام) ، وتحديدًا في 13q22.1 بالقرب من LINC00393 lncRNA (الشكل 2 ب). أكدت نتائج LIHC اندماج HBV المتكرر مع MLL4 و FN1 في الأورام والكبد الطبيعي المجاور ، 8 على التوالي ، اثنان منها تم العثور عليهما داخل الإطار (الشكل التكميلي S6).

قمنا بعد ذلك بالتحقيق في العلاقة بين التعبير والتكامل للجينات المتكررة من خلال مقارنة الأورام مع التكامل وبدون تكامل. أظهرت معظم الجينات متوسط ​​تعبير متغير ، على الرغم من وجود استثناءات للأورام الفردية. من اثنين من الأورام القوية ERBB2 الحث النسخي في CESC ، كان لدى أحد تكامل فيروس الورم الحليمي البشري في هذا الجين (الشكل 5 أ). ال PVT1 و LOC727677 lncRNAs ، في MYC المنطقة ، لديها تعبير أعلى بشكل ملحوظ في الأورام مع التكامل. RAD51B أظهر انخفاضًا ضعيفًا وغير مهم في الأورام مع تكامل فيروس الورم الحليمي البشري. تمشيا مع البيانات السابقة 8 ، MLL4 بقوة في عينات LIHC مع تكامل HBV ، بينما FN1 لم يتم تغييره بشكل كبير (الشكل 5 ب). على الرغم من أن عينات التحكم العادية محدودة في TCGA ، فقد حددنا تسع حالات للتكامل الجيني مع تكامل طبيعي متطابق يفتقر إلى التكامل (الشكل التكميلي S7). أظهرت خمس من تسع حالات تحريض قوي (أكثر من أربعة أضعاف) في الورم مقارنة بالسيطرة العادية ، بما في ذلك MLL4 (6.0 أضعاف). تدعم نتائجنا أن نشاط جينات الورم يمكن تغييره عن طريق الإدخالات الفيروسية ، والترشيح ERBB2 و RAD51B كأهداف وظيفية.

(أ) مستويات التعبير ERBB2 (ن=2), PVT1 (ن=3), LOC727677 (ن= 3) و RAD51B (ن= 3) تم تغييرها عادةً في أورام CESC بتكامل فيروس الورم الحليمي البشري ، كما يتضح من اندماج الفيروس المضيف. ص-تم حساب القيم باستخدام Student ر-اختبار. (ب) مشابه ل أ، ولكن لعينات LIHC مع أو بدون تكامل HBV في MLL4 (ن= 3) و FN1 (ن= 2). في المخططات الصندوقية ، تكون العلامة المركزية هي الوسيط وحواف الصندوق هي النسب المئوية 25 و 75.

Coadaptation بين الفيروس وتعبير mRNA المضيف

وفرت خريطتنا الشاملة للورم والفيروس المزيد من الفرص لاستقصاء التفاعل بين الفيروسات وتعبير mRNA المضيف ، داخل وعبر أنواع الورم. يحتوي جينوم فيروس الورم الحليمي البشري على الجينات المسرطنة الفيروسية ه 6 و ه 7 التي تعطل p53 و RB على التوالي ، وكذلك ه 5 التي قد تعزز أيضا التسرطن 29. كشفت دراسات ميكروأري للحمض النووي 30،31،32 سابقًا أن الأورام الإيجابية لفيروس الورم الحليمي البشري مقابل الأورام السلبية لفيروس الورم الحليمي البشري تعبر عن مجموعات تفاضلية من عوامل النسخ ومنظمات دورة الخلية (على سبيل المثال ، السيكلونات E / B مقابل D / A ، على التوالي) ، وأن النسخ النصية يبدو أن الاختلافات هي إلى حد كبير نتائج مباشرة لعمل الورم الورمي لفيروس الورم الحليمي البشري. مكّنت أورام HNSC 42/262 الإيجابية / السالبة من فيروس الورم الحليمي البشري المدرجة في المسح الذي أجريناه من إعداد أكثر قوة لدراسة تغييرات mRNA التي يسببها فيروس الورم الحليمي البشري ، مع فائدة إضافية للقياسات الدقيقة من تسلسل الحمض النووي الريبي العميق (في المتوسط ​​175 M قراءة لكل عينة).

تم تحريض خمسمائة وسبعة وتسعين جينًا مضيفًا على الأقل أربعة أضعاف أو قمعها بناءً على نسبة مستويات التعبير المتوسط ​​في فيروس الورم الحليمي البشري إيجابي مقارنة بأورام HNSC سلبية فيروس الورم الحليمي البشري (ف& lt0.05 ، معدل الاكتشاف الخاطئ على أساس الطالب ر- اختبار الشكل 6 أ ، البيانات التكميلية 3). تم تغيير 1897 جينًا آخر فوق شقين (ف& lt0.05) ، مما يدل على أن فيروس الورم الحليمي البشري له تأثير أكثر انتشارًا على التعبير الجيني للمضيف مما تم وصفه سابقًا. CDKN2A/P16-INK4A، الذي يستخدم على نطاق واسع كعلامة بديلة لعدوى فيروس الورم الحليمي البشري بسبب تحريضه على تعطيل RB بواسطة E7 (المرجع 33) ، كان من بين الجينات الأكثر استحثاثًا بقوة (10.6 ضعفًا). أظهر العديد من منظمات دورة الخلية الإضافية والجينات المسرطنة تحريضًا بارزًا ، بما في ذلك CDKN2C و MYB (الشكل 6 أ). على الرغم من أن تحليل تخصيب مجموعة الجينات (GSEA) كشف عن تداخلات كبيرة للغاية مع الدراسات السابقة 30،31 ، إلا أن معظم الجينات لم تكن مرتبطة سابقًا بحالة فيروس الورم الحليمي البشري. وشمل ذلك MYCN (محرض 4.3 أضعاف) ، لا يرتبط عادةً بتطور HNSC ولكن من المحتمل أن يكون مهمًا في تكوين الورم الناجم عن فيروس الورم الحليمي البشري.

(أ) ارتبط خمسمائة وسبعة وتسعون جينًا مضيفًا بحالة فيروس الورم الحليمي البشري في HNSC ، بمعدل اكتشاف خاطئ (ف) & lt0.05 وبسجل مطلق2 متوسط ​​نسبة التعبير & gt2. يشار إلى جينات السرطان المعروفة في التعداد الجيني للسرطان 47. يشير رمز اللون إلى السجل2- مستويات mRNA المحولة بالنسبة للمتوسط ​​العام. (ب) تحليل PCA لمحات التعبير عن الورم mRNA في CESC و HNSC و BLCA. على الرغم من وجود اختلافات في التعبير المنهجي بين أنواع السرطان ، إلا أن الأورام الإيجابية لفيروس الورم الحليمي البشري تتجمع معًا بغض النظر عن النوع. (ج) تم تقسيم أورام CESC إيجابية فيروس الورم الحليمي البشري من خلال أنماط التعبير الجيني الفيروسي: ه 7-, ه 6/ه 7- و ه 4/ه 5/ه 7- تم اختبار مجموعات فرعية للتعبير عن الورم من أجل التعبير التفاضلي للجينات المضيفة بالنسبة للعينات المتبقية. تم التعبير عن مائة وعشرين جينًا مضيفًا بشكل مختلف في ه 6/ه 7 مجموعة فرعية ، باستخدام المعايير الموضحة أعلاه. (د) التحقق من صحة ه 6/ه 7 التوقيع. تم تحفيز / كبت معظم الجينات الـ 120 باستمرار في ه 6/ه 7 مقارنة مع ه 7 عينات ، أيضًا عند التفكير فقط في أورام HPV16 (الحمراء) - أو الورم الإيجابي HPV18 (الأخضر). بالإضافة إلى ذلك ، أظهرت معظم الجينات في التوقيع تغيرات تعبيرية متسقة في HNSC ه 6/ه 7 مقارنة مع ه 6 أورام (زرقاء). ه 6* ، مبتور وربما لا يعمل ه 6 افتح إطار القراءة.

لمعالجة ما إذا كان فيروس الورم الحليمي البشري يستدعي تأثيرات مماثلة في أنواع مختلفة من السرطان ، أجرينا تحليل المكونات الرئيسية لمحات mRNA من أورام CESC و HNSC و BLCA. ومن المثير للاهتمام ، على الرغم من أن كل نوع من أنواع الورم كان مرتبطًا بشكل متوقع بتوقيع تعبير مميز ، إلا أن حالة الإصابة بفيروس الورم الحليمي البشري كان لها تأثير أكبر على النسخ ، حيث تميل الأورام الإيجابية معًا بغض النظر عن النوع (الشكل 6 ب). تم تأكيد ذلك من خلال الارتباطات الزوجية: كانت أورام HNSC إيجابية فيروس الورم الحليمي البشري في المتوسط ​​أكثر تشابهًا مع أورام CESC إيجابية فيروس الورم الحليمي البشري من أورام HNSC سلبية فيروس الورم الحليمي البشري (Pearson’s ص= 0.054 و 0.041 على التوالي) أعطت المقارنات المتبقية نتائج مماثلة. يمتد هذا إلى ملاحظة سابقة مفادها أن العديد من التغييرات المرتبطة بفيروس الورم الحليمي البشري يتم مشاركتها بين HNSC و CESC 31. إنه متوافق مع تأثيرات النسخ المنتشرة التي يسببها فيروس الورم الحليمي البشري الموصوفة أعلاه ، وهي ملحوظة بالنظر إلى أصول الأنسجة المتنوعة لهذه الأورام.

بعد أن خلصنا إلى أن فيروس الورم الحليمي البشري له تأثير كبير على نسخ المضيف ، شرعنا في التحقيق فيما إذا كانت الأنماط التفاضلية للتعبير الجيني الفيروسي والتكامل مرتبطة باستجابات مضيفة متميزة. تم التعبير عن معظم الأورام الإيجابية لفيروس الورم الحليمي البشري ه 7، بما يتفق مع التعبير السابق والبيانات الوظيفية التي تشير إلى ه 7 باعتباره أقوى الجين الورمي 35 لفيروس الورم الحليمي البشري ، ولكنه أيضًا مبتور ه 6 نماذج (ه 6*) التي قد تفتقر إلى نشاط E6 الكامل (الشكل التكميلي S8 ، البيانات التكميلية 4). أظهرت الجينات الورمية المتبقية من فيروس الورم الحليمي البشري تنوعًا كبيرًا بين الأورام. وجدنا أن أورام CESC إيجابية فيروس الورم الحليمي البشري قدمت عينة مناسبة لدراسة عدم تجانس التعبير الفيروسي ، وحدد ثلاث مجموعات فرعية رئيسية بناءً على المستويات النسبية: الأورام التي تعبر بشكل أساسي ه 7, ه 6/ه 7 أو ه 4/ه 5/ه 7 (الشكل 6 ج). ه 4/ه 5 تُفقد عادةً أثناء التكامل الجيني 29 ، وبالتالي كان تردد الاندماج / التكامل منخفضًا في ه 4/ه 5/ه 7 ضبط بينما يقترب من 100٪ في المجموعات الأخرى (الشكل 6 ج).

اختبرنا بعد ذلك المجموعات الفرعية للتعبير التفاضلي عن mRNAs المضيفة بالنسبة للعينات المتبقية. لا يمكن ربط أي جينات مضيفة بـ ه 7 أو ال ه 4/ه 5/ه 7 مجموعات (ف& lt0.05) ، مما يوضح أنه لا التكامل الجيني ولا ه 4/ه 5 التعبير له تأثير قوي على تعبير المضيف. ومع ذلك ، تم تحفيز أو قمع 69 و 51 جينًا مضيفًا على الأقل أربعة أضعاف ، على التوالي ، في ه 6/ه 7 مجموعة فرعية (ف& lt0.05 الشكل 6 ج ، البيانات التكميلية 5). تم تحفيز / قمع معظم الجينات في هذا التوقيع باستمرار في ه 6/ه 7 مقارنة مع ه 6 العينات المستندة إلى عينات HPV16 أو HPV18 وحدها وكذلك في نوع السرطان المستقل (HNSC الشكل 6 د) ، مما يؤكد أنها مرتبطة بقوة بـ ه 6- التعبير عن الأورام. كشف تحليل GSEA عن انخفاض التعبير عن الجينات المتعلقة بتمايز الظهارة وتطور البشرة والعلامات المحددة مسبقًا لأورام الرأس والرقبة المتمايزة جيدًا (ف= 9.3e − 10 و 7.3e 6 و 1.6 e 3 على التوالي ، معدل الاكتشاف الخاطئ بناءً على اختبار هندسي مفرط). يمارس p53 وظيفته القمعية للورم ليس فقط عن طريق إيقاف دورة الخلية وموت الخلايا المبرمج ولكن أيضًا عن طريق تقييد عدم التمايز بين الخلايا الناضجة. يمكن بالتالي التوسط في ارتباط تعبير E6 كامل الطول بتوقيع مضيف غير متمايز من خلال عمله المثبط الكنسي على p53. على الرغم من أنه من المعروف أن فيروس الورم الحليمي البشري يحفز تغييرات الرنا المرسال للمضيف ، فإن تحليلنا يظهر أن استجابة المضيف التفصيلية تختلف بين الأورام بسبب تعبير الجين الورمي الفيروسي التفاضلي.


نتائج

تحديد والتحقق من صحة الجينات المعبر عنها تفاضليًا (DEGs)

في هذه الدراسة ، اخترنا عينات الورم من نوع فرعي شائع ومتجانس للورم من الدرجة T2 (T2a أو T2c) ودرجة غليسون 7 (3 + 4) وقارننا الاختلافات في التعبير الجيني بين أجهزة الكمبيوتر التي تم تطويرها لدى الشباب (& # x02264 45 سنة) وكبار السن من الرجال (71 & # x0201374 سنة). الخصائص السريرية لـ 49 مريضا وأورامهم موضحة في الجدول 1.

الجدول 1

المجموع (ن = 49)قديم (ن = 25)يونغ (العدد = 24)
العمر (بالسنوات) 71 & # x020137438 & # x0201345
ن (٪)ن (٪)ن (٪)
مرحلة علم الأمراض
T2a14 (29)6 (24)8 (33)
T2c35 (71)19 (76)16 (67)
مجموع غليسون
7 (3+4)49 (100)25 (100)24 (100)
نطاق PSA1.9 & # x0201315.42.1 & # x0201315.21.9 & # x0201315.4
مجموعة PSA *
& # x0003c = 10.033 (67)19 (76)14 (58)
& # x0003e10.016 (33)6 (24)10 (42)
العرق / العرق
بياض43 (88)22 (88)21 (88)
الأمريكيون الأفارقة2 (4)1 (4)1 (4)
ذوي الأصول الأسبانية2 (4)1 (4)1 (4)
الآسيويين2 (4)1 (4)1 (4)

* لا يوجد فرق كبير في PSA بين العينات من المجموعتين (اختبار فيشر الدقيق ، p = 0.23)

تم إنشاء بيانات التعبير الجيني باستخدام رقائق ميكروأري من Illumina Human Full-Genome DASL (التلدين والاختيار والتمديد والربط بوساطة cDNA) (التفاصيل في المواد والطرق). بعد إزالة التأثيرات المجمعة لتاريخ المعالجة باستخدام وظيفة Combat في حزمة sva (S1 Fig) ، أجرينا ثلاث مقارنات متعلقة بالعمر باستخدام limma (نماذج خطية لتفاصيل تحليل بيانات المصفوفة الدقيقة في المواد والطرق) وحددنا الجينات المعبر عنها تفاضليًا (DEGs) مع تغيير أضعاف مطلق (| FC |) أكبر من 1.5 ومعدل اكتشاف خاطئ (FDR) أقل من 0.25 في كل مقارنة. قمنا أولاً بمقارنة الاختلافات في التعبير الجيني الطبيعي للورم بين المجموعات الصغيرة (بداية مبكرة) والأقدم (بداية متأخرة) باستخدام العمر: تباين تفاعل الأنسجة [(ورم صغير & # x02212 شاب. طبيعي) & # x02212 (قديم) . ورم & # x02212 old.normal)] في limma. حددنا 183 DEGs هذا التباين قد يحدد الجينات التي تستجيب لتطور الورم (يتغير التعبير من الطبيعي إلى الورم) بشكل مختلف في الفوج الصغير مقارنة بالفوج القديم (الفرق الطبيعي للورم المعتمد على العمر) (ملف S1). ثم قمنا بمقارنة التعبير الجيني التفاضلي بين الأنسجة الطبيعية للمجموعات الصغيرة والكبيرة باستخدام التباين القديم والشاب. حددنا 198 DEGs DEGs من هذا التباين قد يعكس تغيرات التعبير التي تحدث عادةً مع الشيخوخة (ملف S1). من بين هذه DEGs ، كان هناك 61 جينًا متداخلاً بين المقارنات. أخيرًا ، في صغر حجم الورم مقابل تناقض الورم القديم ، حددنا خمسة DEGs (ZIC2, ZIC5, ZNF439, USP54، و ج 2) قد يعكس هذا التباين الاختلافات في خصائص الورم الجوهرية بين الأورام من الفوجين العمريين. ZIC2, ZIC5، و C2 التداخل في الفرق الطبيعي للورم المعتمد على العمر والمقارنات بين الأورام والأورام المرتبطة بالعمر.

بناءً على أهمية وظيفة الجينات وأنماط التعبير (التي تمثل الشكل 1 أ و 1 ب و 1 ج ، على التوالي) ، اخترنا ثلاثة جينات (MMP7, COL2A1، و SERPINB11) للتحقق من نتائج اختبار DASL. كان هناك ارتباط كبير (r = -0.81 ، S2 Fig) بين قيم تعبير DASL و Delta_Ct (Cر الجين الهدف & # x02013 جر الجين المرجعي) القيم من تحليل qRT-PCR. لاحظنا الإفراط في التعبير عن ERG في عينات الورم مقارنة بالعينات العادية. لاختبار ما إذا كان الإفراط في التعبير ناتجًا عن اندماج TMPRSS2: ERG ، أجرينا RT-PCR الخاص بالأليل لـ 49 عينة من الأنسجة الطبيعية للورم. بناءً على تباين حجم منتجات PCR ، لوحظ أكثر من ثمانية أنواع من متغيرات الاندماج (S3 الشكل). تم اكتشاف متغيرات الاندماج ، المقابلة للتعبير المفرط عن ERG في بيانات DASL ، في 8 من 25 عينة ورم (32 ٪) من الفوج الأكبر سنا و 15 من 24 عينة ورم (67 ٪) من الفوج المبكر. لم يتم اكتشاف أي متغيرات اندماج في العينات العادية.

المحور الأفقي هو نوع الأنسجة والمحور الرأسي يعني التعبير الجيني. لكل نمط تفاعل ، تم رسم اتجاه التغيرات في التعبير من الأنسجة الطبيعية إلى الأنسجة السرطانية للأقدم (الخط المتقطع) والأتراب الشباب (الخط الصلب). كان هناك زيادة ملحوظة في التعبير في أنسجة الورم مقارنةً بالأنسجة الطبيعية المقابلة في الفوج الصغير مع تغير طفيف في التعبير في المجموعة الأكبر سنًا (الرسم أ) ، بينما في القطعة ب ، أظهر كلا المجموعتين تعبيرًا متزايدًا من الطبيعي إلى الورم مع التغيير الأكبر في الفوج الصغير. في القطعة (ج) ، كان لدى الفوج الصغير انخفاضًا ملحوظًا في التعبير عن الأورام مقارنةً بالأنسجة الطبيعية ، مع تغيير طفيف في المجموعة الأكبر سنًا ، بينما في القطعة (د) ، كان هناك انخفاض كبير في التعبير في الفوج الصغير وزيادة ملحوظة. في المجموعة الأكبر سنًا.

توصيف DEGs تستجيب بشكل مختلف لتطور الورم في الفوجين

ركزنا على توصيف 183 DEGs (FDR & # x0003c 0.25 و | FC | & # x0003e 1.5) المحددة من العمر: تباين تفاعل الأنسجة. من بين هؤلاء 183 DEGs ، تم تنظيم 121 جينًا و 62 تم تنظيمها في المجموعة الشابة مقارنة بالفوج الأكبر سنًا (ملف S1).لاحظنا أربعة أنواع أساسية من العمر: أنماط تفاعل الأنسجة لها تأثيرات معكوسة أو متقاطعة (الشكل 1). لكل نمط تفاعل ، يختلف اتجاه أو حجم التعبير من الورم إلى العينات الطبيعية بين المجموعتين ، مما يشير إلى أن العمر عدل تغير التعبير الجيني بين الورم والعينات الطبيعية. على سبيل المثال ، تميزت تفاعلات النوع أ (الشكل 1 أ) والنوع ب (الشكل 1 ب) بزيادات كبيرة في التعبير الجيني في الورم مقارنة بالأنسجة الطبيعية في المجموعة الشابة والتغيرات غير المهمة أو ذات الأهمية الدنيا للتعبير في المجموعة الأكبر سناً. في المقابل ، تميزت تفاعلات النوع ج (الشكل 1 ج) والنوع د (الشكل 1 د) بانخفاض كبير في التعبير الجيني في الورم مقارنة بالأنسجة الطبيعية في الفوج الصغير وتغيرات غير مهمة في التعبير في المجموعة الأكبر سنًا (النوع ج) أو زيادات كبيرة في التعبير الجيني في الأورام في المجموعة الأكبر سناً (النوع د).

تم تلخيص النتائج الخمسة الأولى لتحليل مسار الإبداع (IPA) بناءً على القيم p لـ 121 DEGs المنظمة في الجدول 2 (ملف S1). جميع نتائج IPA العليا ، بما في ذلك المسارات العليا المخصبة في تلك DEGs ، والمنظمين المنشطين الأعلى المستنتج من تلك DEGs ، ومشاركة المرض العليا لتلك DEGs ، تتعلق بالوظيفة الخلوية في الاستجابات الالتهابية والمناعة. سبعون من أصل 121 DEGs متورطون في الالتهابات والمسارات المرتبطة بالمناعة (ملف S1) ، بما في ذلك 5 جينات في العائلة التكميلية ، و 12 جينًا لمستضد سطح الخلية المناعية ، و 6 جينات كيموكين ، وجينان لمستقبلات الإنترلوكين ، وجينان لمجموعة الخلايا القاتلة الطبيعية ، و 3 جينات تعيد تشكيل المصفوفة خارج الخلية. علاوة على ذلك ، أظهر 57 من 70 التهابًا و DEGs المرتبطة بالمناعة النوع أ (41 جينًا) أو النوع ب (16 جينًا) العمر: أنماط تفاعل الأنسجة مع زيادة التعبير بشكل ملحوظ في الورم مقارنة بالأنسجة الطبيعية في الفوج الصغير والتغيرات غير المهمة في المجموعة الأكبر سنًا. ومن المثير للاهتمام ، أنه من بين 61 DEGs التي تداخلت بين 183 جينًا و DEGs من التباين الطبيعي القديم مقابل الشباب ، 38 هي جينات مرتبطة بالمناعة ، وكان النمط إما من النوع أ (29 جينًا) أو النوع ب (9 جينات) ). تشير هذه النتائج المجمعة إلى استجابة التهابية ومناعية أكثر وضوحًا لتطور الورم في سرطانات البروستاتا المبكرة ، مقارنة بسرطان البروستاتا المتأخر. تم تلخيص نتائج IPA لـ 62 DEGs الخاضعة للتنظيم في الفوج الصغير في S1 Table 21 من 62 جينًا مجمعة في مسارات التمثيل الغذائي. أظهر عشرون من 21 جينًا مرتبطًا بالاستقلاب (جدول S2) النوع ج (10 جينات) أو النوع د (10 جينات) العمر: أنماط تفاعل الأنسجة (الشكل 1) ، تتميز بانخفاض التعبير في الفوج الصغير مقارنة بالفوج الأكبر سنًا.

الجدول 2

أهم المسارات الكنسيف القيمةتداخل *
تطوير الخلايا البائية1.90E-0817.6% (6/34)
إشارات iCOS-iCOSL في الخلايا التائية المساعدة1.22E-077.1% (8/113)
CD28 التشوير في الخلايا التائية المساعدة2.35E-076.5% (8/123)
إشارات نقص المناعة الأولية2.67E-0711.5% (6/52)
استماتة الخلايا اللمفاوية التائية المستحثة بالكالسيوم1.35E-068.8% (6/68)
أعلى المنظمين المنبعالتنشيط z نقاطالتنشيط المتوقع
TGFB12.97مفعل
IL12.75مفعل
NFkB (معقد)2.52مفعل
ETS12.43مفعل
IL62.28مفعل
أهم الأمراض والاضطراباتنطاق القيمة pعدد الجينات
الاستجابة الالتهابية1.55E-04 & # x020132.61E-1861
مرض مناعي1.50E-04 & # x020134.41E-1856
اضطرابات النسيج الضام1.06E-04 & # x020133.66E-1539
مرض التهاب1.42E-04 & # x020133.66E-1544
الاضطرابات الهيكلية والعضلية7.80E-05 & # x020133.66E-1535

* التداخل: الجينات المشتركة بين 121 DEGs والجينات في المسار الكنسي.

لقد صنفنا أفضل خمس مجموعات جينية خاضعة للتنظيم من تحليل إثراء مجموعة الجينات (GSEA) لجميع جينات mRNA البالغ عددها 20261 مرتبة حسب قيم t الناتجة من العمر: تباين تفاعل الأنسجة في limma (الجدول 3). يرتبط أكثر من ثلثي مجموعات أو مسارات الجينات الخمس الأعلى تنظيمًا من مجموعات بيانات GSEA الثلاثة بالوظائف الخلوية في الاستجابات الالتهابية والمناعة ، بما يتوافق مع تنبؤات IPA. كان مسار CTLA4 هو المسار الأكثر تنظيمًا بشكل ملحوظ في الشباب مقارنة بالفوج الأقدم في GSEA لمجموعات بيانات مسار BioCarta. نمط التعبير الجيني لأربعة DEGs (CTLA4, CD3D, CD86، و LCK) في مسار CTLA4 لأربع مجموعات فرعية من العينات المصنفة حسب العمر وحالة الأنسجة في الشكل 2. أظهرت جميع DEGs الأربعة العمر من النوع ب: نمط تفاعل الأنسجة (زيادة التعبير بشكل ملحوظ في الورم مقارنة بالعينات الطبيعية في الفوج الصغير وتغييرات التعبير غير المهمة بين الورم والعينات الطبيعية في الفوج الأكبر سناً). تم سرد مجموعات الجينات الخاضعة للتنظيم من GSEA المصنفة بناءً على درجة الإثراء الطبيعية (NES) في جدول S3 ، ويرتبط أكثر من النصف بمسارات التمثيل الغذائي ، بما يتوافق مع نتائج IPA لـ 62 من 183 DEGs الخاضعة للتنظيم السفلي في الفوج الصغير مقارنةً بـ الفوج الأكبر سنا.

الجدول 3

أعلى مجموعات الجينات أو المسارات مرتبة حسب نقاط الإثراء الموحدة (NES) * مقاس * متنوعهقيمة FDR
BIOCARTA_CTLA4_PATHWAY162.230.00
BIOCARTA_TOB1_PATHWAY152.070.00
BIOCARTA_CSK_PATHWAY172.040.01
BIOCARTA_G1_PATHWAY231.970.01
BIOCARTA_STATHMIN_PATHWAY151.870.02
KEGG_SYSTEMIC_LUPUS_ERYTHEMATOSUS942.680.00
KEGG_INTESTINAL_IMMUNE_NETWORK_IGA_PRODUCTION332.510.00
KEGG_GRAFT_VERSUS_HOST_DISEASE272.460.00
KEGG_COMPLEMENT_AND_COAGULATION_CASCADES452.380.00
KEGG_PRIMARY_IMMUNODEFICIENCY292.350.00
REACTOME_IMMUNOREGULATORY_INTERACTIONS_BETWEEN_ A_LYMPHOID_AND_A_NON_LYMPHOID_CELL502.620.00
REACTOME_GENERATION_SECOND_MESSENGER_MOLECULES232.480.00
REACTOME_RNA_POL_I_PROMOTER_OPENING452.340.00
REACTOME_PHOSPHORYLATION_CD3_AND_TCR_ZETA_CHAINS152.320.00
REACTOME_EXTRACELLULAR_MATRIX_ORGANIZATION692.320.00

* الجريئة هي مجموعات الجينات أو المسارات المرتبطة بالمناعة. الحجم: عدد الجينات في كل مجموعة جينية.

توضح جميع DEGs الأربعة العمر من النوع ب: نمط تفاعل الأنسجة مع زيادة كبيرة في التعبير في الورم مقارنة بالعينات الطبيعية في الفوج الصغير وتغيرات التعبير غير المهمة بين الورم والعينات الطبيعية في المجموعة الأكبر سناً. يظهر المرضى الذين يعانون من تكرار كيميائي حيوي بلون وردي في عينات الورم المقابلة.

تحديد miRNAs المعبر عنها تفاضليًا (DEmiRs) والتنبؤ بتنظيمها على التعبير عن DEGs

باستخدام العمر: تباين تفاعل الأنسجة في limma لتحليل بيانات تعبير miRNA ، حددنا DEmiR (has-miR-146b-3p) مع FDR & # x0003c 0.05 و | FC | & # x0003e 2.0 و 27 DEmiRs مع FDR & # x0003c 0.25 و | FC | & # x0003e 1.5 (ملف S1). من تباين الورم بين الشباب والأكبر سنا ، حددنا DEmiR (has-miR-4461) مع FDR & # x0003c 0.05 و | FC | & # x0003e 1.5 وواحد إضافي DEmiR (has-miR-200a-5p) مع FDR & # x0003c 0.25 و | FC | & # x0003e 1.5.

نظرًا لأن لدينا بيانات تعبير mRNA و mRNA لكل ورم وعينة طبيعية مطابقة ، أجرينا اختبارًا عالميًا لمجموعة الجينات للارتباط بين التعبير عن ميرنا والجينات المستهدفة وحددنا أيضًا مساهمة الجين المستهدف الفردي في رابطة ميرنا-مرنا. مرتكز على في السيليكو التنبؤ المستهدف واختبار الارتباط العالمي ، أظهر 22 من 27 DEmiRs ارتباطات تعبيرية مهمة مع DEGs المستهدفة (DEGs من العمر: تباين تفاعل الأنسجة) ، تتراوح من 1 DEG مستهدف إلى 57 DEGs مستهدف (ملف S1). من بين 22 DEmiRs ، أظهر Hsa-miR146b-5p أهم قيمة p بين الاختبار العالمي لجمعيات DEmiR-DEG. كان لتعبير Hsa-miR-146b-5p ارتباط إيجابي كبير (ارتباط بيرسون r & # x0003e 0.4 و FDR & # x0003c 0.01) مع أربعة DEGs مستهدفة في الالتهاب والمسارات المرتبطة بالمناعة (CCR5 ، CCR7 ، CXCR4 ، CD3G). علاوة على ذلك ، ارتبط التنظيم السفلي لـ 7 من 22 DEmiRs بشكل كبير بزيادة التعبير عن 19 DEGs مستهدفًا في الالتهاب والمسارات المرتبطة بالمناعة.

القيم المتطرفة للتعبير الجيني في عينات الورم

قد يكون للمتغيرات النادرة تأثيرات كبيرة على التعبير الجيني مما يؤدي إلى القيم المتطرفة للتعبير في تلك الجينات في النوع الفرعي للمرض [7]. نظرًا لأن اختبار t التقليدي و ANOVA لا يكتشف القيم المتطرفة للتعبير النادر التي لا تغير بشكل كبير المتوسط ​​داخل المجموعة ، فقد استخدمنا طريقة تحليل ملف تعريف السرطان (COPA) [8] لاكتشاف القيم المتطرفة. وجدنا أن 79 من 20261 جينًا أظهروا تعبيرًا مفرطًا ملحوظًا (القيم المتطرفة) في عينات ورم معينة (ملف S1) ، بما في ذلك 3 جينات لسرطان البروستاتا تم الإبلاغ عنها سابقًا (أرج, ETV1, و SPINK1) [9]. ارتبط التعبير المفرط لـ SPINK1 عكسياً مع الإفراط في التعبير عن ERG باستثناء عينة واحدة حيث تم التعبير عن كلاهما بشكل مفرط (ملف S1). تم استخدام IPA للتحقيق فيما إذا كانت الجينات الـ 79 ذات القيم المتطرفة للتعبير تشترك في مسار مشترك أو عملية بيولوجية (جدول S4). ومن المثير للاهتمام ، أن أهم خمسة مسارات أساسية من IPA حددت خمسة جينات (IDO1, TDO2, ALOX15, DEFA5 و DEFA6) تشارك في الاستجابات الالتهابية والمناعة. قيم تعبير DASL لـ DEFA5 و DEFA6 كانت مرتبطة ارتباطًا وثيقًا (ارتباط بيرسون ص = 0.72). أنماط التعبير الجيني ل IDO1, TDO2, ALOX15 و DEFA6 في أربعة أنواع من العينات ، مصنفة حسب الأنسجة والحالة العمرية ، موضحة في الشكل 3. تحقق تحليل RNAseq لـ 11 عينة من الورم من صحة القيم المتطرفة DASL للتعبير التي لوحظت في هذه الجينات (S4 الشكل).

يظهر المرضى الذين يعانون من تكرار كيميائي حيوي بلون وردي في عينات الورم المقابلة.

بالنسبة لكل جين ، كانت القيم المتطرفة أكثر شيوعًا في الشباب أكثر من المجموعة الأكبر سنًا. تجميع أنا افعل, TDO2, ALOX15، و DEFA6 البيانات وباستخدام اختبار الارتباط القائم على المسار ، وجدنا عددًا أكبر بشكل ملحوظ من العينات ذات القيم المتطرفة للتعبير في المجموعة الشابة مقارنة بالفوج الأكبر سنًا [12 من 24 مريضًا شابًا (50٪) مقارنة بـ 5 من 25 مريضًا أكبر سنًا (20٪) ، فيشر # الاختبار الدقيق لـ x02019s ، القيمة الاحتمالية = 0.038].

قمنا أيضًا بفحص هذه الجينات الأربعة في بيانات أطلس جينوم السرطان (TCGA) RNAseq لـ 24 مريضًا (& # x02264 50 عامًا) و 24 مريضًا (70 & # x0201378 عامًا) (جداول S5 و S6 S5 الشكل). مستويات التعبير بين DEFA5 و DEFA6 كانت أيضًا مرتبطة ارتباطًا وثيقًا (ارتباط بيرسون 0.82). ل TDO2, ALOX15، و DEFA6، كانت أنماط التعبير الخارجية متشابهة بين بيانات ميكروأري DASL وبيانات TCGA RNAseq. ومع ذلك ، تعبير بعيد عن IDO1 في TCGA لم يكن واضحًا حتى قمنا بتضمين عينات إضافية من TCGA. عند إجراء نفس اختبار الارتباط المستند إلى المسار في بيانات TCGA للجينات الأربعة ، وجدنا عددًا أكبر بكثير من العينات ذات القيم المتطرفة للتعبير في فئة الشباب TCGA مقارنة بالفئة العمرية الأكبر سنًا (قيمة p الدقيقة لـ Fisher & # x02019s 0.008) 15 من 24 مريضًا شابًا (62.5٪) مقارنة بـ 5 من 24 مريضًا أكبر سنًا (20.8٪) كان لديهم تعبير واحد على الأقل خارج عن الجينات الأربعة. تتوافق هذه النتائج مع بيانات DASL الخاصة بنا.

توصيف DEGs التي تعكس الاختلاف في خصائص الورم بين المجموعتين

تم إجراء تحليل الكتلة الهرمي للورم والعينات الطبيعية باستخدام قيم تعبير لـ 98 DEGs مع قيمة P غير معدلة & # x0003c 0.01 و | FC | & # x0003e 1.3 تم التعرف عليه من التباين اللائق بين ورم الشباب مقابل ورم قديم. ستة وأربعون من أصل 49 عينة طبيعية مجمعة في مجموعة واحدة بقيمة 97٪ من قيمة دعم التمهيد (S6 الشكل) 20 من 24 عينة من الورم الفوج الصغير مجمعة و 18 من 25 عينة من الورم الأترابي الأكبر سنًا مجمعة بأكثر من 80٪ قيمة التمهيد (S7 الشكل) . عند تجميع 49 عينة من الورم ، شكلت 98 DEGs مجموعتين رأسيتين رئيسيتين ، تم تصنيفهما على أنهما مجموعة الجينات 1 (51 جينًا) ومجموعة الجينات 2 (47 جينًا) (S7 الشكل) ، تميزت مجموعة الورم & # x0201cuung-cohort & # x0201d بـ التنظيم المشترك للجينات في المجموعة الجينية 1 والتنظيم التنازلي للجينات في المجموعة الجينية 2. كان للورم & # x0201clate-onset & # x0201d اتجاه معاكس في التعبير. لوحظ نمط عنقودي مشابه حسب الحالة العمرية في بيانات TCGA RNAseq.

من IPA من 98 DEGs ، شارك 24 DEGs في بناء مورفولوجيا الورم ، بما في ذلك 9 جينات متعلقة بإعادة تشكيل المصفوفة خارج الخلية (ECM) ، و 3 في مسارات مستقبلات السيتوكين ، و 3 في إشارات مسار Wnt ، وجين واحد للبروتياز ، وجين التصاق خلية واحد ، و 1 برو أونكوجين (ملف S1). تسعة من الـ 24 جينًا كانت في المجموعة الجينية 1 و 15 كانت في المجموعة الجينية 2. لذلك ، فإن هذا الاتجاه المعاكس لأنماط التعبير المشترك التي تميز المجموعة العمرية لعينات الورم قد يعكس اختلافًا في علم أمراض الورم بين المبكر والمتأخر. ظهور الأورام. تظهر أنماط التعبير الجيني من بيانات DASL في الشكل S8a و S8b. وتظهر أنماط التعبير الجيني لبيانات TCGA RNAseq في الشكل S8c و S8d. ARG2 في المجموعة الجينية 1 و Wnt5A في المجموعة الجينية 2 كأمثلة ، تشير هذه البيانات إلى عدم وجود فروق ذات دلالة إحصائية في التعبير بين العينات العادية من المجموعتين. ومع ذلك ، لوحظ الاتجاه المعاكس للتعبير بين عينات الورم من المجموعتين لمجموعتي الجينات المعبر عنها بشكل مشترك.

لقد بحثنا في ارتباط نمط التعبير الجيني لـ 98 DEGs مع الأنواع الفرعية لسرطان البروستاتا الجزيئي ERG- الاندماج الإيجابي (ERG +) ، الاندماج غير ERG ETS الإيجابي (non-ERG ETS +) ، الإفراط في التعبير عن سبينك 1 (SPINK1 +) ، وثلاثي السالب (ERG & # x02212 / non-ERG ETS - / SPINK1 -) [9،10]. تم تعيين أنواع فرعية من الورم لعينة الورم البالغ عددها 49 بناءً على بيانات تعبير DASL لـ أرج, خدمات الاختبارات التربوية، و سبينك 1 (ملف S1). ثم أجرينا تحليل الكتلة الهرمية الخاضعة للإشراف (S10 الشكل). هذه المجموعة من الجينات تتجمع مع جينات الأنواع الفرعية للبروستات في المجموعة الجينية الأولى (الجانب الأيمن من الصورة) أظهرت تعبيرًا مفرطًا في النوع الفرعي للورم ERG + والتعبير الخاضع للتنظيم في النوع الفرعي للورم SPINK + والنوع الفرعي للورم السلبي الثلاثي بينما أظهرت الجينات في المجموعة الجينية II نمط التعبير المعاكس.

كانت بيانات مستضد البروستاتا النوعي (PSA) بعد الجراحة متاحة لـ 46 من 49 مريضًا. من بين 46 مريضًا ، كان هناك 7 تكرار كيميائي حيوي (يُعرف باسم PSA & # x02265 0.2 نانوغرام / مل مع اختبارات PSA المتتالية & # x02265 0.2 نانوغرام / مل). كان خمسة مرضى في المجموعة الشابة واثنان في المجموعة الأكبر سناً. الإفراط في التعبير عن IDO1 و CTLA4 كانت مرتبطة بشكل كبير مع تكرار الكيمياء الحيوية بين المرضى الخمسة الشباب. كان لتعبير CTLA4 لـ 24 عينة من الورم المبكر نمط توزيع ثنائي النسق بمتوسط ​​تعبير log2 يبلغ 7.2 (8 عينات من الورم) و 6.3 (16 عينة من الورم) في المجموعتين ذات الوضع المرتفع والمنخفض ، على التوالي (الشكل 2). كان المرضى الذين يعانون من تكرار كيميائي حيوي في مجموعة الوضع العالي (p & # x0003c 0.002 ، اختبار Fisher & # x02019s الدقيق). وبالمثل ، فإن جميع المرضى الصغار الثلاثة الذين يعانون من الإفراط في التعبير عن جين IDO1 لديهم تكرار كيميائي حيوي (p & # x0003c 0.005 ، اختبار Fisher & # x02019s الدقيق) (الشكل 3).


المواد والأساليب

تطبيقات

موقع GEPIA متاح مجانًا لجميع المستخدمين. تم إنشاؤه بواسطة مكتبات HTML5 و JavaScript ، بما في ذلك jQuery (http://jquery.com) و Bootstrap (http://getbootstrap.com/) لواجهة المستخدم من جانب العميل. تتم معالجة البيانات التفاعلية من جانب الخادم بواسطة نصوص PHP (الإصدار 7.0.13). يقوم موقع الويب تلقائيًا بضبط الشكل والمظهر وفقًا للمتصفحات والأجهزة المختلفة ، بدءًا من أجهزة الكمبيوتر المكتبية إلى الأجهزة اللوحية والهواتف الذكية. لا توجد متطلبات تسجيل الدخول للوصول إلى أي ميزات في GEPIA.

لحل الخلل بين الورم والبيانات الطبيعية التي يمكن أن تسبب عدم الكفاءة في التحليلات التفاضلية المختلفة ، نقوم بتنزيل بيانات التعبير الجيني TCGA و GTEx التي أعيد حسابها من بيانات RNA-Seq الخام بواسطة مشروع UCSC Xena استنادًا إلى خط أنابيب موحد ( شكل 1). نتشاور مع الخبراء الطبيين لتحديد أنسب مجموعات العينات للمقارنات بين الورم والطبيعي. يتم تخزين مجموعات البيانات في قاعدة بيانات MySQL العلائقية (الإصدار 5.7.17).

مخطط يصف معالجة البيانات وعرضها لأداة التصور GEPIA.


يعد سرطان المبيض أحد الأسباب الرئيسية لوفيات الإناث في جميع أنحاء العالم. غالبًا ما يتم تشخيصه في مرحلة متأخرة بسبب أعراض غير محددة (Allemani et al. ، 2015). يشمل سرطان المبيض الظهاري (EOC) بشكل أساسي سرطان المصل ، المخاطي ، بطانة الرحم ، الخلايا الشفافة ، غير المتمايز والأنواع النسيجية الأخرى من السرطانات. سرطان الغدد الكيسية المصلي في المبيض (OSC) هو أكثر أنواع السرطانات فتكًا بالجهاز التناسلي الأنثوي. تشير التقديرات إلى أن 150.000 امرأة تموت من هذا المرض سنويًا ويتم تشخيص 230.000 امرأة بسرطان المبيض كل عام (Siegel، Miller & amp Jemal، 2016). يحتل سرطان الغدد الكيسية المصلي في المبيض حوالي 90٪ من جميع سرطانات المبيض (شبكة أبحاث أطلس جينوم السرطان ، 2011). معدل البقاء على قيد الحياة لمدة 5 سنوات لمرضى المرحلة الأولى أعلى من 90٪. أقل من 20٪ في المراحل من الثالث إلى الرابع. يشمل العلاج القياسي الجراحة الخلاوية مع العلاج الكيميائي المركب من الخط الأول. أظهرت الدراسات أن 25٪ من مرضى سرطان المبيض لديهم مقاومة أولية لأنظمة العلاج الكيميائي ، و 80٪ من المرضى قد يصابون بمقاومة ثانوية أثناء العلاج الكيميائي (Zhang et al. ، 2019). مع تطور التكنولوجيا ، تم تطبيق المؤشرات الحيوية التشخيصية والعلاج الموجه في العديد من أنواع السرطانات بما في ذلك EOC. هناك حاجة ماسة إلى مؤشرات حيوية فعالة ودقيقة للتشخيص والتنبؤ بالنتائج والعلاج الشخصي.

تم إنشاء أطلس جينوم السرطان (TCGA) لاكتشاف التشوهات الجينية في السرطان لدى مجموعات كبيرة في جميع أنحاء العالم للتحقيق في آلية تكوين الأورام وتطورها. تم تقسيم سرطان الغدد الكيسية المصلي في المبيض إلى أربعة أنواع فرعية: متباينة ، مناعية ، متوسطة وتكاثرية في قاعدة بيانات TCGA ، وفقًا لملفات التعبير الجيني الخاصة بهم. يظهر مرضى EOC أعلى معدل انتشار لـ BRCA الطفرات بين جميع الأنواع المرضية لسرطان المبيض والتي ترتبط بتطور EOC والتشخيص (Pan & amp Xie ، 2017).

تلعب البيئة المكروية للورم دورًا مهمًا في نشأة الورم وتطوره ، والذي يحتوي على الخلايا المناعية وخلايا اللحمة المتوسطة والخلايا البطانية والوسطاء الالتهابيين وجزيئات المصفوفة خارج الخلية (Hanahan & amp Weinberg ، 2000). توفر الخلايا اللحمية إشارات نمو الخلايا السرطانية ، ومستقلبات وسيطة ، وتوفر بيئة مناسبة لتطور الورم وكذلك ورم خبيث (Yuan et al. ، 2016). خوارزمية تسمى ESTIMATE (تقدير الخلايا اللحمية والمناعة في أنسجة الورم الخبيث باستخدام بيانات التعبير) تحسب درجات المناعة والسدادة للتنبؤ بتسلل الخلايا غير السرطانية ، عن طريق تحليل توقيع التعبير الجيني المحدد للخلايا المناعية والسدوية ، وقد تم تطويره من أجل تحليل نقاوة الورم والخصائص المناعية في قاعدة بيانات TCGA في عدة أنواع من السرطانات (Alonso et al. ، 2017 Priedigkeit et al. ، 2017 Yoshihara et al. ، 2013).

في هذه الدراسة ، نستخدم خوارزمية ESTIMATE لتحديد الجينات الرئيسية في مرضى OSC من خلال تحليل ملفات تعريف تعبير TCGA والبيانات السريرية. تم إجراء مزيد من تحليل المعلومات الحيوية لتحديد ارتباط هذه الجينات بالتشخيص في سرطان المبيض.


الملخص

كشفت شبكة أبحاث أطلس جينوم السرطان (TCGA) عن مجموعة كبيرة من الأنماط الظاهرية السريرية والجزيئية لأكثر من 10000 مريض أورام عبر 33 نوعًا مختلفًا من الأورام.باستخدام هذا الفوج ، نشرت TCGA أكثر من 20 ورقة علامة توضح بالتفصيل التعديلات الجينومية والجينية المرتبطة بأنواع الورم هذه. على الرغم من أن العديد من الاكتشافات المهمة قد تم إجراؤها بواسطة شبكة أبحاث TCGA ، إلا أن الفرص لا تزال موجودة لتنفيذ طرق جديدة ، وبالتالي توضيح مسارات بيولوجية وعلامات تشخيصية جديدة. ومع ذلك ، فإن استخراج بيانات TCGA يعرض العديد من تحديات المعلوماتية الحيوية ، مثل استرجاع البيانات والتكامل مع البيانات السريرية وأنواع البيانات الجزيئية الأخرى (مثل مثيلة الحمض النووي الريبي والحمض النووي). قمنا بتطوير حزمة R / Bioconductor تسمى TCGAbiolinks لمواجهة هذه التحديات وتقديم حلول المعلوماتية الحيوية باستخدام سير عمل موجه للسماح للمستخدمين بالاستعلام عن بيانات TCGA وتنزيلها وتنفيذها. لقد جمعنا طرقًا من علوم الكمبيوتر والإحصاءات في خط الأنابيب وأدرجنا المنهجيات التي تم تطويرها في دراسات علامات TCGA السابقة وفي مجموعتنا الخاصة. باستخدام أربعة أنواع مختلفة من أورام TCGA (الكلى والدماغ والثدي والقولون) كأمثلة ، نقدم دراسات حالة لتوضيح أمثلة على التكاثر والتحليل التكاملي واستخدام حزم الموصلات الحيوية المختلفة لتعزيز وتسريع الاكتشافات الجديدة.


يحدد تكامل بيانات التعبير الجيني الجينات والمسارات الرئيسية في سرطان القولون والمستقيم

يعد سرطان القولون والمستقيم (CRC) أحد أكثر الأورام الخبيثة شيوعًا والأسباب الأكثر انتشارًا للوفاة المرتبطة بالسرطان في جميع أنحاء العالم. في هذه الدراسة ، قمنا بتحليل ملامح التعبير الجيني للمرضى الذين يعانون من CRC بهدف فهم أفضل للآلية الجزيئية والجينات الرئيسية في CRC. تم تنزيل أربعة ملفات تعريف للتعبير الجيني من قاعدة بيانات GEO ، بما في ذلك GSE9348 و GSE41328 و GSE41657 و GSE113513. تمت معالجة البيانات باستخدام لغة برمجة R ، حيث تم تحديد 319 جينًا شائعًا معبرًا تفاضليًا بما في ذلك 94 جينًا منظمًا و 225 تنظيمًا منخفضًا. تم إجراء تحليلات تخصيب الجينات (GO) وموسوعة كيوتو للجينات ومسار الجينوم (KEGG) للعثور على أهم المسارات المخصبة في اتفاقية حقوق الطفل. استنادًا إلى تحليل مسار GO و KEGG ، كانت أهم المسارات غير المنظمة هي تنظيم تكاثر الخلايا ونقل الكربونات الحيوية ومسارات إشارات Wnt و IL-17 واستقلاب النيتروجين. تم إنشاء شبكة تفاعل البروتين والبروتين (PPI) الخاصة بـ DEGs باستخدام برنامج Cytoscape وتم تحديد جينات المحور بما في ذلك MYC و CXCL1 و CD44 و MMP1 و CXCL12 باعتبارها الجينات المحورية الأكثر أهمية. تعزز الدراسة الحالية فهمنا للآليات الجزيئية لاتفاقية حقوق الطفل ، والتي يمكن تطبيقها في استراتيجيات علاج CRC كأهداف جزيئية ومؤشرات حيوية تشخيصية.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


المواد والأساليب

جمع وتعريف قائمة الجينات EE

استخدمنا مراجعتين حديثتين ممتازتين [2 ، 3] ، بالإضافة إلى بحث إضافي في الأدب ، لتجميع الجينات ذات الأدوار في تشكيل الإبيجينوم. على وجه التحديد ، قمنا بجمع الجينات التي ترميز تعديل الكروماتين وإعادة تشكيل الإنزيمات ، والجينات المشاركة في مسارات إزالة ميثيل الحمض النووي و / أو الحمض النووي ، والجينات المشاركة في تعديل الهيستون ، والجينات المشاركة في تحديد موقع النواة. تم جمع ما مجموعه 212 تعديل كروماتين / جينات EE ، بما في ذلك جميع الكتاب والقراء والمحايات والمحررين الرئيسيين للإبيجينوم ، من أكثر من 20 عائلة جينية (الجدول S1 في ملف إضافي 1). في جميع أنحاء هذه المخطوطة نشير إلى هذه الفئة من 212 جينًا عمومًا على أنها إنزيمات لاجينية (EEs). من بين عائلات الجينات الممثلة كان الحمض النووي (السيتوزين -5 -) - ميثيل ترانسفيراز (DNMTs) ، بروتينات ربط الميثيل- CpG (MBDs) ، نازعات الهيدروجين أيزوسيترات (IDHs) ، عشرة 11 إزفاء ميثيل سيتوزين ديوكسيجيناز (TETs) ، إصبع الزنك ومجال BTB تحتوي على (ZBTBs) ، هيستون ديستيلاز (HDACs) ، هيستون أسيتيل ترانسفيرازز (HATs) ، ليسين (K) - ميثيل ترانسفيرازات (KMTs) ، بروتين أرجينين N- ميثيل ترانسفيراز (PRMTs) ، ليسين (K) - إنزيم ميثيلاز محدد (KDMTs). بروتينات ربط الحمض النووي (CHDs) (انظر الجدول S1 في الملف الإضافي 1 للحصول على قائمة كاملة).

بيانات التعبير الجيني TCGA

تم تنزيل بيانات التعبير من المستوى 3 RNA-SeqV2 ، التي تم تحديدها كميا على أنها RSEM (RNA-Seq عن طريق تعظيم التوقعات) من TCGA. قمنا بتنزيل البيانات لعشرة أنواع من السرطانات التي حددت أعدادًا كافية من عينات السرطان في كل من مستويات RNA-Seq و DNAm (الجدول S2 في ملف إضافي 1). وشمل ذلك سرطان الثدي الغازي (BRCA) [32] ، وسرطان المثانة (BLCA) [26] ، وسرطان القولون الغدي (COAD) [24] ، وسرطان الخلايا الحرشفية في الرأس والرقبة (HNSC) [23] ، وسرطان الكلى الكلوي (KIRC) [ 29] ، سرطان الخلايا الكبدية الكبدية (LIHC) [31] ، سرطان الغدة الرئوية (LUAD) [25] ، سرطان الخلايا الحرشفية الرئوية (LUSC) [27] ، سرطان الغدة الدرقية (THCA) [28] وسرطان بطانة الرحم بجسم الرحم (UCEC) [ 30]. تمت معالجة بيانات المستوى 3 RNA-Seq بشكل أكبر على النحو التالي: (1) تم استبدال الإدخالات ذات القيمة الصفرية بالقيمة الإيجابية الدنيا لمجموعة البيانات (2) ثم تم تحويل قيم التعبير لوغاريتميًا (الأساس 2) من أجل تنظيم البيانات. تم تقييم التباين بين العينات وجودة البيانات باستخدام تحليلات القيمة الفردية (SVDs) [73] عن طريق التحقق من أن المكون العلوي للتباين مرتبط بالحالة الطبيعية / السرطانية. قبل تطبيق SVD ، تم توسيط قيم التعبير المحول بالسجل أولاً بحيث يكون لكل جين متوسط ​​صفر في جميع العينات. تم بعد ذلك الاستدلال على عدد مكونات الاختلاف المهمة باستخدام نظرية المصفوفة العشوائية [74]. ارتبطت المكونات الهامة للتباين بالعوامل المظهرية والفنية لتقييم المساهمات النسبية للمتغيرات البيولوجية والتقنية لتغير البيانات وتم تمثيلها في ص قيمة خريطة الحرارة بين المكونات والعوامل.

بيانات TCGA DNAm

بالنسبة لأنواع السرطان العشرة المذكورة أعلاه ، تم تنزيل بيانات DNAm التي تم إنشاؤها باستخدام مصفوفة Illumina Infinium HumanMethylation450 BeadChip [75] من بوابة بيانات TCGA. تم الحصول على مستوى المثيلة لكل مسبار كقيمة بيتا ، والتي تم حسابها من شدة الأليلات الميثيلية (M) وغير الميثيل (U): beta = Max (M ، 0) / [Max (M ، 0) + Max ( U، 0) +100]. يتراوح بيتا من 0 (غير ميثيل) و 1 (مميثل بالكامل). تمت إزالة المجسات مع البيانات المفقودة (أي NAs) في أكثر من 70 ٪ من العينات. تم احتساب بقية المجسات مع NAs باستخدام إجراء التضمين k- الأقرب (knn) [76]. بعد ذلك ، تم استخدام مؤشر كتلة الجسم لتصحيح تحيز المسبار من النوع الثاني [77]. ثم خضعت البيانات من كل نوع من أنواع السرطان لتحليل مراقبة جودة SVD نفسه ، كما هو الحال بالنسبة للتعبير الجيني.

إرلانجن إلومينا 450 ألف بيانات الحمض النووي لسرطان الثدي

تم جمع بيانات Illumina 450k DNAm لـ 30 عينة عادية (من النساء الأصحاء) ، و 21 عينة طبيعية مجاورة لسرطان الثدي ، و 165 عينة من سرطان الثدي ضمن دراسة حالات سرطان الثدي وضوابطه في ولاية بافاريا 2. لجنة الأخلاقيات بكلية الطب ، فريدريش- وافقت جامعة الإسكندر على الدراسة (رقم 4514) وأعطى جميع المرضى موافقة خطية مستنيرة. تم إجراء الدراسة وفقًا لإعلان هلسنكي. تتوفر البيانات في Gene Expression Omnibus (رقم المدخل GSE69914). تمت معالجة ملفات البيانات الخام باستخدام حزم minfi و impute و BMIQ / ChAMP Bioconductor.

التعبير التفاضلي TCGA التحليل التلوي لجينات EE عبر السرطان

لكل مجموعة بيانات تعبير TCGA ، استخدمنا اختبارات t معتدلة [78] لتقييم التعبير التفاضلي لما يقرب من 20000 جين بين الأنسجة السرطانية الطبيعية والمطابقة ، بما في ذلك 212 جينة EE. نلاحظ أننا استخدمنا جميع عينات السرطان وليس فقط تلك التي تحتوي على أنسجة طبيعية متطابقة. في ضوء التحليل التلوي اللاحق ، استخدمنا الاسمي المريح ص عتبات القيمة 0.05 للإعلان عن دلالة إحصائية في كل مجموعة بيانات TCGA فردية. قمنا بحساب عدد جينات EE التي أظهرت تعبيرًا تفاضليًا كبيرًا ومتسقًا (أي نفس الاتجاه) عبر ثمانية على الأقل من أنواع السرطان / الأنسجة العشرة. لتقييم الأهمية الإحصائية الإجمالية لهذه التهم ، قمنا أيضًا بتقدير نسب جميع جينات الجينوم البشري مع زيادة كبيرة في التعبير وانخفاض التعبير في كل مجموعة بيانات TCGA ، وبالتالي الحصول على احتمالات "خالية" من الإفراط في التعبير (تنظيم ، ص ش) ونقص التعبير (خاضع للتنظيم ، ص د). لاحظنا أن هذه الاحتمالات لا تختلف كثيرًا بين أنواع السرطان (الجدول S3 في ملف إضافي 1). ومن ثم ، قمنا بعد ذلك بتقدير متوسط ​​الاحتمالية الفارغة لأي جين معين ليتم تنظيمه أو تقليله بشكل كبير في السرطان مقارنة بالأنسجة الطبيعية عن طريق أخذ متوسط ​​الاحتمالات المقابلة عبر جميع أنواع السرطان. كانت تقديرات متوسط ​​الاحتمالية الفارغة (< overline

> _u حوالي 0.32 ) و (< overline

> _d حوالي 0.34 ). ثم قمنا بتقدير الاحتمال الصفري بأن أي جين معين سوف يتم تنظيمه بشكل كبير (أقل تنظيمًا) في ثمانية على الأقل من أنواع السرطان العشرة ، باستخدام الصيغة ذات الحدين:

هذا أسفر عن قيم ص(nUP ≥ 8) 0.003 و ص(nDN ≥ 8) 0.004. أخيرًا ، بالنظر إلى مجموعة من 212 جينًا عشوائيًا ، يمكننا تقدير العدد المتوقع الذي سيتم تنظيمه بشكل كبير (خفض التنظيم) في ثمانية على الأقل من أنواع السرطان العشرة. يتم إعطاء ذلك من خلال التوزيع ذي الحدين B (n ، p) مع (n = 212 ، ص = 0.003) في حالة التنظيم ، و (ن = 212 ، ص = 0.004) في حالة تقليل التنظيم. نجد ذلك ه[nUP ≥ 8] 0.54 (± 0.73) و ه[nDN ≥ 8] 0.89 (± 0.94) ، أي بشكل فعال نتوقع فقط 1 من 212 جين يمكن تفسيره بالصدفة العشوائية. أخيرًا ، باستخدام التوزيع ذي الحدين ، يمكننا تقدير الأهمية الإحصائية للأعداد الملحوظة من جينات EE الكبيرة والمفرطة في التعبير بشكل مستمر. كانت الأرقام التي تمت ملاحظتها 35 جينة EE منتظمة ، و 27 جينات EE خاضعة للتنظيم ، والتي لا يمكن تفسيرها بالصدفة العشوائية (ص = 2e-53 للحالة المنظمة ، ص = 9e-33 للحالة الخاضعة للتنظيم).

بناء مؤشرات عدم الاستقرار اللاجينى: HyperZ و HypoZ

من أجل التحقيق فيما إذا كان التعبير الشاذ عن EEs في سرطان معين مرتبطًا بالتغيرات في ميثيلوم الحمض النووي لهذا السرطان ، قمنا أولاً بحساب "مؤشرات عدم الاستقرار اللاجيني" التي تعكس الانحرافات المطلقة في DNAm في عينة سرطان معينة ، كما تم تقييمه بالنسبة إلى الطبيعي عينات من نفس نوع الأنسجة. قررنا إنشاء اثنين من هذه المؤشرات ، يسمى HyperZ و HypoZ ، لحساب الآليات المتميزة المحتملة التي تقود فرط ميثيل الحمض النووي للسرطان ونقص ميثيل الحمض النووي. تم إنشاء المؤشرات على النحو التالي: تم تصنيف جميع CpGs في الجينوم إلى فئات إقليمية مختلفة ، وفقًا لما إذا كانت تقع في مناطق البحر المفتوح أو CGI أو مناطق الشاطئ / الرفوف ، على التوالي [79]. تم بعد ذلك تجميع جميع مواقع CpG داخل فئة إقليمية معًا في مجموعات إقليمية باستخدام وظيفة boundedClusterMaker من بومفونتر حزمة BioC بعرض أقصى للكتلة 1500 نقطة أساس وفجوة قصوى تبلغ 500 نقطة أساس بين أي اثنين من CpGs المتجاورتين [80]. تم تعريف مستوى المثيلة لكل مجموعة إقليمية على أنها متوسط ​​قيمة بيتا لـ CpGs داخل تلك المجموعة. لمجموعة / منطقة معينة ، مسماة ص، في عينة ورم معينة س، ثم حسبنا درجة Z ، ض روبية، مما يعكس انحراف الغفران في الحمض النووي لتلك المنطقة في عينة السرطان المعينة بالنسبة لجميع العينات الطبيعية من نفس نوع الأنسجة. على وجه التحديد ، دعونا ميكرومتر ص (ن) و σ ص (ن) تشير إلى المتوسط ​​والانحراف المعياري لمستوى DNAm للمجموعة الإقليمية ص على جميع عينات الأنسجة الطبيعية. ثم ض روبية تم تعريفه على أنه ( _= فارك < بيتا_- < mu> _r ^ <(N) >> < sigma_r ^ <(N) >> ). نظرًا لأن تعيين المجموعات الإقليمية لمحفز CGIs عادة ما يكون غير ميثيل في الأنسجة الطبيعية ، فإننا نأخذ في الاعتبار فقط المجموعات التي تكون فيها درجة Z في عينة سرطان معينة إيجابية. وبالمثل ، بالنسبة للمجموعات الإقليمية للبحر المفتوحة ، والتي عادة ما يتم ميثيلها في الأنسجة الطبيعية ، فإننا نأخذ بعين الاعتبار فقط المجموعات في عينة سرطان معينة تكون فيها درجة Z سلبية ، على الرغم من أننا نفرض الإيجابية لضمان أخذ الانحراف المطلق في الاعتبار. على وجه التحديد ، مؤشر HyperZ لعينة سرطان معينة س تم الحصول عليها على النحو التالي:

حيث يكون التجميع فوق كل مجموعات CGI للمروج وأين ح(ض) يشير إلى وظيفة Heaviside: ح(ض) = 1 إذا z & gt 0, ح(ض) = 0 إذا ض ≤ 0. وهكذا ، فإن المناطق التي تكون فيها درجة Z إيجابية فقط هي التي تساهم في المؤشر ، وإيجابية المؤشر مضمونة بالتعريف. وبالمثل ، تم تقدير مؤشر HypoZ لعينة سرطان معينة على النحو التالي:

حيث يكون التجميع الآن على جميع التجمعات الإقليمية للبحر المفتوح. يضمن المصطلح الذي يتضمن وظيفة Heaviside مساهمة المناطق ذات الدرجات السلبية فقط ، أي hypomethylation من الحالة الميثيلية. وبالتالي ، فإن أخذ القيمة المطلقة للدرجات Z يضمن أن يكون المؤشر دائمًا إيجابيًا.

يمكن اعتبار مؤشرات HyperZ و HypoZ على أنها مؤشرات "عدم استقرار جيني" بمعنى أنها تقيس المستويات العالمية للانحراف المطلق في DNAm في عينة سرطان معينة من مرجع عادي. يقيد مؤشر HyperZ ذلك على المروج CGIs ومن ثم يقيس المستوى العام لفرط الميثيل السرطاني في هذه المناطق ، في حين يعكس مؤشر HypoZ المستوى المطلق الإجمالي لمثيلات الهيبوميثيل للسرطان في مناطق البحر المفتوحة.

في هذه المخطوطة ، نستخدم أيضًا تعريفًا بديلاً لمؤشرات HyperZ و HypoZ ، حيث يتم حساب المتوسط ​​فقط عبر المناطق الجينومية ، ص، والتي حصلت على درجة Z ، ض روبية، غير مهمة (ص & lt 0.05). وبالتالي ، فإن هذا التعريف للمؤشرات يستخدم مناطق مهمة فقط. تم إجراء التحليل التلوي للارتباط بين RNA-Seq لجينات EE ومؤشرات HyperZ / HypoZ الموصوفة أدناه باستخدام هذا التعريف الأخير للمؤشرات ، نظرًا لأن مؤشرات HyperZ / HypoZ كانت أقل ارتباطًا بهذا التعريف ، معلومات أقل زائدة عن الحاجة أو أكثر تكميلية.

التحليل التلوي للارتباط للتعبير الجيني EE ومؤشرات عدم الاستقرار اللاجيني

تم استخدام تحليل ارتباط بيرسون لتقييم ما إذا كان التعبير عن EE مرتبطًا بمؤشر HypoZ و HyperZ من عينات الورم المتطابقة. من الضروري التأكيد هنا على أن هذه الارتباطات تم حسابها فقط على عينات الورم باستخدام بيانات RNA-Seq و DNAm المتطابقة. تم تحويل معاملات ارتباط بيرسون إلى فيشر Z-Statistics (Z = 0.5 log frac <1 + PCC> <1-PCC> ) من خلالها ص ثم تم اشتقاق القيم. غير معدل ص القيم & lt0.05 اعتبرت ذات دلالة إحصائية. مرة أخرى ، تم استخدام العتبة المريحة بسبب التحليل التلوي اللاحق الذي من شأنه إعادة تقييم مستويات الأهمية الإحصائية على جميع أنواع السرطان معًا. لتقييم الأهمية الإحصائية في التحليل التلوي ، قمنا بحساب كل مجموعة من بيانات TCGA لجزء من الجينات (من جميع الجينات التي تحتوي على بيانات RNA-Seq) تظهر ارتباطات إيجابية وسلبية مهمة مع مؤشرات HyperZ و HypoZ. أسفر هذا عن أربعة كسور / احتمالات لكل مجموعة بيانات TCGA ، تتوافق مع الارتباطات الإيجابية مع HyperZ ، والارتباطات السلبية مع HyperZ ، والارتباطات الإيجابية مع HypoZ والارتباطات السلبية مع HypoZ. من هذه الكسور ، قمنا بعد ذلك بحساب الاحتمال الكلي عن طريق حساب متوسط ​​الاحتمالات المقابلة لجميع أنواع السرطان. قم بالإشارة إلى متوسط ​​الاحتمالات على النحو التالي: (< overline

>_ ) لمتوسط ​​احتمال أن يرتبط الجين العشوائي ارتباطًا إيجابيًا بمؤشر HyperZ (< overline

>_ ) لمتوسط ​​احتمال ارتباط الجين العشوائي سلبًا بمؤشر HyperZ (< overline

>_ ) لحالة الارتباطات الإيجابية مع HypoZ و (< overline

>_

) في حالة الارتباط السلبي مع HypoZ. كانت التقديرات المحددة لمتوسط ​​الاحتمالات (< overline

>_ تقريبا 0.12 ، < overline

>_ حوالي 0.16 ) و (< overline

>_

تقريبا 0.25 ). ثم قمنا بتقدير الاحتمال الفارغ بأن أي جين معين سيكون مرتبطًا بشكل إيجابي (سلبيًا) مع HyperZ في ستة على الأقل من أنواع السرطان العشرة ، وبالمثل بالنسبة لـ HypoZ ، باستخدام الصيغ ذات الحدين:

هذا أسفر عن قيم ص(nUU ≥ 6) ≈ 0.0004, ص(nDU ≥ 6) ≈ 0.02, ص(nUD ≥ 6) 0.002 و ص(DD 6) 0.02. أخيرًا ، بالنظر إلى مجموعة من 212 جينًا عشوائيًا ، يمكننا تقدير العدد المتوقع الذي سيكون مرتبطًا بشكل كبير (مضاد) مع HyperZ أو HypoZ في ستة على الأقل من أنواع السرطان العشرة. يتم الحصول على ذلك من خلال التوزيع ذي الحدين B (n ، p) مع n = 212 ومع p معطى بواسطة أحد الاحتمالات الأربعة المذكورة أعلاه. نجد ذلك ه[nUU ≥ 6] 0.54 (± 0.73) و ه[nDN ≥ 8] 0.89 (± 0.94) ، أي بشكل فعال نتوقع فقط 1 من 212 جين يمكن تفسيره بالصدفة العشوائية. أخيرًا ، باستخدام التوزيع ذي الحدين ، يمكننا تقدير الأهمية الإحصائية للأعداد الملحوظة من جينات EE الكبيرة والمفرطة في التعبير بشكل مستمر. كانت الأرقام المرصودة 35 جينة EE منتظمة ، و 27 جينة EE غير منظمة ، والتي لا يمكن تفسيرها بالصدفة العشوائية (ص = 2e-53 للحالة المنظمة ، ص = 9e-33 للحالة الخاضعة للتنظيم).

التحليل التلوي لنمذجة الشبكة السببية لجينات EE

أدى التحليل التلوي للتعبير التفاضلي وتعبير mRNA - التحليل التلوي HyperZ / HypoZ إلى 18 جينًا من EE ، مما يُظهر تعبيرًا تفاضليًا متسقًا وأنماطًا مترابطة عبر أنواع السرطان. ثم تعرضت هذه الجينات الـ 18 EE لتحليل نمذجة الشبكة السببية من أجل تقييم ما إذا كان من المحتمل أن تكون ارتباطات تعبير mRNA لهذه الجينات مع مؤشرات HyperZ / HypoZ تأثيرًا مباشرًا ، أو إذا كان من المحتمل بدلاً من ذلك أن يتم التوسط من قبل الآخرين العوامل (جينات EE الأخرى أو مستويات الحمض النووي المحفز لجينات EE). وبالتالي ، يمكن معالجة المشكلة من خلال اعتماد طريقة إحصائية يمكنها "إسكات" أو إزالة الارتباطات التي من المحتمل أن تكون غير مباشرة. لهذا الغرض ، استخدمنا إطار الارتباطات الجزئية / الانحدار الخطي متعدد المتغيرات [46]. على وجه التحديد ، أجرينا تحليلين منفصلين ، أحدهما يركز على جينات EE الفردية ، والآخر يشمل جميع جينات EE الثمانية عشر في النموذج. في النهج الأول ، قدرنا الارتباطات الجزئية بين HyperZ / HypoZ ومستوى تعبير كل جين EE باستخدام مستوى DNAm المروج لجين EE كمتغير مشترك. سمح لنا ذلك بتقييم ما إذا كانت العلاقة بين التعبير الجيني HyperZ / HypoZ و EE مستقلة عن مستوى محفز DNAm لجين EE. في الطريقة الثانية ، استخدمنا جميع أشكال التعبير الجيني 17 EE الأخرى بالإضافة إلى جميع مستويات DNAm للمروج الثمانية عشر كمتغيرات مشتركة ، عند تقدير الارتباط الجزئي بين تعبير جين EE مع مؤشر HyperZ أو HypoZ.سمح لنا ذلك بتقييم ما إذا كان ارتباط تعبير جين EE مع HyperZ / HypoZ ليس مستقلاً فقط عن مستوى الحمض النووي للمروج ، ولكنه أيضًا مستقل عن مستويات التعبير (والحمض النووي للمحفز) لجينات 17 EE الأخرى.

أدى تطبيق هذا الإجراء في كل نوع من أنواع السرطان إلى شبكة ارتباط جزئية. ثم قمنا ببناء شبكة إجماع على جميع أنواع السرطان العشرة ، مع وجود حواف تحدد الارتباطات الجزئية المهمة والمتسقة الموجودة في ستة على الأقل من أنواع السرطان العشرة.

ارتباط المواقع الجينومية بالتعبير الجيني للكهرباء

لتقييم ما إذا كانت نفس المواضع الجينومية تتأثر بجين معين من EE ، بصرف النظر عن نوع السرطان ، اعتمدنا نهج الارتباط على مستوى الجينوم. على وجه التحديد ، قمنا بحساب ارتباطات بيرسون بين مستوى الحمض النووي لأي منطقة / مجموعة معينة ومستوى التعبير الجيني EE ، باستخدام عينات السرطان فقط لتقدير الارتباط. في حالة الارتباطات مع HyperZ ، نظرنا فقط في المناطق / المجموعات المرتبطة بـ CGI. في حالة الارتباطات مع HypoZ ، أخذنا في الاعتبار مناطق / مجموعات البحر المفتوحة فقط. تم تحويل ارتباطات بيرسون إلى إحصائيات فيشر Z. ارتباط رتبة سبيرمان و ص تم استخدام قيم الترتيب التي تم الحصول عليها في كل نوع من أنواع السرطان لتقييم اتساق التصنيفات عبر أنواع السرطان.


شاهد الفيديو: Gene Expression (كانون الثاني 2022).