Using Machine Learning to Predict Rare Diseases
(Prabha Kannan – بقلم: برابها كانان)
ملخص المقالة:
توفر البنوك الحيوية للباحثين القدرة على استكشاف الأمراض ودراسة مساهمات الجينات والبيئة في مسار المرض، وتمكنهم من استخلاص استنتاجات حول العوامل التي تتراوح من العلاقة بين النظام الغذائي والمرض إلى حجم الأسرة وشدة “كوفيد”، مما أسفر عن رؤى قيمة لتوجيه الباحثين والأطباء والمرضى على حد سواء. وغالبا ما تكون المعلومات غير المكتملة مشكلة في مجموعات بيانات المرضى، وتمثل المعلومات المفقودة حاجزًا كبيرًا أمام الباحثين الذين يجرون دراسات عن الأمراض ويبحثون عن أنماط يمكن أن تؤدي إلى اختراقات جديدة.
ولمعالجة هذه المشكلة، تعاون باحثون من جامعة ستانفورد لإنشاء نموذج “التنميط الظاهري الموضوعي القائم على السكان بواسطة الاستقراء العميق”، يمكنه تنبؤ مجموعة شاملة من رموز التشخيص لجميع المرضى في البنك الحيوي بالمملكة المتحدة، الذي يحتفظ ببيانات نصف مليون مشارك من المملكة المتحدة، بما في ذلك مرضى يعانون من أمراض نادرة. وتطلعا إلى المستقبل، يهتم الباحثون بتحليل السلسلة الزمنية لبيانات المريض، والتي لن تنظر فقط في احتمالية الإصابة بمرض ولكن أيضًا عندما في حياتهم يكون المريض مصابًا به. وهناك طريقة أخرى محتملة تتمثل في دمج بيانات النمط الظاهري والنمط الجيني في النموذج، مما يمنح الباحثين منظورًا أكثر شمولاً حول الأمراض مما لديهم الآن.
( المقالة )
نموذج “التنميط الظاهري الموضوعي القائم على السكان بواسطة الاستقراء العميق” (Population-based Objective Phenotyping by Deep Extrapolation – POPDx) يلغي الحاجة إلى مجموعات بيانات كبيرة للمرضى، مما يمنحه القدرة على مساعدة المرضى الذين يعانون من أمراض غير شائعة.
توفر البنوك الحيوية – قواعد البيانات التي تحتوي على معلومات وراثية وصحية – للباحثين القدرة على استكشاف الأمراض ودراسة مساهمات الجينات والبيئة في مسار المرض. وقد مكنتنا هذه التحقيقات من استخلاص استنتاجات حول العوامل التي تتراوح من العلاقة بين النظام الغذائي والمرض إلى حجم الأسرة وشدة “كوفيد”، مما أسفر عن رؤى قيمة لتوجيه الباحثين والأطباء والمرضى على حد سواء.
ولكن البنوك الحيوية مفيدة فقط مثل كمية ونوعية البيانات الموجودة فيها. وغالبًا ما تكون المعلومات غير المكتملة مشكلة في مجموعات بيانات المرضى، كما توضح لو يانغ، طالبة الدكتوراه في جامعة ستانفورد. وتقول يانغ: “قد نعلم أن المريض قد عولج من مرض السكري من النوع الثاني، على سبيل المثال، ولكن إذا لم يتم علاجه مطلقًا في المستشفى في مكان للمرضى الداخليين، فقد يكون مصطلح السكري من النوع الثاني مفقودًا من بياناتهم”. وتمثل هذه المعلومات المفقودة حاجزًا كبيرًا أمام الباحثين الذين يجرون دراسات عن الأمراض ويبحثون عن أنماط يمكن أن تؤدي إلى اختراقات جديدة.
ولمعالجة هذه المشكلة، تعاونت يانغ مع طالب ما بعد الدكتوراه في جامعة ستانفورد مؤخرًا شينغ وانغ والبروفيسور روس ألتمان – المدير المساعد لمركز “الذكاء الاصطناعي المتمركز حول الإنسان” (HAI) في جامعة ستانفورد وأستاذ الهندسة الحيوية، وعلم الوراثة، والطب، وعلوم البيانات الطبية الحيوية، وعلوم الكمبيوتر – لإنشاء نموذج يمكنه تنبؤ مجموعة شاملة من رموز التشخيص (تسمى أيضًا رموز النمط الظاهري) لجميع المرضى في البنك الحيوي بالمملكة المتحدة.
ويحتفظ هذا البنك ببيانات نصف مليون مشارك من المملكة المتحدة، بما في ذلك مرضى يعانون من أمراض نادرة. ومن خلال إنشاء نموذج “التنميط الظاهري الموضوعي القائم على السكان بواسطة الاستقراء العميق”، وهو إطار للتعلم الآلي للتعرف على الأمراض، أنشأ فريق البحث نموذجًا “ينتج احتمالية أن يكون الشخص مصابًا بأمراض معينة أو رموز النمط الظاهري”، وفقا لما ذكره يانغ.
وفي الواقع، يتفوق بروتوكول “الذكاء الاصطناعي المتمركز حول الإنسان” على النماذج الحالية في التنبؤ بالأمراض الشائعة والنادرة، بما في ذلك الأمراض غير الموجودة في بيانات التدريب (أي تدريب النموذج لتنبؤ الأمراض … المترجم).
وهذا اكتشاف مهم، وفقًا للبروفيسور ألتمان. ويقول: “بينما تتطلب معظم أساليب التعلم الآلي التي تستخدم الشبكات العصبية العميقة قدرًا هائلاً من التدريب، فقد سررنا جدًا لأن نهجنا باستخدام المعرفة السابقة مثل النص والتصنيف سمح لنا بالتعرف على بعض الأمراض في مجموعة الاختبار الخاصة بنا، على الرغم من أننا لم نرها من قبل في التدريب. هذا مهم لأنه على الرغم من وجود بيانات جوهرية في الطب، إلا أنها ليست بنفس مستوى شركات تقنية المعلومات الكبيرة، ولذا فمن الأهمية بمكان أن نطور طرقًا يمكنها العمل على بيانات متفرقة، وتعمل بشكل جيد بما يكفي لمساعدة المرضى الذين يعانون من أمراض غير شائعة”.
بيانات حقيقية من مرضى حقيقيين
عند الشروع في هذا البحث، أخذت يانغ بعين الاعتبار العمل السابق للمؤلف الثاني وانغ حول تصنيف الخلايا. وفي ذلك البحث، استخدم وانغ علم الوجود الخلوي[1] (Cell Ontology) للتنبؤ بنوع خلية واحد صحيح لجميع الخلايا في مجموعة الاختبار. وأرادت يانغ اتباع نهج مماثل لـ “الذكاء الاصطناعي المتمركز حول الإنسان”، ولكن للأمراض. “اعتقدت أنه سيكون من الرائع الاستفادة بالمثل من علاقات الأمراض في علم الوجود الخلوي للأمراض البشرية لمعالجة التعرف على المرض”. فبينما كان بحث وانج مشكلة تصنيف فردية مقابل كل شيء حيث تم توقع نوع خلية واحد فقط، احتاجت يانغ إلى تصنيفات متعددة. “يمكن أن يعاني كل مريض من أمراض متعددة، لذلك تعاملنا معها على أنها مشكلة من نوع متعدد التصنيفات ومتعددة التصنيفات”، كما تقول.
والاختلاف الرئيسي الآخر في عمل يانغ هو اتساع نطاق المعلومات التي استخدمتها. ويبحث نموذج “الذكاء الاصطناعي المتمركز حول الإنسان” في ثروة من بيانات المرضى، من المعلومات الديموغرافية واستبيانات المرضى إلى الفحوصات الطبية وبيانات السجلات الصحية الإلكترونية. وحتى أنه يستخرج المعلومات من البيانات المادية والاختبارات المعملية. وتقول: “قبل ذلك، كانت معظم النماذج الحالية بحاجة إلى مجموعات بيانات جيدة التنظيم، مما يعني أنها قد لا تكون قادرة على النظر في وفرة الميزات التي يمكننا النظر فيها من خلال عملنا”.
وترجم الحجم الكبير لعمل يانغ مباشرة إلى مجموعة واسعة من رموز المرض التي يمكن للنموذج التنبؤ بها. وتقول يانغ: “عادةً ما يكون البحث محددًا لمجال معين، مثل أمراض القلب، لذلك سينظرون فقط في تلك المعلومات أو الرموز ذات الصلة. ولكن بالنسبة لدراستنا، حاولنا التوصل إلى ملف تعريف كامل للمشاركين في البنك الحيوي في المملكة المتحدة”.
التنبؤ بالأمراض بالرغم من مجموعات البيانات الصغيرة
يعمل نموذج “الذكاء الاصطناعي المتمركز حول الإنسان” من خلال البحث عن العلاقات بين بيانات المريض ومعلومات المرض ، باستخدام معالجة اللغة الطبيعية وعلم الوجود للأمراض البشرية لاتخاذ قرارات احتمالية. “يأتي التحدي الأكبر للنموذج من الأمراض التي لا نراها في التدريب أو لدينا القليل من البيانات عنها. كما نعلم، تعتمد معظم نماذج التعلم الآلي على مجموعات بيانات كبيرة، ولكن بعض هذه الأمراض لا تحتوي على بيانات”، كما تقول يانغ.
وكان أداء “الذكاء الاصطناعي المتمركز حول الإنسان” القوي مع بيانات محدودة أو حتى بدون بيانات قويا للغاية، مما يلغي الحاجة إلى مجموعات بيانات ضخمة. وتمكنت يانغ من تحسين المنطقة الواقعة تحت منحنى استرجاع الدقة[2] (AUPRC) (أي مقياس الدقة للنموذج) للأمراض غير المرئية والنادرة بنسبة 218٪ و 151٪. ووفقًا ليانغ، فإن هذا يعني أنه إذا احتاج الفريق الطبي إلى تحديد المرضى الذين يعانون من مرض منخفض الانتشار، فـ “نموذجنا في المتوسط سيزيد من إمكانية العثور على هذه الحالات الإيجابية.
وفي السابق، كان عليهم المرور بعدد كبير من المرضى في البنك الحيوي، لكن يمكنهم الآن فحص عدد أقل بكثير من أجل العثور على الحالات المحتملة”. وتوفر قدرة “الذكاء الاصطناعي المتمركز حول الإنسان” على التعرف على الأمراض النادرة نقطة انطلاق أفضل للأطباء والباحثين الذين يتطلعون إلى دراسة تلك الأمراض.
وأحد التحديات التي لاحظتها يانغ هو الانحراف الديموغرافي للبنك الحيوي في المملكة المتحدة، والذي يتكون من 56٪ من الإناث والأغلبية من البيض، ويبلغ متوسط العمر 71 عاما. ولكن الافتقار إلى التنوع في البنك الحيوي مرتبط بدرجة أقل بالبيانات مقارنة بالوصول إلى الرعاية الصحية على نطاق واسع. وتقول يانغ: “المشكلة هي أنه إذا لم يكن لدى شخص ما إمكانية الوصول إلى الرعاية الصحية، فليس لدينا بياناته”.
وقد تناول الباحثون هذا القلق من خلال تقديم معلومات أساسية حول التسلسل الهرمي والعلاقة بين الأمراض، مما أعطى النموذج دفعة عند التعامل مع أمراض غير مألوفة. وتعتقد يانغ أن هذه الاستراتيجية ربما أضافت أيضًا بعض العشوائية إلى النموذج وخففت من التحيز. وتأمل يانغ في أن يكون هناك المزيد من البنية التحتية في المستقبل لتمكين تكامل البيانات عبر العديد من البنوك الحيوية، مما يسمح بمزيد من مجموعات بيانات متنوعة.
مستقبل التنبؤ بالأمراض
بينما تتطلع إلى المستقبل، تهتم يانغ بتحليل السلسلة الزمنية لبيانات المريض، والتي لن تنظر فقط في احتمالية الإصابة بمرض ولكن أيضًا عندما في حياتهم يكون المريض مصابًا به. وهناك طريقة أخرى محتملة تتمثل في دمج بيانات النمط الظاهري والنمط الجيني في النموذج، مما يمنح الباحثين منظورًا أكثر شمولاً حول الأمراض مما لديهم الآن. ومهما كانت الخطوة التالية، فإن يانغ ملتزمة ببناء نماذج شاملة تعمل لأي شخص. وتقول يانغ: “سواء أكان مريضًا أو باحثًا، فإن الوصول إلى البيانات أمر بالغ الأهمية”.
*تمت الترجمة بتصرف
المصدر:
Using Machine Learning to Predict Rare Diseases (stanford.edu)
الهوامش:
[1] علم الوجود الخلوي هو علم الوجود الذي يهدف إلى التقاط تنوع أنواع الخلايا في الحيوانات. وهو جزء من مسبك الأنطولوجيا الطبية الحيوية والبيولوجية المفتوحة (OBO). تُستخدم معرفات علم الوجود الخلوي والهيكل التنظيمي للتعليق على البيانات على مستوى أنواع الخلايا ، على سبيل المثال في دراسات تسلسل الحمض النووي الريبي أحادية الخلية. وهو أحد الموارد المهمة في بناء أطلس الخلايا البشرية. تم وصف علم الوجود الخلوي لأول مرة في مقال أكاديمي عام 2005 من قبل جوناثان بارد؛ سونغ واي ري؛ مايكل أشبورنر في ورقة بحثية بعنوان: “علم الوجود لأنواع الخلايا” نشرت في مجلة “علم أحياء الجينوم” (Genome Biology). [2] المنطقة الواقعة تحت منحنى استرجاع الدقة (The area under the precision-recall curve – AUPRC) هي مقياس أداء مفيد للبيانات غير المتوازنة في إعداد المشكلة حيث يتم الاهتمام كثيرًا بالعثور على الأمثلة الإيجابية.