خواندن ۱۰ دقیقه·۱ ماه پیش

پرامپت نویسی برای استخراج خودکار منابع و ریفرنس‌ها از متون طولانی

از یک فایل ۳۰۰ صفحه‌ای تا کتابشناسی آماده در کمتر از ۵ دقیقه

ضرورت کار: چرا استخراج فقط «لیست مراجع» یک مهارت طلایی در پژوهش امروز است؟

شاید بپرسید: خب، استخراج لیست منابع که کار ساده‌ای است. چه فایده‌ای دارد که فقط مراجع را بدون متن اصلی بیرون بکشیم؟

پاسخ من به عنوان کسی که دو دهه در پژوهش و آموزش کار کرده: این نگاه سطحی، دقیقاً همان جایی است که پژوهشگران حرفه‌ای از آماتورها جدا می‌شوند. استخراج خودکار لیست مراجع، یک عملیات غنی‌سازی داده‌های کتابشناختی است که کاربردهای حیاتی زیر را دارد:

۱. ساخت سریع کتابشناسی اولیه: با استخراج مراجع از ۱۰ مقاله کلیدی، یک دیتابیس غنی از صدها منبع مرتبط به دست می‌آورید. پس از حذف تکراری‌ها، مستقیماً در Zotero وارد می‌کنید. این کار ۷۰٪ زمان جمع‌آوری منابع اولیه را کاهش می‌دهد.

۲. شناسایی مقالات بنیادین: (Seminal Works) با تحلیل هم‌استنادی ساده روی مراجع چند مقاله، می‌بینید کدام منابع بیشتر تکرار شده‌اند. آن‌ها پایه‌های اصلی حوزه شما هستند – بدون نیاز به خواندن حتی یک خط از متن اصلی.

۳. بررسی شکاف پژوهشی (Gap Analysis) : اگر مراجع ۵ مقاله مرتبط را کنار هم بگذارید و ببینید منبعی در ۴ مقاله هست ولی در مقاله پنجم نیست، احتمال تعصب یا نقص در جستجوی سیستماتیک را نشان می‌دهد. این نقطه می‌تواند شکاف روش‌شناختی پروپوزال شما باشد!

۴. برآورد به‌روزرسانی یک منبع قدیمی: یک پایان‌نامه سال ۱۳۹۰ را در نظر بگیرید. اگر آخرین مرجع آن مربوط به 1388 باشد، یعنی کار ارزش استنادی پایینی دارد. برعکس، اگر ۳۰٪ مراجع یک مقاله متعلق به دو سال منتهی با انشتار آن باشد، نویسنده به روز کار کرده است.

۵. تغذیه نرم‌افزارهای تحلیل شبکه اجتماعی (VOSviewer, Gephi) : این ابزارها برای رسم نقشه علم به داده‌های کتابشناختی خام نیاز دارند. با استخراج مراجع ۵۰ مقاله، می‌توانید گراف خوشه‌بندی موضوعات را بدون خواندن متن کامل رسم کنید.

۶. خودکارسازی اسناد دهی معکوس: برای یک مقاله کلیدی، مراجع آن (منابع پیشین) را استخراج کنید. با تکرار برای ۱۰ مقاله، یک درخت دانش از اجداد علمی آن حوزه می‌سازید.

۷. اعتبارسنجی سریع یک منبع ناشناس: پیش از خواندن یک preprint، نگاهی به مراجع آن بیندازید. اگر پر است از ژورنال‌های درجه چهارم و وبلاگ‌ها، وقتتان را تلف نکنید. اگر مراجع آن از Nature, Science, Elsevier باشد، احتمالاً منبع معتبری است.

۸. تولید پیش‌نویس «پیشینه پژوهش» پروپوزال: لیست مراجع را به هوش مصنوعی بدهید و بگویید بر اساس عنوان، سال و نویسنده، یک پاراگراف دسته‌بندی شده بنویسد. بعد خودتان خلأها را پر می‌کنید.

۹. تشخیص خوداستنادی بیش از حد: اگر از ۵ مقاله یک ژورنال بیش از ۳۰٪ مراجع به همان ژورنال یا همان نویسنده ارجاع دهد، یک هشدار اخلاقی جدی دارید.

۱۰. تبدیل سریع فرمت مراجع برای ژورنال‌های مختلف: لیست مراجع خام خود را به AI بدهید و بخواهید از APA به IEEE تبدیل کند – بدون نیاز به کل مقاله.

خلاصه: استخراج لیست مراجع یک «داده‌ساختاریافته غنی» است که برای تحلیل، غربال، اعتبارسنجی و خودکارسازی به کار می‌رود. و این دقیقاً همان جایی است که پرامپت نویسی حرفه‌ای وارد می‌شود.

حالا برویم سراغ روش اجرایی.

ابزارهای مورد نیاز:

برای استخراج خودکار منابع، بسته به حجم و نوع متن، از یکی از ابزارهای زیر استفاده کنید. محدودیت‌ها را هم در نظر داشته باشید.

Claude 3.5 Sonnet
• روش دسترسی: poe.com یا direct
• محدودیت رایگان: ۵۰ پیام در روز
• مناسب برای: متون تا ۱۵۰ صفحه
ChatGPT (GPT-4o mini)
• روش دسترسی: chatgpt.com
• محدودیت رایگان: با محدودیت
• مناسب برای: متون تا ۵۰ صفحه
Google AI Studio (Gemini 1.5 Pro)
• روش دسترسی: aistudio.google.com
• محدودیت رایگان: ۵۰ درخواست در دقیقه
• مناسب برای: متون خیلی بلند (تا ۲ میلیون توکن) – بهترین گزینه
SciSpace
• روش دسترسی: typeset.io
• محدودیت رایگان: محدود
• مناسب برای: استخراج منابع از مقالات علمی

توصیه من: برای متون بلندتر از ۱۰۰ صفحه، حتماً از Google AI Studio (Gemini 1.5 Pro) استفاده کنید. پنجره زمینه آن فوق‌العاده بزرگ است و کل کتاب را یکجا آپلود می‌کند.

اصل اول: درک ساختار ریفرنس در متون طولانی

پیش از پرامپت نویسی، سه سناریو را بشناسید:

سناریو ۱ – منابع متمرکز در انتها: ساده‌ترین حالت. یک بخش References یا Bibliography دارد.
سناریو ۲ – ارجاع‌های درون‌متن پراکنده: متن پر از (Author, year) یا Author (year) است، اما فهرست پایانی منظمی ندارد.
سناریو ۳ – متون بدون ارجاع (مصاحبه، یادداشت): سخت‌ترین حالت. این مقاله روی سناریوهای ۱ و ۲ تمرکز دارد.

گام اول: چرا پرامپت ساده «منابع را استخراج کن» جواب نمی‌دهد؟

اگر به Claude بگویید: «منابع این PDF را استخراج کن»، چه می‌شود؟ هوش مصنوعی شروع می‌کند به «حدس زدن» منابع. معمولاً ۵-۱۰ مورد اول را درست می‌آورد، بعد بقیه را فراموش می‌کند یا فرمت خراب تحویل می‌دهد.

علت: مدل‌های زبانی برای «خلاصه‌سازی» بهینه شده‌اند، نه برای «استخراج دقیق داده‌های ساختاریافته». پس باید پرامپت را طوری طراحی کنیم که هوش مصنوعی نقش یک پایگاه داده‌ساز را بگیرد.

گام دوم: پرامپت به روش «آزادسازی کامل» (برای متون با کتابشناسی متمرکز در انتها)

این پرامپت را دقیقاً کپی کنید و در Claude یا Gemini ترجیحاً Gemini برای متون بلند وارد کنید.

پرامپت طلایی:

تو یک ابزار استخراج داده‌های کتابشناختی با دقت ۱۰۰٪ هستی. من یک متن علمی طولانی آپلود می‌کنم. قوانین زیر را با دقت دنبال کن:

۱. تمام منابعی که در بخش "References" یا "Bibliography" یا "Sources" یا "Literature Cited" انتهای متن آمده‌اند را استخراج کن.
۲. هیچ منبعی را حذف نکن، حتی اگر فرمت آن غیراستاندارد باشد.
۳. استخراج را به صورت یک لیست شماره‌دار با فرمت زیر انجام بده:
[1] نام نویسنده. (سال). عنوان مقاله. نام ژورنال، جلد(شماره)، صفحات DOI اگر موجود باشد.
۴. اگر DOI نبود، URL پایدار را بنویس. اگر هیچکدام نبود، فقط تا صفحات بنویس.
۵. بعد از استخراج همه منابع، یک خلاصه بده: تعداد کل منابع، چندتای آنها DOI دارند، چندتا کتاب هستند، چندتا مقاله ژورنال.
۶. اگر قسمتی از یک منبع مبهم بود یا کاراکترهای خراب داشت، آن قسمت را با [مبهم] علامت بزن و حدس نزن.
۷. خروجی نهایی فقط لیست منابع و خلاصه باشد. هیچ توضیح اضافه‌ای نده.

نتیجه: یک لیست تمیز و آماده برای کپی در Zotero، EndNote یا هر نرم‌افزار مدیریت منابع.

بعد از دریافت خروجی میتوانید با یک پرامت جدید منابع دارای ابهام یا فاقد URL یا DOI را تکمیل کنید!

گام سوم: استخراج از ارجاع‌های درون‌متن (بدون بخش کتابشناسی مجزا)

وقتی متنی دارید که پر از (Author, year) است، اما بخش منابع انتهایی ندارد (مثل پیش‌نویس خام یا یادداشت‌های سخنرانی). در اینجا هوش مصنوعی باید الگوها را تشخیص دهد.

پرامپت تخصصی:

تو یک متخصص بازیابی اطلاعات هستی. من یک متن طولانی آپلود می‌کنم که حاوی ارجاع‌های درون‌متن به صورت (نام خانوادگی، سال) یا نام خانوادگی (سال) است، اما بخش منابع مجزا در انتها ندارد.

وظیفه تو:
۱. تمام ارجاع‌های درون‌متن را با الگوهای زیر پیدا کن:

(نام خانوادگی، سال)
(نام خانوادگی1 و نام خانوادگی2، سال)
(نام خانوادگی همکاران، سال9
نام خانوادگی (سال)
۲. برای هر ارجاع یک شناسه یکتا بساز مثل [REF1], [REF2]
۳. اگر در همان نزدیکی (حداکثر ۲۰۰ کاراکتر قبل یا بعد) اطلاعات کامل منبع (عنوان، ژورنال، جلد، صفحات) وجود داشت، آن را استخراج کن. اگر نه، فقط «منبع ناقص» را ثبت کن.
۴. خروجی در دو بخش:
بخش اول: متن اصلی با جایگذاری شناسه‌ها به جای ارجاع‌ها.
بخش دوم: لیست شناسه‌ها همراه با اطلاعات استخراج‌شده.

گام چهارم: استخراج و تبدیل همزمان به BibTeX برای Zotero, Mendeley

اگر می‌خواهید خروجی را مستقیم به نرم‌افزار مدیریت منابع بدهید، این پرامپت پیشرفته را به کار ببرید.

پرامپت نهایی BibTeX :

تو یک مبدل کتابشناختی حرفه‌ای هستی. من یک متن علمی آپلود می‌کنم که شامل بخش "References" است.

وظیفه تو:
۱. همه منابع را یکی یکی استخراج کن.
۲. برای هر منبع، فیلدهای author, title, journal/booktitle, year, volume, number, pages, doi, url, publisher (برای کتاب‌ها) را شناسایی کن.
۳. سپس هر منبع را به فرمت BibTeX تبدیل کن. نوع منبع را خودت تشخیص بده:

اگر journal داشت @article
اگر book یا publisher داشت @book
اگر editor به جای author داشت @incollection یا @proceedings
۴. خروجی نهایی فقط یک بلوک متنی حاوی همه رکوردهای BibTeX باشد، از @preamble شروع شود و با @comment پایان یابد.
۵. اگر فیلدی برای یک منبع پیدا نشد، آن فیلد را اصلاً در BibTeX ننویس (مقدار خالی نگذار).

نکته: این خروجی را در Zotero با مسیر File → Import → BibTeX وارد کنید. زمانتان را نجات می‌دهد.

گام پنجم: رفع رایج‌ترین خطاهای استخراج

حتی با بهترین پرامپت‌ها، سه خطای زیر ممکن است رخ دهد. راه‌حل هر کدام را یادداشت کنید.

خطای ۱ – افتادن منابع میانی
علت: هوش مصنوعی از حد توکن خارج شده.
راه حل: متن را به چند بخش تقسیم کنید، هر بخش را جداگانه پرامپت بدهید و نتایج را دستی ترکیب کنید.

خطای ۲ – به هم ریختگی نام نویسندگان
علت: فرمت‌های متفاوت مثلاً "Smith, J." در مقابل "J. Smith"
راه حل: به پرامپت اضافه کنید: همه نام نویسندگان را به فرمت «نام خانوادگی، حرف اول نام» نرمال کن.

خطای ۳ – تکرار یک منبع چندبار
علت: ارجاع به یک منبع در نقاط مختلف متن.
راه حل: در پرامپت بگویید: اگر یک منبع عیناً تکراری بود، فقط یک بار در خروجی بیاور و شماره تعدد را داخل پرانتز بنویس.

راهنمای انتخاب ابزار و پرامپت بر اساس نوع متن

مقاله با بخش منابع مجزا PDF تا ۵۰ صفحه:
ابزار: Claude (Poe)
پرامپت: آزادسازی کامل
زمان تقریبی: ۲ دقیقه
مقاله خیلی بلند (۱۰۰ تا ۳۰۰ صفحه):
ابزار Google AI Studio (Gemini 1.5 Pro)
پرامپت: همان «آزادسازی کامل» + درخواست خروجی مرحله‌ای
زمان تقریبی: ۴ دقیقه
متن بدون منابع مجزا، فقط ارجاع درون‌متن:
ابزار: ChatGPT (GPT-4o)
پرامپت: تشخیص ارجاع درون‌متن
زمان تقریبی: ۵ دقیقه
نیاز به خروجی BibTeX یا RIS :
ابزار Claude یا Gemini
پرامپت: مبدل BibTeX
زمان تقریبی: ۳ دقیقه
متن اسکن شده (غیرقابل انتخاب):
ابزار: ابتدا OCR با Google Keep یا OnlineOCR، سپس هر کدام از روش‌های بالا
زمان اضافی: +۱۰ دقیقه

اشتباهات مرگباری که نباید انجام دهید

۱. اعتماد کامل به هوش مصنوعی: همیشه ۱۰ منبع اول را با نسخه اصلی مقایسه کنید. اگر در ۱۰ تای اول ۳ اشتباه دیدید، یعنی پرامپت را باید اصلاح کنید.

۲. درخواست تغییر سبک ارجاع‌دهی در حین استخراج: اول استخراج کنید، بعد با Zotero سبک (APA, MLA, IEEE) را تغییر دهید.

۳. فراموش کردن زبان فارسی: اگر متن فارسی است، به AI بگویید: الف و ی عربی را به فارسی تبدیل کن، و نام‌های فارسی را درست تشخیص بده.

۴. آپلود فایل‌های دارای DRM یا حفاظت شده: AI معمولاً نمی‌تواند آنها را باز کند. اول با Adobe Acrobat یا ابزارهای آنلاین غیرمحافظت کنید.

جمع‌بندی: دستورالعمل سریع ۴ مرحله‌ای

مرحله ۱ – متن خود را در ابزار مناسب آپلود کنید Gemini برای متون بلند، Claude برای متون متوسط.
مرحله ۲ – پرامپت «آزادسازی کامل» را کپی کنید (متن آن در همین مقاله بالا آمده).
مرحله ۳ – خروجی را دریافت کنید و یک نمونه ۵ تایی را با چشم کنترل کنید.
مرحله ۴ – اگر نیاز به BibTeX دارید، خروجی مرحله قبل را دوباره به همان هوش مصنوعی بدهید همراه با پرامپت مبدل.

مقایسه زمان:
روش سنتی: ۴ تا ۶ ساعت
با یک پرامپت ساده (بدون بهینه‌سازی): ۴۵ دقیقه (چون باید خطاها را دستی پاک کنید)
با پرامپت‌های حرفه‌ای این مقاله: کمتر از ۵ دقیقه

🔗 اکو سیستم پرامپت نویسی پژوهشگران

پرامپت‌هایی که در این مقاله دیدید را به همراه یک مجموعه کامل پرامپت های پژوهشی به صورت یک پکیج تخصصی آماده کرده‌ام.

📌 لینک فروشگاه پرامپت آکادمی:

https://promptacademy.sellfile.ir/

📌 مطالب مرتبط در ویرگول (پیشنهادی):

پرامپت نویسیهوش مصنوعیپرامپتپژوهشیادگیری ماشین

دکتر رضا براتی Dr. Reza Barati

رضا براتی، پژوهشگر و متخصص در زمینه هوش مصنوعی، انتخاب به عنوان دو درصد دانشمندان برتر دنیا طی سه سال اخیر توسط Stanford University |محصولات آموزشی پرامپت: 🔗 https://promptacademy.sellfile.ir

شاید از این پست‌ها خوشتان بیاید

دکتر رضا براتی Dr. Reza Barati

خواندن ۱۰ دقیقه·۱ ماه پیش

پرامپت نویسی برای استخراج خودکار منابع و ریفرنس‌ها از متون طولانی

از یک فایل ۳۰۰ صفحه‌ای تا کتابشناسی آماده در کمتر از ۵ دقیقه

ضرورت کار: چرا استخراج فقط «لیست مراجع» یک مهارت طلایی در پژوهش امروز است؟

حالا برویم سراغ روش اجرایی.

ابزارهای مورد نیاز:

Claude 3.5 Sonnet
• روش دسترسی: poe.com یا direct
• محدودیت رایگان: ۵۰ پیام در روز
• مناسب برای: متون تا ۱۵۰ صفحه
ChatGPT (GPT-4o mini)
• روش دسترسی: chatgpt.com
• محدودیت رایگان: با محدودیت
• مناسب برای: متون تا ۵۰ صفحه
Google AI Studio (Gemini 1.5 Pro)
• روش دسترسی: aistudio.google.com
• محدودیت رایگان: ۵۰ درخواست در دقیقه
• مناسب برای: متون خیلی بلند (تا ۲ میلیون توکن) – بهترین گزینه
SciSpace
• روش دسترسی: typeset.io
• محدودیت رایگان: محدود
• مناسب برای: استخراج منابع از مقالات علمی

اصل اول: درک ساختار ریفرنس در متون طولانی

پیش از پرامپت نویسی، سه سناریو را بشناسید:

سناریو ۱ – منابع متمرکز در انتها: ساده‌ترین حالت. یک بخش References یا Bibliography دارد.
سناریو ۲ – ارجاع‌های درون‌متن پراکنده: متن پر از (Author, year) یا Author (year) است، اما فهرست پایانی منظمی ندارد.
سناریو ۳ – متون بدون ارجاع (مصاحبه، یادداشت): سخت‌ترین حالت. این مقاله روی سناریوهای ۱ و ۲ تمرکز دارد.

گام اول: چرا پرامپت ساده «منابع را استخراج کن» جواب نمی‌دهد؟

گام دوم: پرامپت به روش «آزادسازی کامل» (برای متون با کتابشناسی متمرکز در انتها)

این پرامپت را دقیقاً کپی کنید و در Claude یا Gemini ترجیحاً Gemini برای متون بلند وارد کنید.

پرامپت طلایی:

نتیجه: یک لیست تمیز و آماده برای کپی در Zotero، EndNote یا هر نرم‌افزار مدیریت منابع.

بعد از دریافت خروجی میتوانید با یک پرامت جدید منابع دارای ابهام یا فاقد URL یا DOI را تکمیل کنید!

گام سوم: استخراج از ارجاع‌های درون‌متن (بدون بخش کتابشناسی مجزا)

پرامپت تخصصی:

وظیفه تو:
۱. تمام ارجاع‌های درون‌متن را با الگوهای زیر پیدا کن:

(نام خانوادگی، سال)
(نام خانوادگی1 و نام خانوادگی2، سال)
(نام خانوادگی همکاران، سال9
نام خانوادگی (سال)
۲. برای هر ارجاع یک شناسه یکتا بساز مثل [REF1], [REF2]
۳. اگر در همان نزدیکی (حداکثر ۲۰۰ کاراکتر قبل یا بعد) اطلاعات کامل منبع (عنوان، ژورنال، جلد، صفحات) وجود داشت، آن را استخراج کن. اگر نه، فقط «منبع ناقص» را ثبت کن.
۴. خروجی در دو بخش:
بخش اول: متن اصلی با جایگذاری شناسه‌ها به جای ارجاع‌ها.
بخش دوم: لیست شناسه‌ها همراه با اطلاعات استخراج‌شده.

گام چهارم: استخراج و تبدیل همزمان به BibTeX برای Zotero, Mendeley

اگر می‌خواهید خروجی را مستقیم به نرم‌افزار مدیریت منابع بدهید، این پرامپت پیشرفته را به کار ببرید.

پرامپت نهایی BibTeX :

تو یک مبدل کتابشناختی حرفه‌ای هستی. من یک متن علمی آپلود می‌کنم که شامل بخش "References" است.

اگر journal داشت @article
اگر book یا publisher داشت @book
اگر editor به جای author داشت @incollection یا @proceedings
۴. خروجی نهایی فقط یک بلوک متنی حاوی همه رکوردهای BibTeX باشد، از @preamble شروع شود و با @comment پایان یابد.
۵. اگر فیلدی برای یک منبع پیدا نشد، آن فیلد را اصلاً در BibTeX ننویس (مقدار خالی نگذار).

نکته: این خروجی را در Zotero با مسیر File → Import → BibTeX وارد کنید. زمانتان را نجات می‌دهد.

گام پنجم: رفع رایج‌ترین خطاهای استخراج

حتی با بهترین پرامپت‌ها، سه خطای زیر ممکن است رخ دهد. راه‌حل هر کدام را یادداشت کنید.

راهنمای انتخاب ابزار و پرامپت بر اساس نوع متن

مقاله با بخش منابع مجزا PDF تا ۵۰ صفحه:
ابزار: Claude (Poe)
پرامپت: آزادسازی کامل
زمان تقریبی: ۲ دقیقه
مقاله خیلی بلند (۱۰۰ تا ۳۰۰ صفحه):
ابزار Google AI Studio (Gemini 1.5 Pro)
پرامپت: همان «آزادسازی کامل» + درخواست خروجی مرحله‌ای
زمان تقریبی: ۴ دقیقه
متن بدون منابع مجزا، فقط ارجاع درون‌متن:
ابزار: ChatGPT (GPT-4o)
پرامپت: تشخیص ارجاع درون‌متن
زمان تقریبی: ۵ دقیقه
نیاز به خروجی BibTeX یا RIS :
ابزار Claude یا Gemini
پرامپت: مبدل BibTeX
زمان تقریبی: ۳ دقیقه
متن اسکن شده (غیرقابل انتخاب):
ابزار: ابتدا OCR با Google Keep یا OnlineOCR، سپس هر کدام از روش‌های بالا
زمان اضافی: +۱۰ دقیقه

اشتباهات مرگباری که نباید انجام دهید

۲. درخواست تغییر سبک ارجاع‌دهی در حین استخراج: اول استخراج کنید، بعد با Zotero سبک (APA, MLA, IEEE) را تغییر دهید.

جمع‌بندی: دستورالعمل سریع ۴ مرحله‌ای

🔗 اکو سیستم پرامپت نویسی پژوهشگران

📌 لینک فروشگاه پرامپت آکادمی:

https://promptacademy.sellfile.ir/

📌 مطالب مرتبط در ویرگول (پیشنهادی):

پرامپت نویسیهوش مصنوعیپرامپتپژوهشیادگیری ماشین

دکتر رضا براتی Dr. Reza Barati

شاید از این پست‌ها خوشتان بیاید