از یک فایل ۳۰۰ صفحهای تا کتابشناسی آماده در کمتر از ۵ دقیقه

ضرورت کار: چرا استخراج فقط «لیست مراجع» یک مهارت طلایی در پژوهش امروز است؟
شاید بپرسید: خب، استخراج لیست منابع که کار سادهای است. چه فایدهای دارد که فقط مراجع را بدون متن اصلی بیرون بکشیم؟
پاسخ من به عنوان کسی که دو دهه در پژوهش و آموزش کار کرده: این نگاه سطحی، دقیقاً همان جایی است که پژوهشگران حرفهای از آماتورها جدا میشوند. استخراج خودکار لیست مراجع، یک عملیات غنیسازی دادههای کتابشناختی است که کاربردهای حیاتی زیر را دارد:
۱. ساخت سریع کتابشناسی اولیه: با استخراج مراجع از ۱۰ مقاله کلیدی، یک دیتابیس غنی از صدها منبع مرتبط به دست میآورید. پس از حذف تکراریها، مستقیماً در Zotero وارد میکنید. این کار ۷۰٪ زمان جمعآوری منابع اولیه را کاهش میدهد.
۲. شناسایی مقالات بنیادین: (Seminal Works) با تحلیل هماستنادی ساده روی مراجع چند مقاله، میبینید کدام منابع بیشتر تکرار شدهاند. آنها پایههای اصلی حوزه شما هستند – بدون نیاز به خواندن حتی یک خط از متن اصلی.
۳. بررسی شکاف پژوهشی (Gap Analysis) : اگر مراجع ۵ مقاله مرتبط را کنار هم بگذارید و ببینید منبعی در ۴ مقاله هست ولی در مقاله پنجم نیست، احتمال تعصب یا نقص در جستجوی سیستماتیک را نشان میدهد. این نقطه میتواند شکاف روششناختی پروپوزال شما باشد!
۴. برآورد بهروزرسانی یک منبع قدیمی: یک پایاننامه سال ۱۳۹۰ را در نظر بگیرید. اگر آخرین مرجع آن مربوط به 1388 باشد، یعنی کار ارزش استنادی پایینی دارد. برعکس، اگر ۳۰٪ مراجع یک مقاله متعلق به دو سال منتهی با انشتار آن باشد، نویسنده به روز کار کرده است.
۵. تغذیه نرمافزارهای تحلیل شبکه اجتماعی (VOSviewer, Gephi) : این ابزارها برای رسم نقشه علم به دادههای کتابشناختی خام نیاز دارند. با استخراج مراجع ۵۰ مقاله، میتوانید گراف خوشهبندی موضوعات را بدون خواندن متن کامل رسم کنید.
۶. خودکارسازی اسناد دهی معکوس: برای یک مقاله کلیدی، مراجع آن (منابع پیشین) را استخراج کنید. با تکرار برای ۱۰ مقاله، یک درخت دانش از اجداد علمی آن حوزه میسازید.
۷. اعتبارسنجی سریع یک منبع ناشناس: پیش از خواندن یک preprint، نگاهی به مراجع آن بیندازید. اگر پر است از ژورنالهای درجه چهارم و وبلاگها، وقتتان را تلف نکنید. اگر مراجع آن از Nature, Science, Elsevier باشد، احتمالاً منبع معتبری است.
۸. تولید پیشنویس «پیشینه پژوهش» پروپوزال: لیست مراجع را به هوش مصنوعی بدهید و بگویید بر اساس عنوان، سال و نویسنده، یک پاراگراف دستهبندی شده بنویسد. بعد خودتان خلأها را پر میکنید.
۹. تشخیص خوداستنادی بیش از حد: اگر از ۵ مقاله یک ژورنال بیش از ۳۰٪ مراجع به همان ژورنال یا همان نویسنده ارجاع دهد، یک هشدار اخلاقی جدی دارید.
۱۰. تبدیل سریع فرمت مراجع برای ژورنالهای مختلف: لیست مراجع خام خود را به AI بدهید و بخواهید از APA به IEEE تبدیل کند – بدون نیاز به کل مقاله.
خلاصه: استخراج لیست مراجع یک «دادهساختاریافته غنی» است که برای تحلیل، غربال، اعتبارسنجی و خودکارسازی به کار میرود. و این دقیقاً همان جایی است که پرامپت نویسی حرفهای وارد میشود.
حالا برویم سراغ روش اجرایی.
ابزارهای مورد نیاز:
برای استخراج خودکار منابع، بسته به حجم و نوع متن، از یکی از ابزارهای زیر استفاده کنید. محدودیتها را هم در نظر داشته باشید.
Claude 3.5 Sonnet
• روش دسترسی: poe.com یا direct
• محدودیت رایگان: ۵۰ پیام در روز
• مناسب برای: متون تا ۱۵۰ صفحه
ChatGPT (GPT-4o mini)
• روش دسترسی: chatgpt.com
• محدودیت رایگان: با محدودیت
• مناسب برای: متون تا ۵۰ صفحه
Google AI Studio (Gemini 1.5 Pro)
• روش دسترسی: aistudio.google.com
• محدودیت رایگان: ۵۰ درخواست در دقیقه
• مناسب برای: متون خیلی بلند (تا ۲ میلیون توکن) – بهترین گزینه
SciSpace
• روش دسترسی: typeset.io
• محدودیت رایگان: محدود
• مناسب برای: استخراج منابع از مقالات علمی
توصیه من: برای متون بلندتر از ۱۰۰ صفحه، حتماً از Google AI Studio (Gemini 1.5 Pro) استفاده کنید. پنجره زمینه آن فوقالعاده بزرگ است و کل کتاب را یکجا آپلود میکند.
اصل اول: درک ساختار ریفرنس در متون طولانی
پیش از پرامپت نویسی، سه سناریو را بشناسید:
سناریو ۱ – منابع متمرکز در انتها: سادهترین حالت. یک بخش References یا Bibliography دارد.
سناریو ۲ – ارجاعهای درونمتن پراکنده: متن پر از (Author, year) یا Author (year) است، اما فهرست پایانی منظمی ندارد.
سناریو ۳ – متون بدون ارجاع (مصاحبه، یادداشت): سختترین حالت. این مقاله روی سناریوهای ۱ و ۲ تمرکز دارد.
گام اول: چرا پرامپت ساده «منابع را استخراج کن» جواب نمیدهد؟
اگر به Claude بگویید: «منابع این PDF را استخراج کن»، چه میشود؟ هوش مصنوعی شروع میکند به «حدس زدن» منابع. معمولاً ۵-۱۰ مورد اول را درست میآورد، بعد بقیه را فراموش میکند یا فرمت خراب تحویل میدهد.
علت: مدلهای زبانی برای «خلاصهسازی» بهینه شدهاند، نه برای «استخراج دقیق دادههای ساختاریافته». پس باید پرامپت را طوری طراحی کنیم که هوش مصنوعی نقش یک پایگاه دادهساز را بگیرد.
گام دوم: پرامپت به روش «آزادسازی کامل» (برای متون با کتابشناسی متمرکز در انتها)
این پرامپت را دقیقاً کپی کنید و در Claude یا Gemini ترجیحاً Gemini برای متون بلند وارد کنید.
پرامپت طلایی:
تو یک ابزار استخراج دادههای کتابشناختی با دقت ۱۰۰٪ هستی. من یک متن علمی طولانی آپلود میکنم. قوانین زیر را با دقت دنبال کن:
۱. تمام منابعی که در بخش "References" یا "Bibliography" یا "Sources" یا "Literature Cited" انتهای متن آمدهاند را استخراج کن.
۲. هیچ منبعی را حذف نکن، حتی اگر فرمت آن غیراستاندارد باشد.
۳. استخراج را به صورت یک لیست شمارهدار با فرمت زیر انجام بده:
[1] نام نویسنده. (سال). عنوان مقاله. نام ژورنال، جلد(شماره)، صفحات DOI اگر موجود باشد.
۴. اگر DOI نبود، URL پایدار را بنویس. اگر هیچکدام نبود، فقط تا صفحات بنویس.
۵. بعد از استخراج همه منابع، یک خلاصه بده: تعداد کل منابع، چندتای آنها DOI دارند، چندتا کتاب هستند، چندتا مقاله ژورنال.
۶. اگر قسمتی از یک منبع مبهم بود یا کاراکترهای خراب داشت، آن قسمت را با [مبهم] علامت بزن و حدس نزن.
۷. خروجی نهایی فقط لیست منابع و خلاصه باشد. هیچ توضیح اضافهای نده.
نتیجه: یک لیست تمیز و آماده برای کپی در Zotero، EndNote یا هر نرمافزار مدیریت منابع.
بعد از دریافت خروجی میتوانید با یک پرامت جدید منابع دارای ابهام یا فاقد URL یا DOI را تکمیل کنید!
گام سوم: استخراج از ارجاعهای درونمتن (بدون بخش کتابشناسی مجزا)
وقتی متنی دارید که پر از (Author, year) است، اما بخش منابع انتهایی ندارد (مثل پیشنویس خام یا یادداشتهای سخنرانی). در اینجا هوش مصنوعی باید الگوها را تشخیص دهد.
پرامپت تخصصی:
تو یک متخصص بازیابی اطلاعات هستی. من یک متن طولانی آپلود میکنم که حاوی ارجاعهای درونمتن به صورت (نام خانوادگی، سال) یا نام خانوادگی (سال) است، اما بخش منابع مجزا در انتها ندارد.
وظیفه تو:
۱. تمام ارجاعهای درونمتن را با الگوهای زیر پیدا کن:
(نام خانوادگی، سال)
(نام خانوادگی1 و نام خانوادگی2، سال)
(نام خانوادگی همکاران، سال9
نام خانوادگی (سال)
۲. برای هر ارجاع یک شناسه یکتا بساز مثل [REF1], [REF2]
۳. اگر در همان نزدیکی (حداکثر ۲۰۰ کاراکتر قبل یا بعد) اطلاعات کامل منبع (عنوان، ژورنال، جلد، صفحات) وجود داشت، آن را استخراج کن. اگر نه، فقط «منبع ناقص» را ثبت کن.
۴. خروجی در دو بخش:
بخش اول: متن اصلی با جایگذاری شناسهها به جای ارجاعها.
بخش دوم: لیست شناسهها همراه با اطلاعات استخراجشده.
گام چهارم: استخراج و تبدیل همزمان به BibTeX برای Zotero, Mendeley
اگر میخواهید خروجی را مستقیم به نرمافزار مدیریت منابع بدهید، این پرامپت پیشرفته را به کار ببرید.
پرامپت نهایی BibTeX :
تو یک مبدل کتابشناختی حرفهای هستی. من یک متن علمی آپلود میکنم که شامل بخش "References" است.
وظیفه تو:
۱. همه منابع را یکی یکی استخراج کن.
۲. برای هر منبع، فیلدهای author, title, journal/booktitle, year, volume, number, pages, doi, url, publisher (برای کتابها) را شناسایی کن.
۳. سپس هر منبع را به فرمت BibTeX تبدیل کن. نوع منبع را خودت تشخیص بده:
اگر journal داشت @article
اگر book یا publisher داشت @book
اگر editor به جای author داشت @incollection یا @proceedings
۴. خروجی نهایی فقط یک بلوک متنی حاوی همه رکوردهای BibTeX باشد، از @preamble شروع شود و با @comment پایان یابد.
۵. اگر فیلدی برای یک منبع پیدا نشد، آن فیلد را اصلاً در BibTeX ننویس (مقدار خالی نگذار).
نکته: این خروجی را در Zotero با مسیر File → Import → BibTeX وارد کنید. زمانتان را نجات میدهد.
گام پنجم: رفع رایجترین خطاهای استخراج
حتی با بهترین پرامپتها، سه خطای زیر ممکن است رخ دهد. راهحل هر کدام را یادداشت کنید.
خطای ۱ – افتادن منابع میانی
علت: هوش مصنوعی از حد توکن خارج شده.
راه حل: متن را به چند بخش تقسیم کنید، هر بخش را جداگانه پرامپت بدهید و نتایج را دستی ترکیب کنید.
خطای ۲ – به هم ریختگی نام نویسندگان
علت: فرمتهای متفاوت مثلاً "Smith, J." در مقابل "J. Smith"
راه حل: به پرامپت اضافه کنید: همه نام نویسندگان را به فرمت «نام خانوادگی، حرف اول نام» نرمال کن.
خطای ۳ – تکرار یک منبع چندبار
علت: ارجاع به یک منبع در نقاط مختلف متن.
راه حل: در پرامپت بگویید: اگر یک منبع عیناً تکراری بود، فقط یک بار در خروجی بیاور و شماره تعدد را داخل پرانتز بنویس.
راهنمای انتخاب ابزار و پرامپت بر اساس نوع متن
مقاله با بخش منابع مجزا PDF تا ۵۰ صفحه:
ابزار: Claude (Poe)
پرامپت: آزادسازی کامل
زمان تقریبی: ۲ دقیقه
مقاله خیلی بلند (۱۰۰ تا ۳۰۰ صفحه):
ابزار Google AI Studio (Gemini 1.5 Pro)
پرامپت: همان «آزادسازی کامل» + درخواست خروجی مرحلهای
زمان تقریبی: ۴ دقیقه
متن بدون منابع مجزا، فقط ارجاع درونمتن:
ابزار: ChatGPT (GPT-4o)
پرامپت: تشخیص ارجاع درونمتن
زمان تقریبی: ۵ دقیقه
نیاز به خروجی BibTeX یا RIS :
ابزار Claude یا Gemini
پرامپت: مبدل BibTeX
زمان تقریبی: ۳ دقیقه
متن اسکن شده (غیرقابل انتخاب):
ابزار: ابتدا OCR با Google Keep یا OnlineOCR، سپس هر کدام از روشهای بالا
زمان اضافی: +۱۰ دقیقه
اشتباهات مرگباری که نباید انجام دهید
۱. اعتماد کامل به هوش مصنوعی: همیشه ۱۰ منبع اول را با نسخه اصلی مقایسه کنید. اگر در ۱۰ تای اول ۳ اشتباه دیدید، یعنی پرامپت را باید اصلاح کنید.
۲. درخواست تغییر سبک ارجاعدهی در حین استخراج: اول استخراج کنید، بعد با Zotero سبک (APA, MLA, IEEE) را تغییر دهید.
۳. فراموش کردن زبان فارسی: اگر متن فارسی است، به AI بگویید: الف و ی عربی را به فارسی تبدیل کن، و نامهای فارسی را درست تشخیص بده.
۴. آپلود فایلهای دارای DRM یا حفاظت شده: AI معمولاً نمیتواند آنها را باز کند. اول با Adobe Acrobat یا ابزارهای آنلاین غیرمحافظت کنید.
جمعبندی: دستورالعمل سریع ۴ مرحلهای
مرحله ۱ – متن خود را در ابزار مناسب آپلود کنید Gemini برای متون بلند، Claude برای متون متوسط.
مرحله ۲ – پرامپت «آزادسازی کامل» را کپی کنید (متن آن در همین مقاله بالا آمده).
مرحله ۳ – خروجی را دریافت کنید و یک نمونه ۵ تایی را با چشم کنترل کنید.
مرحله ۴ – اگر نیاز به BibTeX دارید، خروجی مرحله قبل را دوباره به همان هوش مصنوعی بدهید همراه با پرامپت مبدل.
مقایسه زمان:
روش سنتی: ۴ تا ۶ ساعت
با یک پرامپت ساده (بدون بهینهسازی): ۴۵ دقیقه (چون باید خطاها را دستی پاک کنید)
با پرامپتهای حرفهای این مقاله: کمتر از ۵ دقیقه
🔗 اکو سیستم پرامپت نویسی پژوهشگران
پرامپتهایی که در این مقاله دیدید را به همراه یک مجموعه کامل پرامپت های پژوهشی به صورت یک پکیج تخصصی آماده کردهام.
📌 لینک فروشگاه پرامپت آکادمی:
https://promptacademy.sellfile.ir/
📌 مطالب مرتبط در ویرگول (پیشنهادی):
۱۰ ابزار هوش مصنوعی کاملاً رایگان که زندگی هر محقق و نویسنده مقالهای را متحول میکنند
انجام مرور سیستماتیک ادبیات (Systematic Review) با کمک هوش مصنوعی در کمترین زمان