من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
۳ مورد از استارتآپهای هوشمصنوعی، در NLP انقلابی ایجاد کردند

منتشر شده در infoworld به تاریخ ۷ ژوئن ۲۰۲۱
لینک منبع: 3 AI startups revolutionizing NLP
پردازش زبان طبیعی (NLP) یک رویای دیرینه دانشمندان کامپیوتر است که به روزگار ELIZA و حتی به مبانی اساسی خود محاسبه (آزمایش تورینگ، کسی هست؟) پردازش زبان طبیعی (NLP) در چند سال گذشته با روشهای آماری گذشته که منجر به ارائه روشهای مبتنی بر یادگیری عمیق یا شبکههای عصبی شده، دستخوش انقلابی اساسی شدهاست.
استفاده از یادگیری عمیق در NLP منجر به مدلهای زبان هدف کلی، پیچیده، گسترده، مانند GPT-۳ شدهاست که قادر به تولید متنی است که واقعا از نوشتار انسان غیرقابلتشخیص است. به عنوان مثال، ۳GPT-، ویژگیهایی از قبیل ویژگیهای جدید "بدون کد" مایکروسافت را در پلتفرم Power Apps باز میکند، جایی که میتوانید توضیحات زبان طبیعی یک پرس و جو را وارد کنید، و انتهای پشتی کد ایجاد میشود (عبارت Power Fx براساس دستور اکسل(.
در سراسر شرکت NLP پتانسیل گستردهای دارد، و تنها غولهایی مانند گوگل یا مایکروسافت نیستند که محصولات را به جدول میآورند. در این مقاله، ما به سه استارتاپ مختلف نگاه خواهیم کرد که از ارائه راهحلهای هوش مصنوعی برای ارائه بلوکهای پیکره برای ساخت راهحلهای NLP سفارشی خودتان استفاده میکنند.
انفجار
اکثر توسعهدهندگان که در حلقههای NLP کار میکنند، با کتابخانه NLP معروف پایتون، spaCy، تعامل خواهند داشت، اما کمتر چیزی در مورد انفجار خواهند شنید، شرکتی که توسط متیو هانیبال و اینس مونتانی تاسیس شدهاست که spaCy و ابزار تفسیر تجاری Prodigy را توسعه میدهد.
یکی از کیتهای اصلی NLP برای سالیان سال، spaCy است که قادر به کنترل حجم کار تولید انبوه بدون عرق است که یکی از ویژگیهای متمایز آن از سایر کتابخانههای عصر مشابه است. اگر برای مدتی از spaCy استفاده نکردهاید، ممکن است تعجب کنید که ببینید تا چه حد با لبه خونریزی تکنیکهای NLP مدرن، و با خطوط لوله مبتنی بر مدلهای ترجمه از پیش آموزشدیده مانند berT مطابقت داشته، توانایی ادغام مدلهای سفارشی از PTorch یا tensorFlow، و پشتیبانی بیش از ۵۰ زبان به روشی متفاوت را داشته است
در حالی که spaCy باز میشود، انفجار، یک محصول پرداختی به نام Prodigy ارائه میدهد که هدف آن تبدیل شدن به یک بخش ارزشمند از جعبهابزار دانشمند داده، حاشیهنویسی قابل بیان و قابل نوشتن از مجموعه دادهها را قادر میسازد، نه تنها با یک حلقه تعاملی قوی با spaCy، بلکه با پشتیبانی جامع برای تفسیر تصاویر، صوت و ویدئو است. پرودیجی دستورالعملهای ساخت خطوط لوله برای طبقهبندی، رونویسی، جعبههای مرزی و بسیاری موارد دیگر را دارد. اینها باید به دانشمندان داده اجازه دهند تا نقش فعالتری در تفسیر کارآمد مجموعه دادهها داشته باشند، و به نوبه خود هزینه ساخت دادههای ورودی غنی و ایجاد مدلهای بهتر را کاهش دهند.
استارتاپ Huggingface
این یک سفر کوتاه شرکتی بود که یک کتابخانه PyTorch تولید کرد که پیادهسازیهایی از مدلهای NLP مبتنی بر ترانسفورمر و وب سایت «نوشتن با ترانسفورمر»، به نیروی عظیم NLP که امروزه صورت رویشی (یا) است، ارائه داد. این روزها نه تنها کتابخانه ترانسفورمر هاگینگفیس استاندارد عملی برای پردازش متن است، بلکه زمان چرخش بین پیدا کردن یک مقاله یا تکنیک جدید و وارد کردن آن به کتابخانه اغلب روزانه به جای هفتگی اندازهگیری میشود.
استارتاپ Huggingface برای انواع مختلف مدل (شامل موضوعاتی مانند دامنهها، زبانها، اندازه و غیره) از یک مرکز مدل فراتر رفتهاست و شامل یک API استنتاج میزبان است که دارای پیادهسازیهای سریع بسیاری از مدل ها، بهعلاوه یک API آسان برای کار با مجموعه ای از داده های مختلف است. و شما میتوانید Huggingface را پیدا کنید که توسط هزاران شرکت مورد استفاده قرار میگیرد، از کاربرد کاربردی در لایکهای گرامری گرفته تا کاربردهای تحقیقاتی توسط، یس، مایکروسافت، گوگل، و فیسبوک. در راس همه این موارد، هوگینسفیس به دیگر کتابخانهها کمک میکند، کتابخانههای کوچکتر به اکوسیستم یادگیری ماشینی، مانند کتابخانه Accelerate اخیر که بخش عمدهای از زحمت آموزش مدلهای بزرگ در میان مجموعهای از ماشینهای توزیعشده را به خود اختصاص دادهاست.
استارتاپ Huggingface نیز کند نمی شود. در ماههای اخیر، ما مدلهای صوتی و تصویری را دیدهایم که به پلتفرم اضافه شدهاند، و این احتمال وجود دارد که Huggingface در آنجا درست در خط مقدم باشد، همانطور که معماری Transformer همچنان به راهش از میان فضای یادگیری عمیق ادامه میدهد و همه چیز را در مسیر خود تسخیر میکند.
این شهرک در سرشماری سال ۲۰۱۰ میلادی، ۳،۹۸۳ نفر جمعیت داشتهاست
آزمایشگاه جان اسنو
آزمایشگاه جان اسنو متولی Spark NLP ، یک چارچوب NLP منبع باز است که شاید جای تعجب در بالای Apache Spark نباشد. شما که به طرز شگفت انگیزی در شرکت محبوب خواهید بود، متوجه خواهید شد که تمام انواع خطوط لوله NLP در شرکتها را برای کاربردهایی مانند شناسایی واحد (ner)، بازیابی اطلاعات، طبقهبندی، و تجزیه و تحلیل احساسی، تقویت میکند. مانند spaCy، متناسب با پارادایمهای جدید در NLP، به عنوان استاندارد با تعداد زیادی از مدلهای یادگیری عمیق (بیش از ۷۰۰!) و بیش از ۴۰۰ خط لوله برای کاربردهای مختلف. این همچنین از مقیاس Apache Spark برای یک داستان آسانتر برای استقرار توزیع شده از بسیاری از رقبای خود بهره مییرد.
یک چیز جالب توجه این است که آزمایشگاه های جان اسنو بر اساس Spark NLP با سه محصول پولی ساخته شده اند، دو مورد از آنها به شدت به سمت صنعت بهداشت و درمان است و مورد دیگر نیز در درجه اول در این زمینه مورد هدف قرار میگیرند، اما میتواند در حوزههای دیگر مورد استفاده قرار گیرد.
آنها، هوشمصنوعی مراقبتهای بهداشتی، یک پلتفرم مدیریتشده که در بالای Kum netes برای تجزیه و تحلیل و تحقیق مراقبتهای بهداشتی ارائه میدهد، و مجموعهای از بستههای اضافه شونده برای SPark NLP را ارائه میدهند که اجازه میدهد روشهایی مانند تشخیص هویت بالینی و ارتباط، استخراج مفاهیم پزشکی، و شناسایی متن، مورد استفاده قرار گیرند.
محصول پولی دیگر "Spark OCR" است که ادعا میکند بهترین محصول در کلاس OCR موجود است. توانایی آن در به دست آوردن مناطق و خروجی در قالب DICOM و همچنین PDF یک انحراف جزئی نسبت به حوزه بهداشت و درمان نشان میدهد، اما دارای مجموعهای از خطوط لوله تعمیمیافته برای پردازش تصویر، حذف نویز، و البته میتواند با SPark NLP برای تولید خطوط لوله به راحتی مقیاس پذیر ادغام شود که میتواند به استخراج مستقیم از هر تصویر ورودی منجر شود.
دانش نهفته زیادی در SPark NLP وجود دارد، و در حوزه بهداشت و درمان، به نظر میرسد که آزمایشگاههای جان اسنو نسبت به دیگر ارائهدهنده بزرگ کتابخانه NLP برتری دارد… و در این نکته، بیایید این دور را با صحبت کردن در مورد آنها به پایان برسانیم!
نکته بعدی در NLP چیست؟
در ماههای آینده احتمالا چه چیزی را در فضای NLP خواهیم دید؟ خیلی بیشتر از همین موارد، اما بزرگترمن تصور میکنم؛ تریلیون مدل پارامتر در حال حاضر در حال تبدیل شدن به چیزی بیشتر در شرکتهایی مانند گوگل، مایکروسافت، و فیسبوک هستند. در حالی که ۳ GPT- در حال حاضر پشت API OpenAI محبوس است، انتظار میرود منبع باز، بازخلق شود که GPT-Neo X است تا ۱۷۵ میلیارد مدل پارامتر آزاد شده در این سال داشته باشد، و قدرت قابلیتهای تولیدی GPT-۳ را برای تقریبا هر کسی در این سیاره به ارمغان بیاورد.
در نهایت، ما میتوانیم از محققان انتظار داشته باشیم که به از هم پاشیدگی در انتهای دیگر مقیاس ادامه دهند، و سعی کنند که این ساختارها را سریعتر و موثرتر برای دستگاههای کوچکتر و برای اسناد طولانیتر اجرا کنند.
و مطمئن باشید که نتایج کل تحقیقات در پیشنهادات Explosion، Huggingfaceو آزمایشگاه های John Snow نیز، احتمالاً طی چند هفته پس از انتشار، ارائه خواهد شد.
این متن با استفاده از ربات ترجمه مقاله هوشمصنوعی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
شی فضایی مرموز پس از ۳ ماه تکان ناپدید شد!
مطلبی دیگر از این انتشارات
درمانهای جدید سرطان سینه با الهام از نوآوری واکسن mRNA کووید۱۹
مطلبی دیگر از این انتشارات
نظارتهای پاندمی ماندگار هستند!