قیامکالجوں اور یونیورسٹیوں

کورپس لسانیات کیا ہے؟

صرف چند عشرے پہلے لسانی تحقیق کو خود کار کرنے کے لئے، سائنس دانوں نے صرف خواب سکتا. کام، ہاتھ سے کیا گیا تھا جو طالب علموں کی ایک بڑی تعداد کو اپنی طرف متوجہ، کافی امکان "لاپرواہ" غلطیوں موجود ہے، اور سب سے اہم بات - یہ سب ایک طویل، طویل وقت لگا.

کمپیوٹر ٹیکنالوجی کی ترقی نے آج تیز تر شدت کے حکم پر تحقیق کرنا ممکن ہو، اور کیا ہے کے ساتھ زبان کے مطالعہ میں سب سے زیادہ ذہین سمتوں میں سے ایک ایک کارپس لسانیات ہے. اس کی اہم خصوصیت ایک خاص انداز میں ایک ڈیٹا بیس میں متن کی معلومات، معلومات کی بڑی مقدار کے استعمال ہے اور ذکر جسم کا مطالبہ کیا.

تاریخ کرنے کے لئے، لغوی یونٹس کی اربوں کی دسیوں کرنے کے لئے لاکھوں سے پھیلے مختلف لسانی مواد کی بنیاد پر مختلف مقاصد کے ساتھ پیدا کئی عمارتوں موجود ہیں. یہ سمت ایک ذہین طور پر تسلیم کیا اور درخواست اور تحقیقی مقاصد کے تئیں اہم پیش رفت کا ثبوت کیا جاتا ہے. ماہرین کا خیال ہے، ایک ہی راستہ یا قدرتی زبان کے ساتھ ایک اور لین دین، یہ کم از کم ایک بنیادی سطح پر سرخیوں کی شکل کی جسم کے ساتھ واقف کرنے کے لئے سفارش کی جاتی ہے.

کارپس لسانیات کی تاریخ

اس رجحان کی تشکیل گزشتہ صدی کے ابتدائی 60 مطالعہ میں براؤن کے جسم میں امریکہ کی تخلیق کی وجہ سے ہے. جمع تمام 1 لفظ فارم کے ملین کی نصوص بھی شامل ہے، اور آج اس کے سائز کے جسم مکمل طور پر نمٹنے کی صلاحیت ہو گی. یہ کمپیوٹر ٹیکنالوجی کی ترقی کی رفتار، کے ساتھ ساتھ نئے تحقیقی وسائل کے لئے بڑھتی ہوئی مطالبات کی بڑی وجہ ہے.

90s کے کارپس لسانیات ایک مکمل اور آزاد نظم و ضبط میں ابھر کر سامنے آئے میں نصوص کا ایک مجموعہ تیار کیا اور درجنوں زبانوں کے لئے نشان لگا دیا گیا ہے. اس عرصے میں یہ بنایا گیا تھا مثال کے طور پر، برطانوی نیشنل کورپس 100 ملین ٹوکن.

لسانیات کے اس علاقے کی ترقی کے ساتھ، متن جلدوں زیادہ سے زیادہ ہوتے جا رہے ہیں (اور لغت یونٹس کی اربوں تک پہنچنے)، اور ترتیب زیادہ متنوع ہوتا جا رہا ہے. تاریخ کرنے کے لئے، انٹرنیٹ کی جگہ لکھا شووں پایا اور زبان، بہزبانی، اور سیکھنے مبنی فنکارانہ یا تعلیمی ادب، کے ساتھ ساتھ بہت سے دوسرے پرجاتی بات کی جا سکتی ہے.

ہاؤسنگ کیا ہیں

میں جسم لسانیات جسم اقسام کی کئی وجوہات کے لئے فراہم کیا جا سکتا ہے. وجدانی طور پر، درجہ بندی کے لئے بنیاد ایک متن زبان (روسی، جرمن)، رسائی موڈ (اوپن سورس، بند، تجارتی)، منبع مواد (فکشن، دستاویزی فلم، تعلیمی، صحافت) کے سٹائل ہو سکتا ہے.

دلچسپ طریقہ بولی جانے والی زبان کا مواد پیدا. ایسی تقریر کی دانستہ ریکارڈنگ مدعا کے لیے ایک مصنوعی ماحول پیدا کرنے کے بعد سے، اور نتیجے میں مواد کی "بے" نہیں کہا جا سکتا، جدید کارپس لسانیات دوسرے طریقے سے چلا گیا ہے. ایک رضاکار ایک مائیکروفون کے ساتھ لیس ہے، اور دن کے دوران تمام بات چیت، جس میں یہ شرکت کی ریکارڈ پیداوار کیا. لوگوں کے ارد گرد، کورس کے، پتہ نہیں روزمرہ گفتگو کے دوران میں سائنس کی ترقی کے لئے حصہ ہے کہ ہوسکتا ہے.

بعد میں ڈیٹا بیس میں محفوظ کی ریکارڈ موصول ہوئی ہے اور پرنٹ متن نقل قسم کے ساتھ ہیں. اس طرح، یہ ایک زبانی روزانہ تقریر ہاؤسنگ تخلیق کرنے کی ضرورت ممکن مارک اپ بن جاتا ہے.

درخواست

جہاں کہیں ممکن زبان کے استعمال، اور شاید عمارتوں نصوص کا استعمال. طریقوں لسانیات میں پتوار لاگو کرنے کے لئے ہو سکتا ہے:

  • کلید کا تعین کرنے میں ایک پروگرام کی تشکیل، وسیع پیمانے پر بالترتیب، ووٹروں اور گاہکوں کے مثبت اور منفی ردعمل کا ٹریک رکھنے کے لئے سیاست اور کاروبار میں استعمال کیا جاتا ہے.
  • لغات اور مترجمین کرنے کے لئے کنکشن کی معلومات کے نظام ان کی کارکردگی کو بہتر بنانے کے.
  • اس زبان یونٹ، مستقبل قریب میں تبدیلی کی اس کی ترقی اور پیشن گوئی کی تاریخ کی سمجھ میں شراکت تحقیقی کاموں کی ایک قسم.
  • ، صرفی نحوی، لسانی اور دیگر خصوصیات کی بنیاد پر معلومات حاصل کرنے کے نظام کی ترقی.
  • مختلف لسانی نظام اور دوسروں کی اصلاح کی.

عمارتوں کے استعمال

ایک عام کی تلاش کے انجن کے ساتھ اسی طرح کے وسائل انٹرفیس، اور معلومات کی بنیاد کے لئے تلاش کرنے کے لئے الفاظ کی ایک لفظ یا مجموعہ میں داخل کرنے کے لئے صارف کا اشارہ. علاوہ عین مطابق استفسار عملی طور پر کسی بھی لسانی معیارات کی متنی میں معلومات تلاش کرنے کے لئے اجازت دیتا ہے جو بہتر ورژن استعمال کر سکتے ہیں کی تشکیل.

تلاش کو بنیاد ہو سکتی ہے:

  • تقریر کے کچھ حصوں کی ایک مخصوص گروپ کی رکنیت؛
  • گرائمر کی خصوصیات؛
  • semantics کے؛
  • ساہتیک سٹائل اور جذباتی رنگ.

آپ بھی تلاش کے معیار کے الفاظ کے ایک ہی تسلسل کے لئے، مثال کے طور "میں" اوے اور accusative کیس میں اسم کے بعد آتا ہے جو موجودہ کشیدگی، پہلا شخص واحد، میں فعل کے تمام واقعات تلاش کرنے کے لئے جمع کر سکتے ہیں. اس طرح کی ایک آسان کام کو حل صارف کو چند سیکنڈ لگتے ہیں اور مخصوص شعبوں میں صرف چند ماؤس کلکس کی ضرورت ہے.

تخلیق کا عمل

تلاش کو خود تمام subcorpus پر کیا جا سکتا ہے اور ایک خاص طور پر، منتخب کیا کسی خاص مقصد کے حصول میں ضروریات پر منحصر ہے:

  1. پہلا قدم کیس کے لئے بنیاد کی تشکیل جس میں نصوص وضاحت کرنے کے لئے ہے. عملی مقاصد کے لئے، یہ اکثر صحافتی، خبروں کہانیاں، آن لائن تبصروں سے استعمال کیا جاتا ہے. تحقیق کے منصوبے پیکج اقسام کی وسیع اقسام میں استعمال ہوتا ہے، لیکن متن کچھ کامن گراؤنڈ کے مطابق منتخب کیا جانا چاہئے.
  2. pretreatment کے لئے مسخر متون کے نتیجے مجموعہ، خرابیوں کی اصلاح ہوتی ہے، اگر کوئی ہو، متن کا حوالہ اور اضافی لسانی وضاحت کی طرف سے تیار.
  3. تمام غیر متنی معلومات کا خاتمہ ہے: گرافکس، تصاویر، میزیں صاف کرتا ہے.
  4. ٹوکن، مزید کارروائی کے لئے، تقریر عام طور پر ہیں جن میں سے ایک مختص ہے.
  5. آخر میں، یہ عناصر کی، صرفی نحوی اور دیگر نشانات حاصل کی بہسنکھیا کئے.

اس میں جن میں سے ہر بعض صورتوں، لسانی صفات میں، اور تقریر، گرائمر کا حصہ نشاندہی کی ہے عناصر، کی ایک بہسنکھیا تقسیم کے ساتھ ایک نحوی ساخت کی طرف سے کی جانے والی تمام لین دین کا نتیجہ.

عمارتوں کرنے میں مشکلات

یہ ضروری ہے کہ جسم کے لئے ایک دوسرے کے ساتھ الفاظ یا جملوں کا ایک سیٹ ڈال کرنے کے لئے کافی نہیں ہے سمجھنے کے لئے یہ ضروری ہے. ایک طرف، نصوص کا ایک مجموعہ ہے، یہ ہے، متوازن ہونا چاہئے خاص تناسب میں نصوص کی مختلف اقسام کی نمائندگی کریں. دوسرے پر - دیوار کے مندرجات ایک خاص انداز میں وقفہ ہونا چاہئے.

پہلا مسئلہ ایک معاہدے کے ذریعے حل کیا جاتا ہے: مثال کے طور پر جمع کرنے میں ادبی متون کا 60 فیصد، دستاویزی فلموں کے 20 فیصد پر مشتمل ہے، ایک خاص تناسب وغیرہ بولی جانے والی زبان، قانون سازی، سائنسی کام، کامل ہدایت جسم متوازن آج موجود نہیں ہے کے ایک تحریری نمائندگی دی جاتی ہے ...

دوسرا سوال، مواد کی ترتیب سے متعلق، مشکل کو حل. خصوصی پروگرام اور خود کار طریقے سے نصوص کی مارکنگ کے لئے استعمال کیا الگورتھم موجود ہیں، لیکن وہ ایک کامل نتیجہ نہیں دیتے، رکاوٹیں پیدا کر سکتا ہے اور دستی rework کی ضرورت ہوتی ہے. اس مسئلے سے نمٹنے میں مواقع اور چیلنجوں ایک کاغذ کارپس لسانیات کے وی پی Zaharova میں تفصیل سے بیان کر رہے ہیں.

ٹیکسٹ مارک اپ میں کئی سطحوں ہیں، ہم ذیل میں درج ہیں جس میں لاگو کیا جاتا ہے.

صرفی ٹیگنگ

اسکول سے، ہم روسی زبان میں، تقریر کے مختلف حصے ہیں یاد رکھیں کہ، اور ان میں سے ہر ایک اس کی اپنی خصوصیات ہیں. مثال کے طور پر فعل جھکاو کے زمرے اور وقت جس میں کوئی اسم ہے. بغیر کسی ہچکچاہٹ کے ایک مقامی اسپیکر اسم اور conjugate فعل میں کمی، لیکن 100 ملین کے جسم پر نشان زد کرنے کے لئے. دستی مزدوری کام نہیں کرے گا ٹوکن. تمام ضروری آپریشن کو یہ سکھایا جائے کرنے کی ضرورت ہے اس کے لئے، تاہم، کمپیوٹر پھانسی کر سکتے ہیں.

صرفی ٹیگنگ، کمپیوٹر تقریر مخصوص گرائمر خصوصیات رکھنے کی ایک خاص حصے کے طور پر ہر لفظ "سمجھ" ضروری ہے. روسی (اور کسی بھی دوسری زبان) باقاعدہ قوانین کی ایک بڑی تعداد چلتی بعد سے، یہ الگورتھم کی ایک بڑی تعداد کے لئے گاڑی میں سرمایہ کاری، صرفی تجزیہ کے لئے ایک خودکار طریقہ کار کی تعمیر کے لئے ممکن ہے. تاہم، حکمرانی، کے ساتھ ساتھ مختلف پیچیدہ عوامل کے مستثنیات موجود ہیں. نتیجے کے طور پر، آج کے نیٹ کمپیوٹر تجزیہ اب تک مثالی سے ہوتا ہے، اور اس سے بھی 4 فیصد کی خرابی 4 لاکھ کی قیمت ملتی ہے. دستی rework کی ضرورت ہوتی ہے 100 لاکھ. اکائیوں کے جسم پر الفاظ.

تفصیلی کتاب مسئلہ Zaharova وی پی "کورپس لسانیات" بیان کرتا ہے.

نحوی تشریح

تصریف یا تصریف - ایک جملے میں الفاظ کی رشتہ داری کا تعین کرتا ہے کہ ایک طریقہ کار. الگورتھم کی ایک سیٹ کا استعمال کرتے ہوئے موضوع، ودیئ، اضافے، تقریر کی ایک سے زیادہ موڑ کے متن کا تعین کرنا ممکن ہے. مرکزی تسلسل، اور جو ہیں جس کے الفاظ سے باہر تلاش کریں - منحصر ہے، ہم مؤثر طریقے سے متن سے معلومات اخذ کرسکتے ہیں اور کسی کی تلاش کی درخواست کے جواب میں ہم سے دلچسپ صرف معلومات جاری کرنے کی مشین کو سکھانے کے لئے.

ویسے، جدید سرچ انجن جیسے متعلقہ سوالات کے جواب میں کی بجائے مخصوص نمبروں طویل نصوص باہر دینے کے لئے اس کا استعمال یا "ایک سیب میں کتنے کیلوری" "ماسکو سے سینٹ پیٹرز برگ کی دوری." تاہم، مشورہ کرنے یا دیگر بنیادی ٹیوٹوریل "کورپس لسانیات کا تعارف" ضرورت کی طرف سے بیان کردہ عمل کی بھی مبادیات کو سمجھنے کے لئے.

semantic مارک اپ

لفظ کے semantics کے - عام الفاظ، معنی میں ہے. ان لسانی زمرے اور نیم زمرے کی ایک سیٹ سے تعلق رکھنے کی عکاسی کرتی ایک لفظ انتساب ٹیگز کا لسانی تجزیہ کرنے وسیع پیمانے پر لاگو نقطہ نظر. اس طرح کی معلومات الگورتھم متن سر، خود کار طریقے سے خلاصھ اور کارپس لسانیات کے دیگر کاموں کے طریقوں کا تجزیہ کی اصلاح کے لئے قابل قدر ہے.

درخت کی "جڑ"، کی ایک بڑی تعداد ایک بہت وسیع semantics کے ساتھ ایک خلاصہ لفظ کی نمائندگی موجود ہیں. درخت مراکز کی ایک شاخ قائم کر رہے ہیں کے طور پر، زیادہ سے زیادہ مخصوص لغوی عناصر پر مشتمل. مثال کے طور پر لفظ "مخلوق" "انسانی" اور "جانور" کے طور پر اس طرح کے تصورات کے ساتھ منسلک کیا جا سکتا ہے. کلاسز اور جانوروں کی اقسام پر - پہلا لفظ مختلف پیشوں، صلہ اصطلاحات، قومیت، اور دوسری میں برانچ کا سلسلہ جاری رکھیں گے.

معلومات حاصل کرنے کے نظام میں استعمال

کارپس لسانیات کے استعمال کے علاقوں سرگرمی کے مختلف شعبوں کا احاطہ. housings کے لغات کی تیاری اور اصلاح کے لئے استعمال کیا جاتا ہے، خودکار ترجمہ نظام، اورتشریح حقائق کی بازیافت، سر اور دیگر ٹیکسٹ پروسیسنگ کا تعین کرنے کی تخلیق.

اس کے علاوہ، اس طرح کے وسائل فعال طور پر دنیا کی زبانوں اور عام طور پر زبان کے کام کاج کے میکانزم کے مطالعہ میں استعمال کیا جاتا ہے. پہلے سے تیار کی معلومات کے بڑے حجم کی رسائی ترقی زبانوں کے رجحانات میں تیزی اور جامع مطالعہ کی سہولت فراہم، اور مستحکم تشکیل neologisms تقریر رفتار تبدیلی لغوی یونٹس اور دوسروں اقدار.

ڈیٹا کی طرح بڑی مقدار کے ساتھ کام آٹومیشن کی ضرورت ہوتی ہے کے بعد سے، آج کے کمپیوٹر اور کارپس لسانیات کے درمیان قریبی رابطہ ہے.

روسی قومی کورپس

یہ کیس (مختصر NKRYA) کاموں کی وسیع اقسام کے لئے ایک وسیلہ کے استعمال کی اجازت دے subcorpus کی ایک بڑی تعداد بھی شامل ہے.

ڈیٹا بیس میں مال تقسیم کر رہے ہیں NKRYA:

  • ملکی اور غیر ملکی دونوں میڈیا سے '90s اور 2000s میں مطبوعات کے لئے؛
  • تقریر کی ریکارڈنگ؛
  • aktsentologicheski نصوص نشان لگا دیا (یعنی، کشیدگی کے نشانات)؛
  • بولی تقریر؛
  • شاعری؛
  • نحوی اور دیگر نشانات کے ساتھ مواد.

معلومات کے نظام کو بھی انگریزی، جرمن، فرانسیسی اور دوسرے زبانوں میں (اور اس کے برعکس) میں روسی سے کاموں میں سے متوازی ترجمہ کے ساتھ Subcorpus بھی شامل ہے.

بھی ڈیٹا بیس میں اس کی ترقی کے مختلف ادوار میں روسی زبان میں لکھی تقریر نمائندگی تاریخی نصوص کے ایک حصے، وہاں ہے. روسی زبان پر عبور حاصل کرنے میں غیر ملکی شہریوں کے لئے مفید ہو سکتا ہے جس میں ایک تربیتی جسم، بھی ہے.

روسی قومی کورپس 400 ملین لغوی یونٹس پر مشتمل ہے، اور آگے یورپ لاشوں کی زبانوں کا ایک اہم حصہ کے بہت سے طریقوں سے.

امکانات

اس رجحان کے اعتراف کے حق میں اس حقیقت کو غیر ملکی کے طور پر روسی یونیورسٹیوں میں لیبارٹری کارپس لسانیات کا وعدہ، اسی طرح کی دستیابی ہے. یہ معلومات اور تلاش وسائل کے فریم ورک میں کے استعمال اور تحقیق کے ساتھ اعلی ٹیکنالوجی، سوال کا جواب دینے کے نظام کے میدان میں مخصوص علاقوں کی ترقی ضروری ہے، لیکن اس کے اوپر بحث کی جاتی ہے.

کارپس لسانیات کی مزید ترقی کے صارفین کو اپنی روز مرہ میں وسائل کی اس قسم کو استعمال کرنے کے لئے زیادہ سے زیادہ طریقے ہیں، کیونکہ ہر سطح پر پیش گوئی کی ہے تکنیکی سے اور تلاش اور کارروائی کرنے میں معلومات، کمپیوٹرز کو بااختیار بنانے کے عمل کو بہتر بنانے ہے کہ نئے الگورتھم، زیادہ RAM کے نفاذ کے معاملے میں، اور صارفین کو لے کر زندگی اور کام.

خلاصہ یہ ہے

2017 میں گزشتہ صدی کے وسط میں، مستقبل بعید لگتا تھا spaceships کو کائنات کے ذریعے سفر اور روبوٹ لوگوں کے لئے کام کرتے ہیں. اصل میں، سائنس "سفید دھبوں" اور پریشان کن صدیوں سے بنی نوع انسان کے سوالات کا جواب دینے کے لئے بیتاب کوششوں بنانے کے ساتھ replete ہے. زبان کے کام کاج سوالات یہاں عزت کی جگہ پر قبضہ، اور کابینہ اور کمپیوٹیشنل لسانیات ان کا جواب کرنے کے لئے مدد کر سکتے ہیں.

بڑے ڈیٹا سیٹس کی پروسیسنگ پہلے ناقابل رسائی، پیٹرن کا پتہ لگانے کر سکتے ہیں، تقریبا حقیقی وقت میں الفاظ کی تشکیل پر نظر رکھنے کے لئے مخصوص زبان کی خصوصیات کی ترقی کی پیشن گوئی.

عملی سطح پر، عالمی باڑوں عوامی موڈ کا اندازہ کرنے کے لئے ایک ممکنہ آلے کے طور پر مثال کے طور پر دیکھا جا سکتا ہے، - انٹرنیٹ اصلی صارفین کی طرف سے پیدا ایک مسلسل اپ ڈیٹ روزانہ کی بنیاد پر مختلف متون ہے: اس کے تبصرے اور جائزے، اور مضامین، اور تقریر کی کئی دیگر اقسام.

اس کے علاوہ، اداروں کے ساتھ کام کرنے والے ایک ہی ہارڈ ویئر، معلومات حاصل کرنے میں ملوث رہے ہیں کی ترقی کے لئے حصہ ہے، ہم سروس "گوگل" یا "Yandex" ہے، مشین ترجمہ، الیکٹرانک لغات سے واقف ہیں.

ہم یقین سے کارپس لسانیات صرف پہلا قدم ہوتا ہے کہ پر زور سکتا ہے، اور مستقبل قریب میں بڑھ جائے گا.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ur.birmiss.com. Theme powered by WordPress.