کمپیوٹرزپروگرامنگ

UTF-8 - کردار کی انکوڈنگ

یونیکوڈ تقریبا تمام موجودہ کردار سیٹ کی حمایت. یونیکوڈ کیریکٹر سیٹ انکوڈنگ کی بہترین فارم UTF-8 انکوڈنگ ہے. اس کے اعداد و شمار، کارکردگی اور پروسیسنگ میں آسانی کے مسخ کرنے ASCII کے ساتھ مطابقت، مزاحمت کی حمایت. لیکن پہلی چیزیں.

فارم کوڈنگ

بائٹ اور 32 بٹ الفاظ - کمپیوٹر کے طور پر نہ صرف اعداد تجریدی ریاضیاتی اشیاء، کے ساتھ ساتھ سٹوریج کی اکائیوں کے مجموعے اور ہینڈلنگ مقررہ سائز کے اعداد و شمار کام کرتے ہیں. پیش کرنے کا طریقہ تعین کرتے وقت انکوڈنگ معیاری اکاؤنٹ میں یہ لے ضروری حروف کی تعداد.

کمپیوٹر سسٹمز میں، integers کے 8 بٹس (1 بائٹ)، 16 یا 32 بٹس کی یاد خلیات میں ذخیرہ. ہر فارم ایک یونیکوڈ انکوڈنگ، میموری خلیات کی ترتیب ایک خاص علامت کے مطابق ایک عدد صحیح ہے جس کی وضاحت کرتا ہے. معیار میں یونیکوڈ حروف 8، 16 اور 32 بٹ بلاکس کوڈنگ کے تین مختلف اقسام ہیں. اس کے مطابق، انہوں نے UTF-8، UTF-16 اور UTF-32 کے طور پر جانا جاتا ہے. نام UTF یونیکوڈ تبدیلی فارمیٹ کے لئے کھڑا ہے. انکوڈنگ اسباب کی تین شکلوں میں سے ہر ایک کو مساوی نمائندگی یونیکوڈ کردار مختلف پروگراموں میں فوائد ہیں ہے.

ڈیٹا خفیہ کاری یونیکوڈ معیاری میں تمام حروف کی نمائندگی کے لئے استعمال کیا جا سکتا ہے. اس طرح، وہ، کی مختلف وجوہات کے لئے حل کرنے کے لئے مکمل طور پر ہم آہنگ ہیں کوڈنگ کے مختلف اقسام کا استعمال کرتے ہوئے. ہر ایک کوڈنگ واضح اعداد و شمار کے نقصان کے بغیر دیگر دو میں سے کسی میں تبدیل کیا جا سکتا ہے.

nenalozheniya اصول

شکلوں یونیکوڈ انکوڈنگ میں سے ہر غیر جزوی وورلیپ کے پیش نظر تیار کیا ہے. مثال کے طور پر ونڈوز کی 932 کوڈ میں سے ایک یا دو بائٹس حروف بناتی ہے. ترتیب لمبائی پہلی بائٹ پر انحصار کرتا ہے، تو دو بائٹ اور واحد بائٹ disjoint کی سیریز میں معروف بائٹ اقدار. تاہم، ایک بھی بائٹ کی قدر اور پشت بندی بائٹ ترتیب موافق ہو سکتے ہیں. یہ کردار کی تلاش D (کوڈ 44) جو غلطی سے دو بائٹ کریکٹر "D" کی ترتیب کے دوسرے حصے میں داخل ہونے سے تلاش ہے کہ کر سکتے ہیں (کوڈ 84 44) مثال کے طور پر مطلب ہے. باہر تلاش کرنے کے لئے صحیح ہے جو ترتیب، پروگرام پچھلے بائٹس اکاؤنٹ میں لینا چاہئے.

صورت حال پیچیدہ، تو معروف اور پشت بندی بائٹس میچ ہے. اس کا مطلب یہ ابہام کو دور کرنے کے لئے متن یا منفرد کوڈ تسلسل کے آغاز تک پہنچنے سے پہلے ایک ریورس تلاش رہیں گے. یہ نہ صرف غیر فعال ہے، لیکن، ممکنہ غلطیوں سے محفوظ نہیں ہے کے بعد سے مکمل متن کے لئے صرف ایک غلط بائٹ پڑھنے بن گیا ہے.

شکل تبادلوں یونیکوڈ اس مسئلہ اجتناب معروف، پشت بندی کی قدر، اور محفوظ کرنے کی ایک واحد یونٹ وہی معلومات نہیں ہیں. یہ تلاش کرنا اور اس کے مقابلے، کبھی حرف کوڈ کے مختلف حصوں کا اتفاق کی وجہ سے غلط نتائج دینے کے لئے کہ تمام یونیکوڈ یقینی بناتا ہے. کوڈنگ کے ان فارم اصول nenalozheniya مشاہدہ ہے کہ حقیقت یہ ہے، دیگر مشرقی ایشیائی کثیر بائٹ encodings کے کی طرف سے ان ممتاز بناتا ہے.

nonintersection ایک اور پہلو یونیکوڈ encodings کے ہر کردار ایک واضح سرحد ہے کہ ہے. یہ پچھلے علامتوں کی غیر معینہ تعداد کو اسکین کرنے کی ضرورت ختم. یہ خصوصیت کبھی کبھی خود clocking کے انکوڈنگ کہا جاتا ہے. کوڈ یونٹس کی مسخ صرف ایک کردار کو مسخ متعارف کرائے گا، اور ارد گرد حروف اب بھی برقرار ہے. 8 بٹ شکل تبادلوں میں، علامت کا آغاز ایک سے تین ریورس ٹرانزیشن کے لئے کی ضرورت ہے تلاش کرنے کے لئے بائٹ، 10xxxxxx ساتھ شروع (بائنری کوڈ میں) پوائنٹر پوائنٹس ہو.

مستقل مزاجی

یونیکوڈ کنسورشیم مکمل طور encodings کے کے تمام 3 شکلوں حمایت کرتا ہے. یونیکوڈ کردار کی انکوڈنگ معیاری کے اوتار کے بھی اتنا ہی درست شکلوں - یہ UTF-8 اور یونی کوڈ، تمام تبادلوں فارمیٹس کے طور پر کی مخالفت نہ اہم ہے.

بائٹ واقفیت

UTF-32 حروف کی نمائندگی کرنے یونیکوڈ کوڈ کے ساتھ موافق ہے جو ایک 32 بٹ کوڈ یونٹ، کی ضرورت ہو گی. UTF-16 - دو 16 بٹ یونٹ تک ایک. A UTF-8 4 بائٹس تک استعمال کرتا ہے.

UTF-8 انکوڈنگ بائٹ مبنی ASCII پر مبنی نظام کے ساتھ ہم آہنگ ہونے کے لئے ڈیزائن کیا ہے. ایک طویل وقت کے لئے موجودہ سافٹ ویئر اور انفارمیشن ٹیکنالوجی کی پریکٹس میں سے زیادہ تر بائٹس کی ایک ترتیب میں حروف کی نمائندگی پر انحصار. ایک سے زیادہ پروٹوکول کی ثابت قدمی پر منحصر ASCII انکوڈنگ اور استعمال کرتا ہے یا تو خصوصی کنٹرول حروف اجتناب. یونیکوڈ حروف، کسی بھی برابر ASCII کردار یا ایک کنٹرول کردار کی نمائندگی کرنے کے لئے 8 بٹ کوڈنگ کا استعمال کرتے ہوئے حالات یونیکوڈ سکتے کرنے کے لئے اپنانے کے لئے ایک آسان طریقہ. اس مقصد کے لئے، اور یہ UTF-8 انکوڈنگ ہے.

متغیر کی لمبائی

UTF-8 -، متغیر لمبائی کی کوڈنگ 8 بٹ سٹوریج یونیٹس پر مشتمل ہے، اوپری بٹس جس کا تعلق ہر فرد بائٹ کی ترتیب کے جس حصے کی نشاندہی. کوڈ تسلسل کے پہلے عنصر کو الاٹ اقدار میں سے ایک رینج ہے، ایک اور - اگلے کے لئے. یہ disjointness انکوڈنگ فراہم کرتا ہے.

ASCII

UTF-8 انکوڈنگ کو مکمل طور پر حمایت کی ہے ASCII کوڈ (0x00-0x7F). اس کا مطلب یہ یونیکوڈ حروف U + 0000-U + 007F واحد بائٹ 0x00-0x7F UTF-8 میں تبدیل کیا ہے اور اس طرح ASCII سے indistinguishable بن رہے ہیں. اس کے علاوہ، ابہام سے بچنے کے لئے، قدر زیادہ کسی بھی یونیکوڈ حروف کی ایک ایک بائٹ نمائندگی میں استعمال نہیں 0x00-0x7F. علامات دو بائٹس کی ایک ترتیب کا استعمال کرتے ہوئے، ASCII کے علاوہ کسی neideograficheskih ضابطہ کاری کرنے کے لئے. نشان کی حد U + 0800-U + FFFF تین بائٹس کی طرف سے نمائندگی کر رہے ہیں، اور U + FFFF سے زیادہ کے ساتھ اضافی کوڈ چار بائٹس کی ضرورت ہوتی ہے.

درخواست کا دائرہ

UTF-8 انکوڈنگ عام طور پر HTML پروٹوکول میں ترجیح دی جاتی ہے، اور جیسا ہے.

XML UTF-8 انکوڈنگ کے لئے مکمل حمایت کے ساتھ سب سے پہلے معیار بن چکا ہے. معیارات کی تنظیموں نے بھی اس کی سفارش. ASCII حروف سے مختلف ہے کہ یو آر ایل ایڈریس میں سپورٹ مسئلہ، حل کیا گیا تھا کنسورشیم W3C اور IETF انجینئرنگ گروپ تمام کی کوڈنگ کے ایک معاہدے پر آیا جب URL پتوں خصوصی طور UTF-8 میں.

ASCII کے ساتھ مطابقت نئے سافٹ ویئر پر منتقلی کی سہولت فراہم. UTF-8 JEdit، Emacs، BBEdit، گرہن، اور "نوٹ پیڈ" ونڈوز آپریٹنگ سسٹم سمیت سب سے زیادہ ٹیکسٹ ایڈیٹرز، کام کرتا ہے کے ساتھ. انکوڈنگ یونیکوڈ کی کوئی اور شکل کے آلے کی اتنی حمایت کا دعوی نہیں کر سکتے ہیں.

فائدہ کوڈنگ جو بائٹس کی ایک ترتیب پر مشتمل ہوتا ہے ہے. ساتھ UTF-8 سٹرنگ سی اور دیگر پروگرامنگ زبانوں میں کام کرنے کے لئے آسان ہے. یہ انکوڈنگ کی واحد شکل ہے، آرڈر لیبلز ضرورت نہیں ہے BOM یا XML میں ایک انکوڈنگ اعلان بائٹس.

خود ہم وقت سازی

ایک ایسے ماحول دیگر کثیر بائٹ کردار سیٹ کے مقابلے میں پروسیسنگ کے 8 بٹ علامات کو استعمال کرتا ہے میں، UTF-8 کو مندرجہ ذیل فوائد ہیں:

  • پہلی بائٹ کوڈ کی ترتیب اس کی لمبائی کے بارے میں معلومات پر مشتمل ہے. یہ براہ راست کی تلاش کی کارکردگی کو بڑھاتا ہے.
  • اغاز بائٹ اقدار کی ایک مقررہ رینج تک محدود ہے کے طور پر علامت کے آغاز کو تلاش کرنے کے آسان.
  • کوئی چوراہا بائٹ اقدار.

فوائد کا موازنہ کریں

UTF-8 انکوڈنگ کمپیکٹ ہے. لیکن جب مشرقی ایشیائی حروف انکوڈنگ کے لئے استعمال کیا جاتا ہے (چینی، جاپانی، کوریائی، علامات کا استعمال کرتے ہوئے چین کی تحریری طور پر) 3 بائٹ انداز استعمال کیا. اس کے علاوہ UTF-8 انکوڈنگ پروسیسنگ کی رفتار کوڈنگ کی دیگر اقسام سے کمتر ہے. ایک بائنری چھنٹائی لائنوں یونیکوڈ چھنٹائی بائنری کے طور پر ایک ہی نتیجہ پیدا.

کردار کی انکوڈنگ سکیم

کردار کی انکوڈنگ سکیم انکوڈنگ علامتوں فارم اور ایک بائٹ مقام کا کوڈ یونٹوں کے طریقہ کار پر مشتمل ہے. یونیکوڈ معیاری ابتدائی بائٹ حکم کے نشان (BOM، بائٹ حکم کے نشان) کے استعمال فراہم کرتا ہے انکوڈنگ سکیم کا تعین کرنے کے لئے.

UTF-8 خصوصیت ٹیگ میں BOM کوڈنگ کے فارم کے استعمال کے لئے صرف ریفرنس کی طرف سے محدود ہے جب. اس کی انکوڈنگ یونٹ سائز ایک بائٹ ہے انداان UTF-8 کا تعین کرنے میں مسائل ہیں. کوڈنگ کے اس فارم کے لئے BOM کا استعمال کرتے ہوئے کی ضرورت ہے اور نہ ہی سفارش نہ تو جاتا ہے. BOM UTF-8 انکوڈنگ کے لئے بائٹ حکم کے نشان یا دستخط کا استعمال کرتے ہوئے دوسرے codings سے تبدیل ہونے والی ٹیکسٹ میں ہو سکتا ہے. 3 بائٹس EF BB 16 16 BF 16 کا ایک تسلسل ہے.

UTF-8 انکوڈنگ سیٹ کرنے کے لئے کس طرح

HTML کوڈنگ UTF-8 مندرجہ ذیل کوڈ کے ساتھ نصب کیا جاتا ہے:

سر

میٹا HTTP-equiv = "مواد کی قسم" مواد = "متن / HTML؛ چارسیٹ = UTF-8" ˃

پی ایچ پی میں UTF-8 انکوڈنگ کی پیداوار کی سطح قدر غلطی مقرر کرنے کے بعد فائل کے شروع میں ہیڈر () تقریب کا استعمال کرتے ہوئے مقرر کیا گیا ہے:

˂؟ پی ایچ پی

error_reporting (-1)؛

ہیڈر ( "مواد کی قسم: متن / HTML؛ چارسیٹ = UTF-8 ')؛

UTF-8 انکوڈنگ مقرر کیا گیا ہے ایک ایس کیو ایل ڈیٹا بیس سے رابطہ قائم کرنے کے لئے:

˂؟ پی ایچ پی

mysql_set_charset ( 'UTF8')؛

سی ایس ایس فائل انکوڈنگ حسب ذیل UTF-8 حروف کی وضاحت کی ہے یہ ہے کہ:

charset "UTF-8"؛

آپ تمام قسم کی فائلوں، BOM بغیر UTF-8 انکوڈنگ منتخب بچانے جب دوسری صورت سائٹ کام نہیں کرے گا. UTF-8 کو انکوڈنگ کو تبدیل کرنے DreamWeave میں ایسا کرنے کے لئے مینو اشیاء "عنوان / انکوڈنگ - - صفحہ پراپرٹیز ترمیم" کو منتخب کرنے کے لئے کی ضرورت ہے. صفحہ دوبارہ لوڈ کے بعد سے "کنیکٹ یونیکوڈ سگنیچر (BOM)« نشان ہٹا دیں اور تبدیلیوں کو لاگو. ایک صفحے پر یا ایک ڈیٹا بیس میں کسی بھی متن کوڈنگ کے ایک اور فارم پیش کیا گیا تھا، تو یہ دوبارہ داخل یا دوبارہ ضابطہ کاری کرنے کے لئے یہ ضروری ہے. آپ باقاعدہ اظہار کے ساتھ کام کرتے ہیں، آپریورتک U استعمال کرنے کے لئے یقینی بنائیں.

آپ یہ بھی ونڈوز کے "نوٹ پیڈ" میں UTF-8 انکوڈنگ میں فائل کو محفوظ کر سکتے ہیں. مینو اشیاء کو منتخب کرنے کے بعد - انکوڈنگ کی ضروری فارم انسٹال اور UTF-8 میں فائل کو بچانے کے لئے "فائل کے طور پر محفوظ کریں ...".

ایک ٹیکسٹ ایڈیٹر نوٹ پیڈ + +، مینو اشیاء کے ذریعے، UTF-8 کے علاوہ کسی اور کو مقرر ہے تو میں "BOM بغیر UTF-8 میں تبدیل« کردار کو تبدیل کرنے اور UTF-8 میں محفوظ کریں.

کوئی متبادل نہیں ہے

گلوبلائزیشن، جہاں سیاسی اور لسانی حدود ختم کر رہے ہیں کے تناظر میں مقامی خصوصیات ہے کہ کردار سیٹ، بہت کم استعمال کی ہے. یونیکوڈ تمام localizations کے حمایت کرتا ہے کہ کسی ایک کردار سیٹ ہے. A UTF-8 - ہے جو یونیکوڈ کے مناسب عمل، کی ایک مثال:

  • اس سے ASCII انکوڈنگ کے ساتھ مطابقت سمیت اوزار، کی ایک وسیع رینج کی حمایت کرتا ہے؛
  • اس مسخ کے اعداد و شمار کے لئے مزاحم ہے.
  • سادہ اور علاج میں موثر؛
  • پلیٹ فارم آزاد ہے.

UTF-8 بحث انکوڈنگ یا کیریکٹر سیٹ کے کس شکل کے بارے میں بہتر ہے کی آمد کے ساتھ، یہ بے معنی ہو جاتا ہے.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 ur.birmiss.com. Theme powered by WordPress.