د TensorFlow Keras Tokenizer API د متن ډیټا مؤثره نښه کولو ته اجازه ورکوي، د طبیعي ژبې پروسس کولو (NLP) دندو کې یو مهم ګام. کله چې په TensorFlow Keras کې د Tokenizer مثال تنظیم کړئ، یو له هغه پیرامیټونو څخه چې ټاکل کیدی شي د `num_words` پیرامیټر دی، کوم چې د کلمو د فریکونسۍ پراساس د ساتلو لپاره د کلمو اعظمي شمیر مشخص کوي. دا پیرامیټر یوازې د ټاکل شوي حد پورې د ډیری مکرر کلمو په پام کې نیولو سره د لغتونو اندازې کنټرول لپاره کارول کیږي.
د 'num_words' پیرامیټر یو اختیاري دلیل دی چې د توکینائزر اعتراض پیل کولو په وخت کې تیریږي. د دې پیرامیټر په ټاکلو سره یو ټاکلی ارزښت ته، د ټوکنائزر به یوازې په ډیټاسیټ کې د پورتنۍ `num_words – 1` ډیری تکراري کلمې په پام کې ونیسي، پاتې کلمې د لغتونو څخه بهر د ټوکونو په توګه چلند کیږي. دا په ځانګړي ډول ګټور کیدی شي کله چې د لوی ډیټاسیټونو سره معامله وکړي یا کله چې د حافظې محدودیتونه اندیښنه وي ، ځکه چې د لغتونو اندازې محدودول کولی شي د ماډل حافظې فوټ پرینټ کمولو کې مرسته وکړي.
دا مهمه ده چې په یاد ولرئ چې د 'num_words' پیرامیټر پخپله د ټوکن کولو پروسې اغیزه نه کوي بلکه د لغتونو اندازه ټاکي چې ټوکنائزر به ورسره کار وکړي. هغه کلمې چې د 'num_words' د حد له امله په لغت کې شاملې نه وي د ټوکنائزر پیل کولو پرمهال مشخص شوي 'oov_token' سره نقشه شي.
په عمل کې، د 'num_words' پیرامیټر تنظیم کول کولی شي د ډیټاسیټ کې خورا اړونده کلمو باندې تمرکز کولو سره د ماډل موثریت ښه کولو کې مرسته وکړي پداسې حال کې چې لږ تکراري کلمې پریږدي چې ممکن د ماډل فعالیت کې د پام وړ مرسته ونکړي. په هرصورت، دا اړینه ده چې د ځانګړي ډیټا سیټ او دندې پراساس د `num_words` لپاره مناسب ارزښت غوره کړئ ترڅو د مهم معلوماتو له لاسه ورکولو څخه مخنیوی وشي.
دلته یو مثال دی چې څنګه د `num_words` پیرامیټر په TensorFlow Keras Tokenizer API کې کارول کیدی شي:
python from tensorflow.keras.preprocessing.text import Tokenizer # Initialize a Tokenizer object with a maximum of 1000 words tokenizer = Tokenizer(num_words=1000) # Fit the Tokenizer on some text data texts = ['sample text data for tokenization'] tokenizer.fit_on_texts(texts) # Convert text to sequences using the Tokenizer sequences = tokenizer.texts_to_sequences(texts) print(sequences)
په پورتنۍ بېلګه کې، ټوکنائزر د `num_words=1000` سره پیل شوی، د لغتونو اندازه 1000 کلمو ته محدودوي. Tokenizer بیا د نمونې متن ډیټا کې فټ کیږي، او متن د Tokenizer په کارولو سره ترتیبونو ته بدلیږي.
د TensorFlow Keras Tokenizer API کې د 'num_words' پیرامیټر د لغتونو اندازه کنټرولولو ته اجازه ورکوي د کلمو اعظمي شمیر مشخص کولو سره چې په ډیټاسیټ کې د دوی فریکونسۍ پراساس په پام کې نیول کیږي. د 'num_words' لپاره د مناسب ارزښت په ټاکلو سره، کاروونکي کولی شي د ماډل فعالیت او د NLP دندو کې د حافظې موثریت غوره کړي.
په اړه نورې وروستۍ پوښتنې او ځوابونه EITC/AI/TFF TensorFlow اساسات:
- د AI لید ماډل روزنې لپاره کارول شوي عکسونو شمیر څنګه وټاکئ؟
- کله چې د AI لید ماډل روزنه ورکول اړین دي د هرې روزنې دورې لپاره د عکسونو مختلف سیټ وکاروئ؟
- د مرحلې اعظمي شمیر څه دي چې یو RNN کولی شي د ورکیدو تدریجي ستونزې څخه مخنیوي لپاره حفظ کړي او اعظمي مرحلې چې LSTM کولی شي یاد کړي؟
- ایا د بیکپروپیګیشن عصبي شبکه د تکراري عصبي شبکې سره ورته ده؟
- څنګه کولای شو چی د ویکتورونو په توګه د کلمو د نمایندګۍ د پلاټ لپاره مناسب محورونه په اتوماتيک ډول وټاکو لپاره د سرایت کولو پرت وکاروو؟
- په CNN کې د اعظمي پولینګ هدف څه دی؟
- د عکس پیژندنې لپاره په کنولوشنال عصبي شبکه (CNN) کې د فیچر استخراج پروسه څنګه پلي کیږي؟
- ایا دا اړینه ده چې په TensorFlow.js کې د ماشین زده کړې ماډلونو لپاره د غیر متناسب زده کړې فعالیت وکاروئ؟
- ایا TensorFlow Keras Tokenizer API د ډیری مکرر کلمو موندلو لپاره کارول کیدی شي؟
- TOCO څه شی دی؟
نورې پوښتنې او ځوابونه په EITC/AI/TFF TensorFlow Fundamentals کې وګورئ