د TensorFlow Keras Tokenizer API په حقیقت کې د متن په کورپس کې د ډیری مکرر کلمو موندلو لپاره کارول کیدی شي. ټوکن کول د طبیعي ژبې پروسس کولو (NLP) کې یو بنسټیز ګام دی چې د متن په کوچنیو واحدونو، په ځانګړې توګه د کلمو یا فرعي کلمو ماتول شامل دي، ترڅو نور پروسس اسانه کړي. په TensorFlow کې د Tokenizer API د متن ډیټا مؤثره نښه کولو ته اجازه ورکوي، د دندو وړ کول لکه د کلمو فریکونسۍ شمیرل.
د TensorFlow Keras Tokenizer API په کارولو سره د ډیری مکرر کلمو موندلو لپاره ، تاسو کولی شئ دا مرحلې تعقیب کړئ:
1. ټوکن کول: د Tokenizer API په کارولو سره د متن ډیټا په نښه کولو سره پیل کړئ. تاسو کولی شئ د Tokenizer یوه بیلګه جوړه کړئ او په متن کې یې فټ کړئ ترڅو په ډاټا کې د موجودو کلمو لغتونه رامینځته کړي.
python from tensorflow.keras.preprocessing.text import Tokenizer # Sample text data texts = ['hello world', 'world of tensorflow', 'hello tensorflow'] # Create Tokenizer instance tokenizer = Tokenizer() tokenizer.fit_on_texts(texts)
2. د کلمې شاخص: له Tokenizer څخه د کلمې شاخص بیرته ترلاسه کړئ، کوم چې هره کلمه په کورپس کې د فریکونسۍ پراساس یو ځانګړي عدد ته نقشه کوي.
python word_index = tokenizer.word_index
3. د کلمو شمیرل: د ټوکنائزر د `word_counts` خاصیت په کارولو سره په متن کې د هرې کلمې فریکونسۍ محاسبه کړئ.
python word_counts = tokenizer.word_counts
4. ترتیب کول: د کلمې شمیرې په نزولي ترتیب کې ترتیب کړئ ترڅو ډیری تکراري کلمې وپیژني.
python sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
5. د ډیری تکراري کلمو ښودل: د ترتیب شوي کلمو شمیرو پراساس د N ډیری تکراري کلمې ښکاره کړئ.
python top_n = 5 most_frequent_words = [(word, count) for word, count in sorted_word_counts[:top_n]] print(most_frequent_words)
د دې ګامونو په تعقیب، تاسو کولی شئ د TensorFlow Keras Tokenizer API څخه ګټه پورته کړئ ترڅو په متن کې ډیری ډیری کلمې ومومئ. دا پروسه د مختلف NLP دندو لپاره اړینه ده، پشمول د متن تحلیل، د ژبې ماډلینګ، او د معلوماتو بیرته ترلاسه کول.
د TensorFlow Keras Tokenizer API په مؤثره توګه کارول کیدی شي د ټوکن کولو ، د کلمو شاخص کولو ، شمیرلو ، ترتیب کولو او ښودلو مرحلو له لارې په متن کې د ډیری مکرر کلمو پیژندلو لپاره. دا طریقه په ډیټا کې د کلمو ویشلو لپاره ارزښتناکه بصیرت وړاندې کوي، د NLP غوښتنلیکونو کې نور تحلیل او ماډلینګ فعالوي.
په اړه نورې وروستۍ پوښتنې او ځوابونه EITC/AI/TFF TensorFlow اساسات:
- څنګه کولای شو چی د ویکتورونو په توګه د کلمو د نمایندګۍ د پلاټ لپاره مناسب محورونه په اتوماتيک ډول وټاکو لپاره د سرایت کولو پرت وکاروو؟
- په CNN کې د اعظمي پولینګ هدف څه دی؟
- د عکس پیژندنې لپاره په کنولوشنال عصبي شبکه (CNN) کې د فیچر استخراج پروسه څنګه پلي کیږي؟
- ایا دا اړینه ده چې په TensorFlow.js کې د ماشین زده کړې ماډلونو لپاره د غیر متناسب زده کړې فعالیت وکاروئ؟
- د TensorFlow Keras Tokenizer API د کلمو پیرامیټر اعظمي شمیر څه دی؟
- TOCO څه شی دی؟
- د ماشین زده کړې ماډل کې د یو شمیر دورونو او د ماډل چلولو څخه د وړاندوینې دقت ترمنځ اړیکه څه ده؟
- ایا د TensorFlow په عصبي جوړښت شوي زده کړې کې د پیک ګاونډی API د طبیعي ګراف ډیټا پراساس د روزنې ډیټاسیټ وده کوي؟
- د TensorFlow په عصبي ساختماني زده کړې کې د پیک ګاونډی API څه شی دی؟
- ایا د عصبي جوړښت زده کړې د ډیټا سره کارول کیدی شي د کوم لپاره چې طبیعي ګراف شتون نلري؟
نورې پوښتنې او ځوابونه په EITC/AI/TFF TensorFlow Fundamentals کې وګورئ