Package net.zemberek.araclar.turkce
Class TurkishTokenStream
- java.lang.Object
-
- net.zemberek.araclar.turkce.TurkishTokenStream
-
public class TurkishTokenStream extends java.lang.Object
TurkishTokenStream Verilen bir doayadan veya herhangi bir stream'dan Türkce kelimeleri sirayla almak için kullanilir. İki constructor'u vardır, istenirse verilen bir dosyayi istenirse de herhangi bir inputstream'ı isleyebilir. Biraz optimizasyona ihtiyaci var ,ama corpus.txt deki tüm kelimeleri tek tek nextWord() ile cekmek yaklasik 0.8 saniye aldi. (Athlon 900)- Author:
- MDA & GBA
-
-
Field Summary
Fields Modifier and Type Field Description static int
MAX_CUMLE_BOY
static int
MAX_KELIME_BOY
-
Constructor Summary
Constructors Constructor Description TurkishTokenStream(java.io.InputStream is, java.lang.String encoding)
Herhangibir input Streaminden'den kelime okuyan TurkishTokenStream oluşturur.TurkishTokenStream(java.lang.String fileName, java.lang.String encoding)
Dosyadan kelime okuyan TurkishTokenStream oluşturur
-
Method Summary
All Methods Instance Methods Concrete Methods Modifier and Type Method Description char
harfIsle(char chIn)
boolean
isSentenceDelimiter(char ch)
java.lang.String
nextSentence()
Metindeki veya stream'deki bir sonraki cümleyi getirirjava.lang.String
nextWord()
Metindeki veya stream'deki bir sonraki kelimeyi getirir - Büyük harfleri küçültür - Noktalama işaretlerini yutar.void
setStatistics(Istatistikler statistics)
-
-
-
Constructor Detail
-
TurkishTokenStream
public TurkishTokenStream(java.lang.String fileName, java.lang.String encoding)
Dosyadan kelime okuyan TurkishTokenStream oluşturur- Parameters:
fileName
-encoding
- : default için null verin
-
TurkishTokenStream
public TurkishTokenStream(java.io.InputStream is, java.lang.String encoding)
Herhangibir input Streaminden'den kelime okuyan TurkishTokenStream oluşturur.- Parameters:
is
-encoding
- : default için null verin
-
-
Method Detail
-
nextWord
public java.lang.String nextWord()
Metindeki veya stream'deki bir sonraki kelimeyi getirir - Büyük harfleri küçültür - Noktalama işaretlerini yutar.- Returns:
- Sonraki kelime, eğer kelime kalmamışsa null
-
nextSentence
public java.lang.String nextSentence()
Metindeki veya stream'deki bir sonraki cümleyi getirir- Returns:
- Sonraki cümle, eğer kalmamışsa null
-
harfIsle
public char harfIsle(char chIn)
-
isSentenceDelimiter
public boolean isSentenceDelimiter(char ch)
-
setStatistics
public void setStatistics(Istatistikler statistics)
-
-