From a761f0b8dcf29a819ffbaae9fb423ee2fbdbac9e Mon Sep 17 00:00:00 2001 From: Eddie Date: Mon, 30 Oct 2017 16:32:07 -0600 Subject: [PATCH] Two new files one to create a stop word dictionary the other to test clustering --- clust.py | 56 +++++++++++++++++ stop.words | 178 +++++++++++++++++++++++++++++++++++++++++++++++++++++ 2 files changed, 234 insertions(+) create mode 100644 clust.py create mode 100755 stop.words diff --git a/clust.py b/clust.py new file mode 100644 index 0000000..7e6225f --- /dev/null +++ b/clust.py @@ -0,0 +1,56 @@ +from infBack import get_vect as gv +import numpy as np +from sklearn.feature_extraction.text import TfidfTransformer +from sklearn.feature_extraction.text import CountVectorizer +from sklearn import cluster +from matplotlib import pyplot +import numpy as np + +def stopWrdList(): + sw = open('stop.words') + prue = [] + prue.append(sw.readlines()) + return [l.strip('\n\r') for l in prue[0]] + + +stop_words = stopWrdList() + +dataVect = gv() + +dataVect = np.array(dataVect) + +corpus = dataVect[:, 2] + +vectorizer = CountVectorizer(stop_words=stop_words) +transformer = TfidfTransformer(smooth_idf=False) + +X = vectorizer.fit_transform(corpus) + +del dataVect, corpus, stop_words + +J = X.toarray() + +tf_idf = transformer.fit_transform(J) + +tf_idf_matrix = tf_idf.toarray() + +k = 2 +kmeans = cluster.KMeans(n_clusters=k) +kmeans.fit(J) + +labels = kmeans.labels_ +centroids = kmeans.cluster_centers_ + +for i in range(k): + # select only data observations with cluster label == i + ds = J[np.where(labels == i)] + # plot the data observations + pyplot.plot(ds[:,0],ds[:,1],'o') + # plot the centroids + lines = pyplot.plot(centroids[i, 0], centroids[i, 1], 'kx') + # make the centroid x's bigger + pyplot.setp(lines, ms=15.0) + pyplot.setp(lines, mew=2.0) +pyplot.show() + +print(X.toarray()) diff --git a/stop.words b/stop.words new file mode 100755 index 0000000..90a366a --- /dev/null +++ b/stop.words @@ -0,0 +1,178 @@ +un +una +unas +unos +uno +sobre +todo +también +tras +otro +algún +alguno +alguna +algunos +algunas +ser +es +soy +eres +somos +sois +estoy +esta +estamos +estais +estan +como +en +para +atras +porque +por qué +estado +estaba +ante +antes +siendo +ambos +pero +por +poder +puede +puedo +podemos +podeis +pueden +fui +fue +fuimos +fueron +hacer +hago +hace +hacemos +haceis +hacen +cada +fin +incluso +primero +desde +conseguir +consigo +consigue +consigues +conseguimos +consiguen +ir +voy +va +vamos +vais +van +vaya +gueno +ha +tener +tengo +tiene +tenemos +teneis +tienen +el +la +lo +las +los +su +aqui +mio +tuyo +ellos +ellas +nos +nosotros +vosotros +vosotras +si +dentro +solo +solamente +saber +sabes +sabe +sabemos +sabeis +saben +ultimo +largo +bastante +haces +muchos +aquellos +aquellas +sus +entonces +tiempo +verdad +verdadero +verdadera +cierto +ciertos +cierta +ciertas +intentar +intento +intenta +intentas +intentamos +intentais +intentan +dos +bajo +arriba +encima +usar +uso +usas +usa +usamos +usais +usan +emplear +empleo +empleas +emplean +ampleamos +empleais +valor +muy +era +eras +eramos +eran +modo +bien +cual +cuando +donde +mientras +quien +con +entre +sin +trabajo +trabajar +trabajas +trabaja +trabajamos +trabajais +trabajan +podria +podrias +podriamos +podrian +podriais +yo +aquel