Two new files one to create a stop word dictionary the other to test clustering
This commit is contained in:
parent
85626bd795
commit
a761f0b8dc
|
@ -0,0 +1,56 @@
|
||||||
|
from infBack import get_vect as gv
|
||||||
|
import numpy as np
|
||||||
|
from sklearn.feature_extraction.text import TfidfTransformer
|
||||||
|
from sklearn.feature_extraction.text import CountVectorizer
|
||||||
|
from sklearn import cluster
|
||||||
|
from matplotlib import pyplot
|
||||||
|
import numpy as np
|
||||||
|
|
||||||
|
def stopWrdList():
|
||||||
|
sw = open('stop.words')
|
||||||
|
prue = []
|
||||||
|
prue.append(sw.readlines())
|
||||||
|
return [l.strip('\n\r') for l in prue[0]]
|
||||||
|
|
||||||
|
|
||||||
|
stop_words = stopWrdList()
|
||||||
|
|
||||||
|
dataVect = gv()
|
||||||
|
|
||||||
|
dataVect = np.array(dataVect)
|
||||||
|
|
||||||
|
corpus = dataVect[:, 2]
|
||||||
|
|
||||||
|
vectorizer = CountVectorizer(stop_words=stop_words)
|
||||||
|
transformer = TfidfTransformer(smooth_idf=False)
|
||||||
|
|
||||||
|
X = vectorizer.fit_transform(corpus)
|
||||||
|
|
||||||
|
del dataVect, corpus, stop_words
|
||||||
|
|
||||||
|
J = X.toarray()
|
||||||
|
|
||||||
|
tf_idf = transformer.fit_transform(J)
|
||||||
|
|
||||||
|
tf_idf_matrix = tf_idf.toarray()
|
||||||
|
|
||||||
|
k = 2
|
||||||
|
kmeans = cluster.KMeans(n_clusters=k)
|
||||||
|
kmeans.fit(J)
|
||||||
|
|
||||||
|
labels = kmeans.labels_
|
||||||
|
centroids = kmeans.cluster_centers_
|
||||||
|
|
||||||
|
for i in range(k):
|
||||||
|
# select only data observations with cluster label == i
|
||||||
|
ds = J[np.where(labels == i)]
|
||||||
|
# plot the data observations
|
||||||
|
pyplot.plot(ds[:,0],ds[:,1],'o')
|
||||||
|
# plot the centroids
|
||||||
|
lines = pyplot.plot(centroids[i, 0], centroids[i, 1], 'kx')
|
||||||
|
# make the centroid x's bigger
|
||||||
|
pyplot.setp(lines, ms=15.0)
|
||||||
|
pyplot.setp(lines, mew=2.0)
|
||||||
|
pyplot.show()
|
||||||
|
|
||||||
|
print(X.toarray())
|
|
@ -0,0 +1,178 @@
|
||||||
|
un
|
||||||
|
una
|
||||||
|
unas
|
||||||
|
unos
|
||||||
|
uno
|
||||||
|
sobre
|
||||||
|
todo
|
||||||
|
también
|
||||||
|
tras
|
||||||
|
otro
|
||||||
|
algún
|
||||||
|
alguno
|
||||||
|
alguna
|
||||||
|
algunos
|
||||||
|
algunas
|
||||||
|
ser
|
||||||
|
es
|
||||||
|
soy
|
||||||
|
eres
|
||||||
|
somos
|
||||||
|
sois
|
||||||
|
estoy
|
||||||
|
esta
|
||||||
|
estamos
|
||||||
|
estais
|
||||||
|
estan
|
||||||
|
como
|
||||||
|
en
|
||||||
|
para
|
||||||
|
atras
|
||||||
|
porque
|
||||||
|
por qué
|
||||||
|
estado
|
||||||
|
estaba
|
||||||
|
ante
|
||||||
|
antes
|
||||||
|
siendo
|
||||||
|
ambos
|
||||||
|
pero
|
||||||
|
por
|
||||||
|
poder
|
||||||
|
puede
|
||||||
|
puedo
|
||||||
|
podemos
|
||||||
|
podeis
|
||||||
|
pueden
|
||||||
|
fui
|
||||||
|
fue
|
||||||
|
fuimos
|
||||||
|
fueron
|
||||||
|
hacer
|
||||||
|
hago
|
||||||
|
hace
|
||||||
|
hacemos
|
||||||
|
haceis
|
||||||
|
hacen
|
||||||
|
cada
|
||||||
|
fin
|
||||||
|
incluso
|
||||||
|
primero
|
||||||
|
desde
|
||||||
|
conseguir
|
||||||
|
consigo
|
||||||
|
consigue
|
||||||
|
consigues
|
||||||
|
conseguimos
|
||||||
|
consiguen
|
||||||
|
ir
|
||||||
|
voy
|
||||||
|
va
|
||||||
|
vamos
|
||||||
|
vais
|
||||||
|
van
|
||||||
|
vaya
|
||||||
|
gueno
|
||||||
|
ha
|
||||||
|
tener
|
||||||
|
tengo
|
||||||
|
tiene
|
||||||
|
tenemos
|
||||||
|
teneis
|
||||||
|
tienen
|
||||||
|
el
|
||||||
|
la
|
||||||
|
lo
|
||||||
|
las
|
||||||
|
los
|
||||||
|
su
|
||||||
|
aqui
|
||||||
|
mio
|
||||||
|
tuyo
|
||||||
|
ellos
|
||||||
|
ellas
|
||||||
|
nos
|
||||||
|
nosotros
|
||||||
|
vosotros
|
||||||
|
vosotras
|
||||||
|
si
|
||||||
|
dentro
|
||||||
|
solo
|
||||||
|
solamente
|
||||||
|
saber
|
||||||
|
sabes
|
||||||
|
sabe
|
||||||
|
sabemos
|
||||||
|
sabeis
|
||||||
|
saben
|
||||||
|
ultimo
|
||||||
|
largo
|
||||||
|
bastante
|
||||||
|
haces
|
||||||
|
muchos
|
||||||
|
aquellos
|
||||||
|
aquellas
|
||||||
|
sus
|
||||||
|
entonces
|
||||||
|
tiempo
|
||||||
|
verdad
|
||||||
|
verdadero
|
||||||
|
verdadera
|
||||||
|
cierto
|
||||||
|
ciertos
|
||||||
|
cierta
|
||||||
|
ciertas
|
||||||
|
intentar
|
||||||
|
intento
|
||||||
|
intenta
|
||||||
|
intentas
|
||||||
|
intentamos
|
||||||
|
intentais
|
||||||
|
intentan
|
||||||
|
dos
|
||||||
|
bajo
|
||||||
|
arriba
|
||||||
|
encima
|
||||||
|
usar
|
||||||
|
uso
|
||||||
|
usas
|
||||||
|
usa
|
||||||
|
usamos
|
||||||
|
usais
|
||||||
|
usan
|
||||||
|
emplear
|
||||||
|
empleo
|
||||||
|
empleas
|
||||||
|
emplean
|
||||||
|
ampleamos
|
||||||
|
empleais
|
||||||
|
valor
|
||||||
|
muy
|
||||||
|
era
|
||||||
|
eras
|
||||||
|
eramos
|
||||||
|
eran
|
||||||
|
modo
|
||||||
|
bien
|
||||||
|
cual
|
||||||
|
cuando
|
||||||
|
donde
|
||||||
|
mientras
|
||||||
|
quien
|
||||||
|
con
|
||||||
|
entre
|
||||||
|
sin
|
||||||
|
trabajo
|
||||||
|
trabajar
|
||||||
|
trabajas
|
||||||
|
trabaja
|
||||||
|
trabajamos
|
||||||
|
trabajais
|
||||||
|
trabajan
|
||||||
|
podria
|
||||||
|
podrias
|
||||||
|
podriamos
|
||||||
|
podrian
|
||||||
|
podriais
|
||||||
|
yo
|
||||||
|
aquel
|
Loading…
Reference in New Issue