forum.boolean.name

forum.boolean.name (http://forum.boolean.name/index.php)
-   Болтовня (http://forum.boolean.name/forumdisplay.php?f=25)
-   -   Список существительных (http://forum.boolean.name/showthread.php?t=19964)

impersonalis 27.08.2015 20:07

Список существительных
 
Для небольшого исследования нужен файл с существительными русского языка в именительном падеже. Быть может кто-то натыкался на такой?
ЕМНИП, в последний раз брал базу от какой-то игры в слова.

Nerd 27.08.2015 20:19

Ответ: Список существительных
 
Вложений: 1
Можно дампнуть из wiktionary ([1] [2])

Скрипт на Python 2.x:

Код:

import urllib2
import json
import time

url = "https://ru.wiktionary.org"
cat = "%D0%9A%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D1%8F%3A%D0%A0%D1%83%D1%81%D1%81%D0%BA%D0%B8%D0%B5_%D1%81%D1%83%D1%89%D0%B5%D1%81%D1%82%D0%B2%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5"
# dlya zashifrovki stroki ispolzoval vot eto: http://meyerweb.com/eric/tools/dencoder/
# vpervie v zhizni kuryu Python, hz gde tut u vas vrubaetsa utf-8

output = open("out.txt","wb")

cont = ""
while True:
  print "."*(int(time.time())%4+1)
  data = json.loads(urllib2.urlopen(url+"/w/api.php?action=query&format=json&list=categorymembers&cmlimit=500&cmtitle="+cat+cont).read())
  for page in data[u'query'][u'categorymembers']:
    output.write(page[u'title'].encode('utf8')+'\n')
  if(not (u'continue' in data)):
    break
  cont = '&cmcontinue='+data[u'continue'][u'cmcontinue']


impersonalis 29.08.2015 19:22

Ответ: Список существительных
 
Огромное спасибо!
//перенёс тему в болтовню

ABTOMAT 29.08.2015 21:21

Ответ: Список существительных
 
Спасибо! Теперь мне известно о существовании таких слов, как вертеброневрология, серопрофилактика и тулумбас!


Часовой пояс GMT +4, время: 21:12.

vBulletin® Version 3.6.5.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot