DITA

Don’t read a million books

This lab exercise was influenced by Stephen Ramsay’s article written in 2014 “The Hermeneutics of Screwing Around.” In it, he talks about the impossibility of reading all the books in the world. This is a not a new problem, according to him. In the past, many lists have been created stating out of all the books printed, these are the ones you should read. People realised after all that to minimise missing anything that was written, you should pick and choose wisely. However, in The Hermeneutics, Mr. Ramsay suggests that why can’t we read all those books. By reading he means browsing through the books and picking out their meaning, that is- text analysis.

There are many ways to do text analysis. The most popular ones before the advent of computers was to read the entire book through noting the passages where different themes occurred. Computers now, can go through text and pull out relevant phrases and note the frequency. There are many applications that do that.

In this lab exercise, we used three such applications-Wordle, Many Eyes and Voyant Tools. They represent the data as a word cloud, mainly though there are other representations. A word cloud is a stylistic representation of words in different sizes corresponding to its frequency of use in the text. This is an example of a word cloud from Wordle.

Cambridge col. C

We used the data from the spreadsheets we exported from altmetric.com as well as the spreadsheets from the TAGS exercise. Wordle is a very easy-to-use site. You have to take a screenshot to save the word cloud on your computer, though. There is no option to download.

Voyant Tools is a resource developed by a Canadian research team. It is still in beta form so the user interface is a bit bare. However, there are more options than you would get using Wordle. With Voyant Tools, you can create your own stop words list. These are words that you don’t want the word cloud to include. Wordle does this automatically but if you did want to count words like ‘the’ or ‘and, you would not be able to. This is a screenshot of a word cloud using Voyant Tools.

First use of Voyant Tools

With Voyant Tools, you can also get a list of all the words used in the text and their frequency.

#citylis    1,111    33.47    –    573.4    0.000    –    –

t.co      805    24.21    –    415.4    0.000    –    –

http      775    23.30    –    400.0    0.000    –    –

the      631    18.94    –    325.6    0.000    –    –

rt      420    12.55    –    216.8    0.000    –    –

to      335     9.98    –    172.9    0.000    –    –

of      315     9.37    –    162.6    0.000    –    –

and      298     8.86    –    153.8    0.000    –    –

a      239     7.07    –    123.3    0.000    –    –

for      225     6.64    –    116.1    0.000    –    –

in      199     5.86    –    102.7    0.000    –    –

labs      196     5.77    –    101.2    0.000    –    –

on      174     5.10    –     89.8    0.000    –    –

#bl      155     4.53    –     80.0    0.000    –    –

@ernestopriego      151     4.40    –     77.9    0.000    –    –

at      144     4.19    –     74.3    0.000    –    –

is      143     4.16    –     73.8    0.000    –    –

via      107     3.07    –     55.2    0.000    –    –

by      100     2.86    –     51.6    0.000    –    –

i       95     2.71    –     49.0    0.000    –    –

data       91     2.59    –     47.0    0.000    –    –

this       84     2.38    –     43.4    0.000    –    –

information       77     2.16    –     39.7    0.000    –    –

with       75     2.10    –     38.7    0.000    –    –

#oanowcity       71     1.98    –     36.6    0.000    –    –

#oaweek2014       71     1.98    –     36.6    0.000    –    –

library       69     1.92    –     35.6    0.000    –    –

be       63     1.74    –     32.5    0.000    –    –

from       63     1.74    –     32.5    0.000    –    –

new       63     1.74    –     32.5    0.000    –    –

mt       62     1.71    –     32.0    0.000    –    –

about       59     1.62    –     30.4    0.000    –    –

blog       59     1.62    –     30.4    0.000    –    –

are       57     1.56    –     29.4    0.000    –    –

you       57     1.56    –     29.4    0.000    –    –

#dita       55     1.50    –     28.4    0.000    –    –

digital       55     1.50    –     28.4    0.000    –    –

we       55     1.50    –     28.4    0.000    –    –

@ludiprice       54     1.47    –     27.9    0.000    –    –

#openaccess       53     1.44    –     27.4    0.000    –    –

@lynrobinson       53     1.44    –     27.4    0.000    –    –

https       51     1.38    –     26.3    0.000    –    –

post       51     1.38    –     26.3    0.000    –    –

my       50     1.35    –     25.8    0.000    –    –

our       46     1.22    –     23.7    0.000    –    –

how       45     1.19    –     23.2    0.000    –    –

it       45     1.19    –     23.2    0.000    –    –

now       44     1.16    –     22.7    0.000    –    –

will       44     1.16    –     22.7    0.000    –    –

all       43     1.13    –     22.2    0.000    –    –

 

Using the export option next to Words in the entire corpus, you can get a text file such as reproduced above.

 

http://voyant-tools.org/tool/CorpusTypeFrequenciesGrid/?corpus=1417711077578.8322&stopList=stop.en.taporware.txt

The above is from a different text than the one displayed in the screenshot.

Voyant Tools gives you quantitative data but you can use this for qualitative analysis. Words that are used frequently can give clues as to the terms used to describe the concepts in a certain domain. This can lead to other questions such as why are these concepts the most important or popular in a certain domain? Using these applications for text analysis can shave a lot of time used in research.

Advertisements
Standard

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s