Kamis, 01 April 2010

Cara Memakai Google Books Ngram Viewer

 Google Ngram ialah mesin telusur online untuk Google Books Cara Menggunakan Google Books Ngram Viewer
Google Books Ngram Viewer

Google Ngram ialah mesin telusur online untuk Google Books. Ngram ialah analisis statistik teks untuk menemukan beberapa jenis item dalam teks, biasa juga disebut dengan N-gram. Pada pada dasarnya ialah analisis statistik pada konten teks, sanggup jadi segala macam, menyerupai fonem, frasa, aksara ataupun prefiks. Mesin telusur sanggup mencari frase apapun, termasuk yang salah eja ataupun yang tanpa makna tertentu. 

Teks yang dianalisis statistik berasal dari buku-buku yang telah dipindai oleh Google untuk mengisi Searching Engine Google Books. Ngram Viewer akan menampilkan grafik atau beberapa grafik yang merupakan representasi frasa atau banyak frasa tertentu. Grafik akan dibedakan menurut warna untuk membedakan masing-masing pencarian frasa. 

Contohnya gambar di atas ini ialah tampilan homepage Google Ngram Viewer, yang menampilkan frasa Albert Einstein, Sherlock Holmes, Frankenstein. Google Ngram pada dasarnya menyerupai dengan Google Trends namun dengan jangkauan waktu yang lebih lama. Ini alasannya ialah sumbernya yang berasal dari buku-buku yang telah dipindai dan dimasukan ke dalam database Google.

Pada ketika pencarian sebuah kata kunci, Ngram membagi teks menurut kumpulan teks atau istilahnya corpus/ korpus/ kumpulan tulisan, walaupun bahasa tersebut mempunyai kemiripan menyerupai Bahasa Inggris Amerika dan Bahasa Inggris British. Grafik statistik tetap akan berubah tergantung preferensi anda, alasannya ialah korpusnya berbeda.

Cara menggunakannya ialah sebagai berikut:

1. Buka https://books.google.com/ngrams

2. Ketikkan kata kunci yang akan dianalisis. Kata yang diketikkan bersifat case-sensitive, artinya penggunaan aksara kapital dan spasi juga akan kuat pada hasil. Pisahkan setiap kata dengan memakai koma dan tanpa spasi sesudah koma (kecuali termasuk ke dalam pencarian).

3. Atur jangkauan pencarian anda. Saat ini sudah sanggup diatur pencarian dari tahun 1800 hingga dengan tahun 2008. Pengaturan default pada jangkauan 1800 hingga dengan tahun 2000.

4. Pilih bahasa/ corpus, cukup banyak tersedia opsi hingga sekarang, yaitu: American English, British, Chinese (simplified), English, English Fiction, French, German, Hebrew, Italian, Russian, Spanish, American English (2009), British English (2009), Chinese (simplified) (2009), English (2009), English Fiction (2009), English One Million (2009), French (2009), German (2009), Hebrew (2009), Russian (2009), dan Spanish (2009). Pengaturan default pada corpus "English".

Kebanyakan dari opsi disematkan juga tahun (2009), ini menunjukan data dikumpulkan hingga dengan tahun 2009 (Google lama). Jika memang tidak dibutuhkan anda sanggup mengabaikannya dan gunakan data baru.

5. Selanjutnya pilih tingkat kehalusan data (smoothing). Smoothing data ialah seberapa detail data ditampilkan pada grafik akhir. Semakin besar angkanya maka grafik akan semakin halus begitu juga sebaliknya. Diandaikan grafik jangkauan (range) maka smoothing ini juga menggeneralisasikan data pada range tertentu biar lebih gampang didapatkan kesimpulan.

Representasi data paling akurat dan masih sanggup dibaca pada tingkat smoothing 1, anda sanggup mengaturnya pada tingkat 0, namun akan sulit dibaca. Secara default smoothing pada angka 3, grafik tidak terlalu halus namun tidak terlalu 'keriting' juga.

6. Selanjutnya klik tombol "Search lots of Books", alias tombol "Cari Banyak Buku", atau tekan tombol "Enter" pada keyboard anda. Selanjutnya akan ditampilkan grafik tertentu sebagai representasi penggunaan kata/ frasa tertentu, tergantung apa yang anda input. Seperti yang disebutkan sebelumnya anda sanggup memasukan huruf, fonem, frasa, ataupun prefiks.

Jika anda memasukan lebih dari satu kata kunci, harus dipisahkan dengan tanda koma dan tidak diberi spasi (kecuali spasi tersebut termasuk ke dalam pencarian). Grafik akan membedakannya dengan instruksi warna biar lebih gampang dilihat. Sampai sini anda akan menyadari bahwa ini menyerupai dengan konsep Google Trends, namun dengan jangka waktu yang jauh lebih lama.

Kita ambil rujukan yang sudah secara "default" ada ketika anda membuka Ngram, yaitu beling kunci "Albert Einstein,Sherlock Holmes,Frankenstein". Perhatikan penulisannya, ada pemisahan antara nama awal dan nama simpulan dengan spasi, dan penggunaan aksara kapital pada awal nama. Jika anda mengubahnya sedikit saja, grafik yang ditampilkan sanggup jadi akan berbeda, atau tidak ada grafik sama sekali.

Selanjutnya anda sanggup mencoba klik opsi yang berada pada pilihan "Search in Google Books". Coba klik pada opsi "frankenstein", pada jangkauan waktu 2004-2008, dan pada corpus "English". Maka anda akan diarahkan pada hasil pencarian Google pada tab "Books" dengan custom range "2004-2008". Klik pada salah satu link hasil pencarian tersebut, maka anda akan diarahkan pada halaman buku tersebut yang sanggup anda baca secara online. Ini ialah hasil pindai Google terhadap buku tersebut.

Pada umumnya anda sanggup mencari kata kunci tertentu yang disebutkan di dalam buku tertentu, dengan bahasa tertentu, dan dalam jangka waktu tertentu. Misalnya saya tertarik untuk mencari tahu ihwal "Laptop", maka akan ditampilkan grafik sederhana.

Dari grafik "Laptop" sanggup diambil perkiraan sebagai berikut:

Istilah "Laptop" termasuk ke dalam istilah di jaman modern alasannya ialah istilah ini gres muncul pada cetakan buku tertentu pada tahun 1955. Kata ini disebutkan juga pada literatur tertentu pada tahun 1800-an, alasannya ialah muncul pada data tahun 1863, 1884-1890, namun kata "Laptop" ini tidak mempunyai makna yang sama dengan sekarang, alasannya ialah jaman dahulu belum ditemukan yang namanya komputer jinjing.

Jika grafiknya dikerucutkan ke jangkauan data dari tahun 1955-2008, maka dengan gampang akan terlihat data bahwa kata "Laptop" mulai terkenal semenjak tahun 1984 (mungkin sesudah didirikannya Apple atau Microsoft). Kata ini semakin terkenal dengan grafik yang terus meningkat hingga dengan tahun 2008 (dalam corpus bahasa Inggris). Kata ini banyak disebutkan pada literatur atau media tertentu, alasannya ialah perkembangan teknologi komputer yang pesat ketika itu.

Selanjutnya, anda sanggup merubah pengaturan smoothing ke 0 atau 1, biar didapatkan data yang lebih detail. Anda akan mendapati bahwa bahwasanya istilah "Laptop" ini grafik meningkatnya tidak mulus, tetapi mengalami penurunan grafik ngram pada tahun 1955, kemudian meningkat lagi pada tahun 1998, turun sedikit pada tahun 1999, dan naik secara signifikan hingga dengan tahun 2002. Pada kenyataannya tahun 2002 ialah tahun dimana komputer jinjing (laptop) sudah menjadi bab kehidupan modern.


Kekurangan Ngram

Program yang dikembangkan oleh Jon Orwant dan Will Brockman ini hingga dengan ketika ini masih dalam proses penyempurnaan. Salah satu kekurangan yang sulit diatasi ialah OCR yang tidak akurat.

OCR atau Optical Character Recognition atau Optical Character Reader ialah konversi secara elektronik dari gambar, goresan pena tangan, atau hasil ketikan dalam bentuk teks. Seperti yang disebutkan sebelumnya, data google books ini bersumber dari sejumlah banyak buku yang dipindai, mencakup teks, gambar-gambar, keterangan gambar, dan sebagainya.

Metode OCR ini dipakai untuk mendigitalkan teks/ gambar yang telah dicetak, sehingga sanggup disimpan dan disunting secara digital. Dalam hal ini teks/ gambar yang sudah tersimpan secara digital sanggup dicari, ditampilkan secara online, diterjemahkan, diekstraksi menjadi bentuk suara, dan sebagainya. Terbayang bukan? Sejumlah besar literatur ilmiah dan non-ilmiah dipindai, kemudian dikonversikan secara digital. Hasil konversi ini yang menjadi bias alasannya ialah pengkategorian data-data yang tidak sempurna ataupun kesalahan sistem 'mengenali' hasil pindaian.

Demikian artikel Cara Menggunakan Google Books Ngram Viewer. Untuk lebih memahami ihwal Ngram anda sanggup mencoba sendiri, dan lakukan riset dan analisis sederhana. Google sudah menyediakan sejumlah besar database yang sanggup anda gunakan.


Sumber
lifewire.com
wikipedia.com
Comments


EmoticonEmoticon