我就废话不多说了,大家还是直接看代码吧~

>#取消科学计数法
>options(scipen = 200)
>#scipen 表示在200个数字以内都不使用科学计数法

补充:r语言去除科学计数法 保留小数位

r语言 去除科学计数法 保留小数位

options(“scipen”=100, “digits”=4)

补充:r语言科学计数法数据改变/丢失/失准,取消科学计数法的原因和解决方法

问题描述

如何在r中取消科学计数法 &

对r中使用科学技术法表示的数据“取消科学计数法”以后,得到的值和原来的值会不一样。

需求背景

分析留存数据时,数据库底表的字段是一个30位/两百位的字符串,比如0011111100000000000001,第一个0表示最近一天该用户没登陆,第三位的1表示3天前该用户登陆了,以此类推

底表的格式是字符串,但我下载格式是csv,csv自动把这个字段的格式改成数值型了(我也不知道为啥),所以我用r读取这个文件时,“0011111100000000000001“就变成了”11111100000000000001“,我需要在前面补0补满30位

然而,补0的函数要求输入的格式是字符串,但我直接把原始数据转成字符串格式的话会发生下面这样尴尬的情况,比如原始数据是“11111111111111111111111111111111111”,那么r就会显示1.11+e30,然后转成character 类型以后就直接变成“1.11+e30”,补0以后就会是“000001.1111e+30”(类似这样,反正就是还有小数点和e等字样)

所以,我需要先取消科学计数法的表示,然后再转成字符串格式。

取消科学计数法的方法一

在读取或处理数据前使用options函数

#取消科学计数法
options(scipen = 200)
#scipen 表示在200位数字以内都不使用科学计数法

取消科学计数法的方法二

在读取或处理数据时使用format函数

#取消科学计数法
format(data, scientific=f)
# data即处理的数据字段

后续的bug

用上面的方法一或者二以后,确实不是科学计数法了,可得到的值和原来的值会不一样,如:

>a <-123456789987654321123456
>a
[1] 1.234568e+23
>format(a,scientific=f)
[1] “123456789987654325240268”
>format(a,scientific=f,digits=14)
[1] “123456789987654325240268”
>format(a,scientific=f,digits=7)
[1] “123456789987654325240268”

原因

对于很大的数(比如10^20量级),r的储存不会保留全部精度,而是保留部分精度(比如前15位),忽略剩余精度(比如后5位)

解决方法

(1)最好就是从源头解决问题,一开始拉取数据的时候就拉成文本格式,不要是数值格式,比如从sql数据库里拉原始数据的时候就用sql指令把那行很大的数改成文本格式。

(2)用其他软件如excel的导入数据功能,把原本数值格式的数据在导入时就改成文本格式,保存以后,再用r读写新文件

以上为个人经验,希望能给大家一个参考,也希望大家多多支持www.887551.com。如有错误或未考虑完全的地方,望不吝赐教。